Cómo funciona

Web Page Scraping funciona directamente en la página actual: abra el panel, haga clic en elementos para crear columnas y exporte la tabla generada como CSV.

Paso 1: Instale y abra una página compatible

Instale Web Page Scraping y abra la página de la que desea extraer datos. La extensión solo funciona en páginas http(s) normales y rinde mejor en diseños repetidos (tarjetas, filas, elementos de lista).

Paso 2: Abra el panel

Haga clic en el icono de la extensión en la barra de herramientas del navegador. Aparecerá un panel flotante en la esquina inferior derecha con dos secciones: Columns y Table.

Icono de Web Page Scraping en la barra de herramientas de Chrome
Resultados de búsqueda con el panel flotante resaltado y una flecha curva apuntando a él.
Ejemplo de resultados de búsqueda con el panel abierto: Columns y Table.

Paso 3: Elija columnas haciendo clic en elementos de la página

Haga clic en un elemento de la página (por ejemplo, título, precio o valoración del producto). La extensión resalta elementos similares y los añade como una columna. Repita para cada campo que quiera en la tabla de salida.

Resultados con resaltados; el enlace del título objetivo está enmarcado con una flecha curva.
Al elegir un campo (p. ej. un título de producto) se añade una columna completa de elementos coincidentes.

Paso 4: Ajuste y actualice cuando sea necesario

Puede eliminar una columna elegida de la lista Columns, con clic derecho en un elemento resaltado o haciendo clic de nuevo en un elemento ya resaltado.

Refresh table es importante cuando la página crece después de crear la tabla — por ejemplo, con scroll infinito o bloques «cargar más» que añaden tarjetas o filas. Esos elementos nuevos no estaban en el DOM cuando eligió las columnas, así que la extensión no los incluye automáticamente. Desplácese (o cargue) los elementos extra y haga clic en Refresh table para que la vista previa y el CSV reflejen todo lo que hay actualmente en la página.

Lo mismo aplica si fragmentos cargados de forma diferida reemplazan o desplazan contenido: actualizar vuelve a leer el DOM en vivo para mantener precisos el número de filas y el texto de las celdas.

Área de tabla del panel resaltada con flecha curva apuntando al control Refresh table.
Tras cargar más resultados desplazándose, use Refresh table para que los nuevos elementos aparezcan en la cuadrícula.

Paso 5: Exporte CSV

Revise las filas alineadas en Table y exporte con Copy CSV o Save CSV. Los archivos guardados usan el nombre predeterminado table-results.csv.

Panel mostrando la tabla de resultados; Save CSV resaltado con una flecha curva.
Exporte con Copy CSV o Save CSV cuando la vista previa sea correcta.

Qué hace el algoritmo

La extensión mantiene el flujo guiado por el usuario y usa coincidencia estructural para construir filas a partir de sus selecciones:

  • La primera selección exitosa establece una huella del contenedor repetido para la página.
  • Cada clic siguiente se convierte en una relación estructural del contenedor al elemento objetivo.
  • Esa relación se reproduce en contenedores coincidentes para producir una columna completa.
  • Table alinea las columnas por orden DOM para generar filas.
  • El CSV se genera desde el DOM en vivo actual, así que actualizar refleja el contenido presente.

Consejos para mejores resultados

  • Noticias financieras y legales: Elija primero el titular, luego el fragmento y el enlace de la fuente para crear filas de artículos limpias.
  • Resultados de búsqueda: Elija título, URL y fragmento como columnas separadas para exportaciones de consultas.
  • Páginas de productos: Elija primero título y precio, luego columnas opcionales de valoración/recuento de reseñas.
  • Si un clic no muestra coincidencias útiles, elija un elemento más específico dentro de una tarjeta/fila repetida.

Limitaciones

Solo páginas http(s): El panel no se inyecta en páginas internas de Chrome, páginas de extensiones ni Chrome Web Store.

Alcance de la página actual: No hay paginación ni scroll automático. Desplácese o cargue datos primero, luego actualice.

Celdas orientadas a texto: Las exportaciones son valores CSV de texto de elementos coincidentes. Los activos binarios no se exportan directamente.

Sin iframes: El contenido dentro de iframes no se captura.

Solución de problemas

  • El panel no se abre: verifique que la URL comience con http:// o https://.
  • Elementos incorrectos resaltados: haga clic en un elemento más profundo dentro de una tarjeta/fila repetida para mejorar la coincidencia.
  • La tabla parece desactualizada: haga clic en Refresh table después de que aparezca contenido cargado de forma diferida.
  • Necesita soporte: use Report error en el pie del panel para enviar un informe estructurado.

Hoja de ruta

Planeamos añadir exportación JSON, una API e integración MCP (Model Context Protocol) para que bots autoalojados y LLM locales puedan solicitar datos estructurados sin pasos manuales en el navegador.

Empiece después de instalar