Marco de raspado web dentro de htm;

2024-7-8 • tag-icon

google-chrome google-chrome-extensions

Marco de raspado web dentro de htm;

Soy nuevo en el web scraping. Estoy intentando extraer la información vinculada enhttps://www.harris.com/careers/jobspara cada puesto de trabajo. La información está contenida en el siguiente XPath: //*[@id="frmJobs"]. Estoy usando el complemento "Scraper" de Chrome. El complemento no puede seleccionar el marco utilizando todos los selectores disponibles. Me pregunto si existe una manera fácil de crear un mapa del sitio que ingrese al marco y extraiga toda la información vinculada. Por favor, avíseme si esto es posible.

Respuesta1

Bueno, probé Octoparse, la herramienta de web scraping para extraer los datos del marco y obtuve toda la información que quería. Ingreso "salud pública", por ejemplo, en el cuadro de texto para buscar trabajos y extraer esos resultados. subo el archivo .otdesa es la regla de configuración que usa Octoparse para extraer los trabajos de salud pública. Los resultados de la extracción de los puestos de trabajo de la salud pública se muestran a continuación.

información relacionada