Quadro de raspagem da Web em htm;

Quadro de raspagem da Web em htm;

Eu sou novo em web scraping. Estou tentando raspar as informações vinculadas emhttps://www.harris.com/careers/jobspara cada cargo. As informações estão contidas no seguinte XPath: //*[@id="frmJobs"]. Estou usando o plugin "Scraper" do Chrome. O plugin não consegue selecionar o quadro usando todos os seletores disponíveis. Gostaria de saber se existe uma maneira fácil de criar um mapa do site que entre no quadro e extraia todas as informações vinculadas. Por favor, deixe-me saber se isso é possível.

Responder1

Bem, experimentei o Octoparse, a ferramenta de web scraping para extrair os dados do frame e consegui todas as informações que queria. Eu insiro “saúde pública”, por exemplo, na caixa de texto para pesquisar os empregos e extrair esses resultados. Eu carrego o arquivo .otdessa é a regra de configuração usando Octoparse para extrair os trabalhos de saúde pública. Os resultados da extração dos empregos da saúde pública são apresentados a seguir.

informação relacionada