htm 內的網頁抓取架構;

htm 內的網頁抓取架構;

我是網頁抓取新手。我正在嘗試抓取連結訊息https://www.harris.com/careers/jobs對於每個工作職位。該資訊包含在以下 XPath 中://*[@id="frmJobs"]。我正在使用 Chrome“Scraper”插件。該插件無法使用所有可用的選擇器來選擇框架。我想知道是否有一種簡單的方法來創建可以進入框架並提取所有連結資訊的網站地圖。請告訴我這是否可能。

答案1

好吧,我嘗試了 Octoparse,這個網頁抓取工具來提取幀數據,我得到了我想要的所有資訊。例如,我在文字方塊中輸入“公共衛生”來搜尋職位並提取這些結果。我上傳 .otd 文件這是使用 Octoparse 提取公共衛生作業的配置規則提取公共衛生工作的結果如下所示。

相關內容