如何使用 OSX 從網站(最好)抓取/挖掘/誘騙/獲取資料?

如何使用 OSX 從網站(最好)抓取/挖掘/誘騙/獲取資料?

我正在嘗試從網站“抓取”資料。

有沒有一種方法只需將程式指向一個 URL,它就會抓取該網域中的所有內容。我應該如何在 OSX 10.5 上解決這個問題?如果確實需要,我可以使用 ubuntu 或 windows box 作為最後的手段。

答案1

您可以使用wget以下命令Mac OS X 版本可供下載大多數 Linux 發行版都包含用於下載網站的全部內容、圖像、CSS、JavaScript、影片、Flash 檔案等。

一旦你有了它,打開一個終端。您可能想這樣稱呼它:

wget -r -l0 -k http://www.example.com/

這樣就可以下載了一切http://www.example.com/透過連結存取。該-r選項打開遞歸下載,因此它下載的不僅僅是主頁。該-l選項設定它將查找連結和下載的頁面深度,設定為0我所做的將設定它盡可能深入。請注意,如果網站使用動態頁面生成,則可能會下載大量內容,因為可能有許多 URL 指向相同或非常相似的內容。該-k命令是可選的,會將wget所有連結、圖像標籤等轉換到本機電腦上的正確位置,以便您可以使用電腦上的 Web 瀏覽器查看它,並且它將正常運作。

請注意,它只會從以下位置下載文件www.example.com,而不是任何其他域。如果您需要它轉到其他網域,請使用開關-H將其打開,然後使用選項-D開關定義要從中下載的其他網域(例如-D comments.example.com,beta.example.com)。請小心,如果您關閉-D開關並將其設為-l/0無限,您很可能會嘗試下載整個萬維網!

另一個可能有用的開關是-N開關,它將本機檔案上的時間戳記設定為伺服器上 HTTP 標頭提供的時間Last-Modified,並且不會下載在後續下載中未更改的檔案。

欲了解更多信息,請諮詢wget文件

相關內容