如何使用 OSX 從網站（最好）抓取/挖掘/誘騙/獲取資料？

Question

您可以使用wget以下命令Mac OS X 版本可供下載大多數 Linux 發行版都包含用於下載網站的全部內容、圖像、CSS、JavaScript、影片、Flash 檔案等。

一旦你有了它，打開一個終端。您可能想這樣稱呼它：

wget -r -l0 -k http://www.example.com/

這樣就可以下載了一切可http://www.example.com/透過連結存取。該-r選項打開遞歸下載，因此它下載的不僅僅是主頁。該-l選項設定它將查找連結和下載的頁面深度，設定為0我所做的將設定它盡可能深入。請注意，如果網站使用動態頁面生成，則可能會下載大量內容，因為可能有許多 URL 指向相同或非常相似的內容。該-k命令是可選的，會將wget所有連結、圖像標籤等轉換到本機電腦上的正確位置，以便您可以使用電腦上的 Web 瀏覽器查看它，並且它將正常運作。

請注意，它只會從以下位置下載文件www.example.com，而不是任何其他域。如果您需要它轉到其他網域，請使用開關-H將其打開，然後使用選項-D開關定義要從中下載的其他網域（例如-D comments.example.com,beta.example.com）。請小心，如果您關閉-D開關並將其設為-l/0無限，您很可能會嘗試下載整個萬維網！

另一個可能有用的開關是-N開關，它將本機檔案上的時間戳記設定為伺服器上 HTTP 標頭提供的時間Last-Modified，並且不會下載在後續下載中未更改的檔案。

欲了解更多信息，請諮詢wget文件。

Answer 1