下載網頁的所有來源文件

下載網頁的所有來源文件

我想下載一個資料庫搜尋引擎網頁的來源檔案。使用curl我只能下載html主頁。我還想下載連結到網頁並在主 html 頁面中提到的所有 javascript 檔案、css 檔案和 php 檔案。使用curl/wget 或其他一些實用程式可以做到這一點嗎?

答案1

首先,您應該諮詢網站運營商,確認這是他們服務的可接受使用方式。之後,您可以執行以下操作:

wget -pk example.com

-p取得查看頁面的必要條件(Javascript、CSS 等)。-k將頁面上的連結轉換為可用於本地查看的連結。

man wget

-p, --頁面必備條件

此選項使 Wget 下載正確顯示給定 HTML 頁面所需的所有檔案。這包括內聯圖像、聲音和引用的樣式表等內容。

[...]

-k,--轉換鏈接

下載完成後,轉換文件中的鏈接,使其適合本地檢視。這不僅會影響可見的超鏈接,還會影響文件中鏈接到外部內容的任何部分,例如嵌入圖像、到樣式表的鏈接、到非 HTML 內容的超鏈接等。

相關內容