有時,我只想取得網站的目錄結構,但文件本身並不重要。我只想要他們的名字。有點像一面鏡子,其中每個條目只是一個空的虛擬檔案。
當然,執行一個wget -r
然後運行一個腳本來清空所有檔案效果很好,但感覺很浪費,因為這對伺服器和我的頻寬都不好。一種更有效但更不優雅的方法是每次遇到大檔案時手動停止並重新啟動進程,或設定非常短的逾時。至少這大大減少了我必須下載的資料量。
我的問題是:我可以讓 wget 只建立文件,而不下載其內容嗎?或者我使用了錯誤的工具來完成這項工作?
答案1
依要求發布答案:
使用--spider
選項:
wget -r -nv --spider http://example.com
然後您可以從輸出解析網站的結構。這不會下載沒有機會包含連結的文件,例如圖像。