Wget 在保存我想要的檔案時遇到問題 - 排除目錄似乎不起作用

Wget 在保存我想要的檔案時遇到問題 - 排除目錄似乎不起作用

我想下載能源和氣候變遷部所有超過 500 英鎊的政府支出。這些是 .xls 和 .xlsx 文件,每月產生一次。它們存儲在如下位置:

https://www.gov.uk/government/uploads/system/uploads/attachment_data/file/209425/20130627_April_2013_PUS_.xls

其中文件後面的數字是唯一的數字,而且文件名沒有任何命名一致性。這些文件從單獨的每月頁面鏈接,其形式如下:

https://www.gov.uk/government/publications/departmental-spend-over-500-april-2013

其又從索引頁面鏈接,該索引頁面是:

https://www.gov.uk/government/collections/departmental-spend-over-500

該命令的工作原理:

wget -r --force-html -e robots=off -A xls,xlsx,"" -l 2
https://www.gov.uk/government/collections/departmental-spend-over-500

但除了.xls 和.xlsx 檔案之外,我還獲得了.gov.uk 網站的完整目錄(從我開始的位置到兩個鏈接的深度),該目錄下載了除.xls 文件之外的約100MB的文字/html 檔案這有點過分了。所以我的問題是:

如何使 wget 僅從上面的目錄中獲取來源,或排除我不想要的明顯目錄?

我嘗試過明顯的 -I 和 -X、-D 等命令,但沒有運氣。注意,我必須在 -A 開關中包含“”以及 xls 文件,否則它將忽略連結的 html 文件...

任何建議都感激不盡!順便說一句,這是在 mac 上。

答案1

哈!終於解決了。在包含中,您必須包含所有目錄的完整路徑 - 但不是 url:

wget -r -A xls,xlsx,"" -l 2 -I /government/uploads/system/uploads/attachment_data/file/,/government/publications/,/government/collections/departmental-spend-over-500 https://www.gov.uk/government/collections/departmental-spend-over-500

不明顯 - 無論如何對我來說不是...

(在程式碼框中向右捲動以查看全部內容)

編輯:實際上更好 - 我在這裡將其分開:

wget -r -A xls,xlsx,"" -l 2 
-I /government/uploads/system/uploads/attachment_data/file/,
   /government/publications/,
   /government/collections/departmental-spend-over-500
https://www.gov.uk/government/collections/departmental-spend-over-500

1號線:遞歸,包括 xls 和 xlsx 以及沒有副檔名的檔案(- 在本例中為 html 檔案...),並從第 5 行指定的位置執行兩個級別

第 2-4 行:包含頂部 url 中的這些路徑/目錄(即排除其他所有內容)

5號線:從哪裡開始

相關內容