![Wget 在保存我想要的檔案時遇到問題 - 排除目錄似乎不起作用](https://rvso.com/image/1452243/Wget%20%E5%9C%A8%E4%BF%9D%E5%AD%98%E6%88%91%E6%83%B3%E8%A6%81%E7%9A%84%E6%AA%94%E6%A1%88%E6%99%82%E9%81%87%E5%88%B0%E5%95%8F%E9%A1%8C%20-%20%E6%8E%92%E9%99%A4%E7%9B%AE%E9%8C%84%E4%BC%BC%E4%B9%8E%E4%B8%8D%E8%B5%B7%E4%BD%9C%E7%94%A8.png)
我想下載能源和氣候變遷部所有超過 500 英鎊的政府支出。這些是 .xls 和 .xlsx 文件,每月產生一次。它們存儲在如下位置:
https://www.gov.uk/government/uploads/system/uploads/attachment_data/file/209425/20130627_April_2013_PUS_.xls
其中文件後面的數字是唯一的數字,而且文件名沒有任何命名一致性。這些文件從單獨的每月頁面鏈接,其形式如下:
https://www.gov.uk/government/publications/departmental-spend-over-500-april-2013
其又從索引頁面鏈接,該索引頁面是:
https://www.gov.uk/government/collections/departmental-spend-over-500
該命令的工作原理:
wget -r --force-html -e robots=off -A xls,xlsx,"" -l 2
https://www.gov.uk/government/collections/departmental-spend-over-500
但除了.xls 和.xlsx 檔案之外,我還獲得了.gov.uk 網站的完整目錄(從我開始的位置到兩個鏈接的深度),該目錄下載了除.xls 文件之外的約100MB的文字/html 檔案這有點過分了。所以我的問題是:
如何使 wget 僅從上面的目錄中獲取來源,或排除我不想要的明顯目錄?
我嘗試過明顯的 -I 和 -X、-D 等命令,但沒有運氣。注意,我必須在 -A 開關中包含“”以及 xls 文件,否則它將忽略連結的 html 文件...
任何建議都感激不盡!順便說一句,這是在 mac 上。
答案1
哈!終於解決了。在包含中,您必須包含所有目錄的完整路徑 - 但不是 url:
wget -r -A xls,xlsx,"" -l 2 -I /government/uploads/system/uploads/attachment_data/file/,/government/publications/,/government/collections/departmental-spend-over-500 https://www.gov.uk/government/collections/departmental-spend-over-500
不明顯 - 無論如何對我來說不是...
(在程式碼框中向右捲動以查看全部內容)
編輯:實際上更好 - 我在這裡將其分開:
wget -r -A xls,xlsx,"" -l 2
-I /government/uploads/system/uploads/attachment_data/file/,
/government/publications/,
/government/collections/departmental-spend-over-500
https://www.gov.uk/government/collections/departmental-spend-over-500
1號線:遞歸,包括 xls 和 xlsx 以及沒有副檔名的檔案(- 在本例中為 html 檔案...),並從第 5 行指定的位置執行兩個級別
第 2-4 行:包含頂部 url 中的這些路徑/目錄(即排除其他所有內容)
5號線:從哪裡開始