
我正在使用 wget 來檢索特定的 pdf 文件http://www.aph.gov.au/
我只想檢索議事錄文件(分庭訴訟紀錄)。
兩種情況:
- 有一頁列出了議事錄成績單:
http://www.aph.gov.au/Parliamentary_Business/Hansard/Hansreps_2011
點擊此頁面上的日期/日期連結以檢索對資料庫查詢的回應,該回應顯示更多文件的連結。我只想檢索「下載目前議事錄」指示的文件,這是一整天的記錄(我不想檢索「片段」)。
我可以單擊對查詢的回應,以獲取全天記錄的 URL,將它們打包到文件中並使用 wget -i 檢索它們。
我正在尋找一種使用 wget 只獲取全天成績單的方法。
- 頁面上只列出了一些年份。然而,進入資料庫並在 Hansard 上進行高級搜索,然後單擊螢幕左上角的十年範圍,然後單擊一年,會產生該年不同日期的列表。同樣,顯示的頂級連結不會產生全天記錄的 pdf 文件,但單擊標題會顯示一個頁面,其中顯示全天記錄的連結。
我想使用 wget 來檢索全天記錄的 pdf 檔案。
任何建議將不勝感激。我正在使用“半手動”方法取得進展,但它速度慢且勞動強度大。
答案1
您將無法僅使用 來執行此操作wget
。
您需要建立一個腳本來抓取帶有日期連結的第一頁,然後解析該頁面以獲得正確的 URL。然後,腳本將抓取該 URL 處的頁面並解析它以取得 PDF 的 URL。
這可以使用自訂 python 腳本來完成,該腳本使用美麗湯圖書館.