使用 Wget 抓取網站並按 URL 模式過濾

使用 Wget 抓取網站並按 URL 模式過濾

我正在嘗試抓取一個網站,並希望 wget 遞歸地追蹤所有連結(位於同一網域內),但僅在該頁面的 URL 與某個模式匹配時才下載該頁面。

我嘗試過這樣的事情:

wget https://www.abc.def --no-clobber -r -e robots=off -U mozilla --domains abc.def --html-extension --accept-regex 'https://www.abc.def/g/h/.*'

它確實只下載帶有 'https://www.abc.def/g/h/。但是,它根本不會嘗試追蹤其他連結。

任何想法?

先致謝!

相關內容