如何使 wget 匹配精確的域名?

如何使 wget 匹配精確的域名?

我使用以下命令來鏡像網站:

wget -r -p -E -N -l 10 -k -nH -H -Dfoo.com,www.foo.com foo.com

我遇到的問題是 foo.com 上的某個地方有以 foo.com 結尾的網域的連結(例如 newfoo.com),並且 wget 也鏡像該網站。是否可以將網域限制為完全匹配?我不想抓取 www 以外的任何子網域。

答案1

不幸的是,wget 在抓取網站時會對接受的網域進行軟匹配。例如,以下所有網域都將與 foo.com 相符:

  • barfoo.com
  • bar.foo.com
  • 任何東西.can.gohere.foo.com

我實際上創建了一個修補wget 1.15 新增一個選項來啟用這種嚴格匹配行為。使用此補丁,整個網域必須完全匹配。它不會影響其他域列表,例如排除的域等。

相關內容