![如何使 wget 匹配精確的域名?](https://rvso.com/image/1413942/%E5%A6%82%E4%BD%95%E4%BD%BF%20wget%20%E5%8C%B9%E9%85%8D%E7%B2%BE%E7%A2%BA%E7%9A%84%E5%9F%9F%E5%90%8D%EF%BC%9F.png)
我使用以下命令來鏡像網站:
wget -r -p -E -N -l 10 -k -nH -H -Dfoo.com,www.foo.com foo.com
我遇到的問題是 foo.com 上的某個地方有以 foo.com 結尾的網域的連結(例如 newfoo.com),並且 wget 也鏡像該網站。是否可以將網域限制為完全匹配?我不想抓取 www 以外的任何子網域。
答案1
不幸的是,wget 在抓取網站時會對接受的網域進行軟匹配。例如,以下所有網域都將與 foo.com 相符:
- barfoo.com
- bar.foo.com
- 任何東西.can.gohere.foo.com
我實際上創建了一個修補wget 1.15 新增一個選項來啟用這種嚴格匹配行為。使用此補丁,整個網域必須完全匹配。它不會影響其他域列表,例如排除的域等。