サイトをミラーリングするには次のコマンドを使用します。
wget -r -p -E -N -l 10 -k -nH -H -Dfoo.com,www.foo.com foo.com
私が抱えている問題は、foo.com のどこかに foo.com で終わるドメイン (たとえば newfoo.com) へのリンクがあり、wget もそのサイトをミラーリングしていることです。ドメインを完全一致に制限することは可能ですか? www 以外のサブドメインはクロールしたくありません。
答え1
残念ながら、wget はサイトをクロールするときに、受け入れられたドメインに対してソフト マッチを実行します。たとえば、次のドメインはすべて foo.com に一致します。
- ホームページ
- バー
- 何でもできる。
私は実際にパッチwget 1.15 では、この厳密な一致動作を有効にするオプションが追加されます。このパッチを使用すると、ドメイン全体が正確に一致する必要があります。除外ドメインなどの他のドメイン リストには影響しません。