wget をドメイン名と正確に一致させるにはどうすればよいですか?

wget をドメイン名と正確に一致させるにはどうすればよいですか?

サイトをミラーリングするには次のコマンドを使用します。

wget -r -p -E -N -l 10 -k -nH -H -Dfoo.com,www.foo.com foo.com

私が抱えている問題は、foo.com のどこかに foo.com で終わるドメイン (たとえば newfoo.com) へのリンクがあり、wget もそのサイトをミラーリングしていることです。ドメインを完全一致に制限することは可能ですか? www 以外のサブドメインはクロールしたくありません。

答え1

残念ながら、wget はサイトをクロールするときに、受け入れられたドメインに対してソフト マッチを実行します。たとえば、次のドメインはすべて foo.com に一致します。

  • ホームページ
  • バー
  • 何でもできる。

私は実際にパッチwget 1.15 では、この厳密な一致動作を有効にするオプションが追加されます。このパッチを使用すると、ドメイン全体が正確に一致する必要があります。除外ドメインなどの他のドメイン リストには影響しません。

関連情報