wget이 정확한 도메인 이름과 일치하도록 하려면 어떻게 해야 합니까?

wget이 정확한 도메인 이름과 일치하도록 하려면 어떻게 해야 합니까?

사이트를 미러링하기 위해 다음 명령을 사용하고 있습니다.

wget -r -p -E -N -l 10 -k -nH -H -Dfoo.com,www.foo.com foo.com

내가 겪고 있는 문제는 foo.com 어딘가에 foo.com(예: newfoo.com)으로 끝나는 도메인에 대한 링크가 있고 wget도 해당 사이트를 미러링하고 있다는 것입니다. 도메인을 정확히 일치하도록 제한할 수 있나요? www 이외의 하위 도메인을 크롤링하고 싶지 않습니다.

답변1

불행하게도 wget은 사이트를 크롤링할 때 허용 도메인에 대해 소프트 매치를 수행합니다. 예를 들어 다음 도메인은 모두 foo.com과 일치합니다.

  • barfoo.com
  • bar.foo.com
  • everything.can.gohere.foo.com

나는 실제로반점wget 1.15에서는 이 엄격한 일치 동작을 활성화하는 옵션을 추가합니다. 이 패치를 사용하면 전체 도메인이 정확히 일치해야 합니다. 제외된 도메인 등과 같은 다른 도메인 목록에는 영향을 미치지 않습니다.

관련 정보