![wget이 정확한 도메인 이름과 일치하도록 하려면 어떻게 해야 합니까?](https://rvso.com/image/1413942/wget%EC%9D%B4%20%EC%A0%95%ED%99%95%ED%95%9C%20%EB%8F%84%EB%A9%94%EC%9D%B8%20%EC%9D%B4%EB%A6%84%EA%B3%BC%20%EC%9D%BC%EC%B9%98%ED%95%98%EB%8F%84%EB%A1%9D%20%ED%95%98%EB%A0%A4%EB%A9%B4%20%EC%96%B4%EB%96%BB%EA%B2%8C%20%ED%95%B4%EC%95%BC%20%ED%95%A9%EB%8B%88%EA%B9%8C%3F.png)
사이트를 미러링하기 위해 다음 명령을 사용하고 있습니다.
wget -r -p -E -N -l 10 -k -nH -H -Dfoo.com,www.foo.com foo.com
내가 겪고 있는 문제는 foo.com 어딘가에 foo.com(예: newfoo.com)으로 끝나는 도메인에 대한 링크가 있고 wget도 해당 사이트를 미러링하고 있다는 것입니다. 도메인을 정확히 일치하도록 제한할 수 있나요? www 이외의 하위 도메인을 크롤링하고 싶지 않습니다.
답변1
불행하게도 wget은 사이트를 크롤링할 때 허용 도메인에 대해 소프트 매치를 수행합니다. 예를 들어 다음 도메인은 모두 foo.com과 일치합니다.
- barfoo.com
- bar.foo.com
- everything.can.gohere.foo.com
나는 실제로반점wget 1.15에서는 이 엄격한 일치 동작을 활성화하는 옵션을 추가합니다. 이 패치를 사용하면 전체 도메인이 정확히 일치해야 합니다. 제외된 도메인 등과 같은 다른 도메인 목록에는 영향을 미치지 않습니다.