wget을 사용하여 웹사이트의 하위 디렉토리를 미러링하는 방법

wget을 사용하여 웹사이트의 하위 디렉토리를 미러링하는 방법

다음 URL을 미러링해야 합니다.

https://web.archive.org/web/20100515230709/http://markowitzbocadentist.com/

하지만 이 날짜 '20100515230709'의 파일만 미러링해야 합니다. 많은 옵션을 시도했지만 wgetindex.html 또는 다른 날짜의 파일도 가져옵니다.

어떻게 달성할 수 있나요?

답변1

wget 매뉴얼(1.15)에서:

실제로 단일 페이지와 모든 필수 항목(별도의 웹사이트에 존재하는 경우에도)을 다운로드하고 로트가 로컬에서 제대로 표시되는지 확인하기 위해 이 작성자는 '-p' 외에 몇 가지 옵션을 사용하는 것을 좋아합니다.

wget -E -H -k -K -p URL

또한 robots.txt가 일부 콘텐츠를 차단할 수 있으므로 -e robots=off를 추가하세요.

그래서 당신은 다음을 얻습니다:

wget -E -H -k -K -p -e robots=off https://web.archive.org/web/20100515230709/http://markowitzbocadentist.com/

이로 인해 38개의 파일이 생겼는데, 모두 해당 단일 페이지에 필요했고 더 이상은 필요하지 않았습니다.

해당 페이지 이상의 내용을 얻으려면 이전 스냅샷(일부)도 다운로드해야 합니다. archive.org는변경됨페이지,완전한 사이트특정 날짜거의 항상 해당 날짜에 캡처된 페이지로 구성되지만, 이전 날짜에도 캡처되었습니다. 예를 들어 "절차"에 대한 링크는 언급한 날짜(2010-05-15 23:07:09)보다 이전인 2010-10-21 08:29:33에 작성된 복사본을 나타냅니다.

따라서 귀하의 질문에 대한 실제 대답은 다음과 같습니다.완벽한적어도 다른 날짜의 스냅샷 부분을 다운로드하지 않고도 한 날짜의 스냅샷을 만들 수 있습니다.

-m(미러 옵션)을 추가하면 해당 페이지도 가져옵니다.

관련 정보