WinHTTrack을 사용하여 웹사이트 페이지를 복사/미러링할 수 없습니다.

Question

나는 당신이 읽을 것을 제안합니다자주하는 질문

다음은 WinHTTrack 웹사이트의 인용문입니다.

질문: 일부 사이트는 매우 잘 캡처되지만 다른 사이트는 그렇지 않습니다. 왜?

답변: 미러가 실패하는 데는 여러 가지 이유(및 해결 방법)가 있습니다. 로그 파일(및 이 FAQ!)을 읽는 것은 일반적으로 무슨 일이 일어났는지 파악하는 데 매우 좋은 생각입니다.

사이트 내의 링크는 기본적으로 캡처되지 않는 외부 링크 또는 다른(또는 상위) 디렉토리에 있는 링크를 나타냅니다. 필터 사용은 HTTrack의 강력한 옵션 중 하나이므로 일반적으로 솔루션입니다. 위의 질문/답변을 참고하세요. 웹사이트 'robots.txt' 규칙은 여러 웹사이트 부분에 대한 접근을 금지합니다. 이를 비활성화할 수 있지만 각별히 주의해야 합니다! HTTrack은 기본 사용자 에이전트 ID에 따라 필터링됩니다. 브라우저 사용자 에이전트 ID를 익명 ID(MSIE, Netscape..)로 변경할 수 있습니다. 여기서도 이 측정값이 적용될 수 있으므로 이 옵션을 주의해서 사용하세요. 대역폭 남용을 방지하려면 (남용 FAQ도 참조하세요!)

그러나 (아직) 처리할 수 없는 경우도 있습니다.

플래시 사이트- 전폭적인 지원은 없다

집중적인 Java/Javascript 사이트- 가짜이거나 불완전할 수 있음

리디렉션 및 기타 트릭이 내장된 복잡한 CGI- 처리가 매우 복잡하므로 문제가 발생할 수 있음

HTML 코드의 구문 분석 문제(예: 잘못된 주석으로 인해 엔진이 속이는 경우)
댓글(-->)이 감지되었습니다. 드문 경우이지만 발생할 수 있습니다. 버그 보고서는 일반적으로 좋습니다!

참고: 일부 사이트의 경우 "이전 HTTP/1.0 요청 강제 적용" 옵션을 설정하는 것이 유용할 수 있습니다. 이 옵션은 더 기본적인 요청(예: HEAD 요청 없음)을 사용하기 때문입니다. 이로 인해 성능이 저하되지만 일부 CGI 기반 사이트와의 호환성이 향상됩니다.

PD. 웹사이트를 100% 캡처할 수 없는 데는 여러 가지 이유가 있습니다. 저는 슈퍼유저가 매우 열정적이라고 생각하지만 뒤에서 어떤 시스템이 실행되고 있는지 알아내기 위해 웹사이트에 리버스 엔진을 사용하지는 않을 것입니다(내 의견이야).

Answer 1

나는 당신이 읽을 것을 제안합니다자주하는 질문

다음은 WinHTTrack 웹사이트의 인용문입니다.

질문: 일부 사이트는 매우 잘 캡처되지만 다른 사이트는 그렇지 않습니다. 왜?

답변: 미러가 실패하는 데는 여러 가지 이유(및 해결 방법)가 있습니다. 로그 파일(및 이 FAQ!)을 읽는 것은 일반적으로 무슨 일이 일어났는지 파악하는 데 매우 좋은 생각입니다.

사이트 내의 링크는 기본적으로 캡처되지 않는 외부 링크 또는 다른(또는 상위) 디렉토리에 있는 링크를 나타냅니다. 필터 사용은 HTTrack의 강력한 옵션 중 하나이므로 일반적으로 솔루션입니다. 위의 질문/답변을 참고하세요. 웹사이트 'robots.txt' 규칙은 여러 웹사이트 부분에 대한 접근을 금지합니다. 이를 비활성화할 수 있지만 각별히 주의해야 합니다! HTTrack은 기본 사용자 에이전트 ID에 따라 필터링됩니다. 브라우저 사용자 에이전트 ID를 익명 ID(MSIE, Netscape..)로 변경할 수 있습니다. 여기서도 이 측정값이 적용될 수 있으므로 이 옵션을 주의해서 사용하세요. 대역폭 남용을 방지하려면 (남용 FAQ도 참조하세요!)

그러나 (아직) 처리할 수 없는 경우도 있습니다.

플래시 사이트- 전폭적인 지원은 없다

집중적인 Java/Javascript 사이트- 가짜이거나 불완전할 수 있음

리디렉션 및 기타 트릭이 내장된 복잡한 CGI- 처리가 매우 복잡하므로 문제가 발생할 수 있음

HTML 코드의 구문 분석 문제(예: 잘못된 주석으로 인해 엔진이 속이는 경우)
댓글(-->)이 감지되었습니다. 드문 경우이지만 발생할 수 있습니다. 버그 보고서는 일반적으로 좋습니다!

참고: 일부 사이트의 경우 "이전 HTTP/1.0 요청 강제 적용" 옵션을 설정하는 것이 유용할 수 있습니다. 이 옵션은 더 기본적인 요청(예: HEAD 요청 없음)을 사용하기 때문입니다. 이로 인해 성능이 저하되지만 일부 CGI 기반 사이트와의 호환성이 향상됩니다.

PD. 웹사이트를 100% 캡처할 수 없는 데는 여러 가지 이유가 있습니다. 저는 슈퍼유저가 매우 열정적이라고 생각하지만 뒤에서 어떤 시스템이 실행되고 있는지 알아내기 위해 웹사이트에 리버스 엔진을 사용하지는 않을 것입니다(내 의견이야).

WinHTTrack을 사용하여 웹사이트 페이지를 복사/미러링할 수 없습니다.

답변1

관련 정보