WinHTTrack을 사용하여 웹사이트 페이지를 복사/미러링할 수 없습니다.

WinHTTrack을 사용하여 웹사이트 페이지를 복사/미러링할 수 없습니다.

나는 사용하고있다Httrack웹사이트를 복사/미러링하고 한 가지 문제에 직면했습니다.

나는 이야기하고있다이것웹사이트. 내가 커버하고 싶다고 생각해이것모든 내부 링크가 포함된 페이지(해당 페이지에서 문제 6.11, 문제 6.10을 볼 수 있음) 그래서 나는 다음을 시도했습니다.

  1. 프로젝트 이름과 URL을 입력하세요:

스크린샷

  1. 설정 옵션은 위 아래로 모두 이동할 수 있습니다.

여기에 이미지 설명을 입력하세요

그리고 미러링을 시작했고 프로세스가 완료되었지만 index.html을 탐색하면 기본 페이지가 올바르게 표시되지만 추가 링크(이전 문제 6.11, 6.10 등에서 언급한 sab 페이지)는 표시되지 않습니다. 파일 이름 피드만 표시됩니다.( 무엇이 잘못되고 있는지 직접 확인해보세요)

이 문제를 어떻게 해결합니까?

답변1

나는 당신이 읽을 것을 제안합니다자주하는 질문

다음은 WinHTTrack 웹사이트의 인용문입니다.

질문: 일부 사이트는 매우 잘 캡처되지만 다른 사이트는 그렇지 않습니다. 왜?

답변: 미러가 실패하는 데는 여러 가지 이유(및 해결 방법)가 있습니다. 로그 파일(및 이 FAQ!)을 읽는 것은 일반적으로 무슨 일이 일어났는지 파악하는 데 매우 좋은 생각입니다.

사이트 내의 링크는 기본적으로 캡처되지 않는 외부 링크 또는 다른(또는 상위) 디렉토리에 있는 링크를 나타냅니다. 필터 사용은 HTTrack의 강력한 옵션 중 하나이므로 일반적으로 솔루션입니다. 위의 질문/답변을 참고하세요. 웹사이트 'robots.txt' 규칙은 여러 웹사이트 부분에 대한 접근을 금지합니다. 이를 비활성화할 수 있지만 각별히 주의해야 합니다! HTTrack은 기본 사용자 에이전트 ID에 따라 필터링됩니다. 브라우저 사용자 에이전트 ID를 익명 ID(MSIE, Netscape..)로 변경할 수 있습니다. 여기서도 이 측정값이 적용될 수 있으므로 이 옵션을 주의해서 사용하세요. 대역폭 남용을 방지하려면 (남용 FAQ도 참조하세요!)

그러나 (아직) 처리할 수 없는 경우도 있습니다.

플래시 사이트- 전폭적인 지원은 없다

집중적인 Java/Javascript 사이트- 가짜이거나 불완전할 수 있음

리디렉션 및 기타 트릭이 내장된 복잡한 CGI- 처리가 매우 복잡하므로 문제가 발생할 수 있음

HTML 코드의 구문 분석 문제(예: 잘못된 주석으로 인해 엔진이 속이는 경우)

댓글(-->)이 감지되었습니다. 드문 경우이지만 발생할 수 있습니다. 버그 보고서는 일반적으로 좋습니다!

참고: 일부 사이트의 경우 "이전 HTTP/1.0 요청 강제 적용" 옵션을 설정하는 것이 유용할 수 있습니다. 이 옵션은 더 기본적인 요청(예: HEAD 요청 없음)을 사용하기 때문입니다. 이로 인해 성능이 저하되지만 일부 CGI 기반 사이트와의 호환성이 향상됩니다.

PD. 웹사이트를 100% 캡처할 수 없는 데는 여러 가지 이유가 있습니다. 저는 슈퍼유저가 매우 열정적이라고 생각하지만 뒤에서 어떤 시스템이 실행되고 있는지 알아내기 위해 웹사이트에 리버스 엔진을 사용하지는 않을 것입니다(내 의견이야).

관련 정보