WinHTTrack を使用して Web サイトページをコピー/ミラーリングできない

Question

ぜひ読んでみてくださいよくある質問

以下は WinHTTrack Web サイトからの引用です。

質問: 一部のサイトは非常によく撮影されていますが、他のサイトはそうではありません。なぜでしょうか?

回答: ミラーが失敗する理由 (および解決策) はいくつかあります。ログファイル (およびこの FAQ) を読むことは、何が起こったかを把握するのに非常に良い方法です。

サイト内のリンクは、デフォルトではキャプチャされない外部リンクまたは別の (または上位の) ディレクトリにあるリンクを参照します。フィルターの使用は、HTTrack の強力なオプションの 1 つであるため、通常は解決策となります。上記の質問/回答を参照してください。Web サイトの「robots.txt」ルールにより、Web サイトのいくつかの部分へのアクセスが禁止されています。これらを無効にすることはできますが、細心の注意が必要です。HTTrack はフィルターされます (デフォルトのユーザーエージェント ID によって)。ブラウザーユーザーエージェント ID を匿名の ID (MSIE、Netscape など) に変更できます。ここでも、このオプションは慎重に使用してください。この対策は、帯域幅の乱用を回避するために導入されている可能性があります (乱用の FAQ も参照してください)。

ただし、(まだ) 処理できないケースもあります。

フラッシュサイト- 完全なサポートはありません

Java/Javascript を多用するサイト- 偽物/不完全な可能性があります

リダイレクトやその他のトリックを組み込んだ複雑な CGI- 取り扱いが非常に複雑で、問題を引き起こす可能性がある

HTMLコードの解析問題（エンジンが誤ったコメントによって騙されるケース（
コメント (-->) が検出されました。まれなケースですが、発生する可能性があります。その場合は、バグレポートを送信すると良いでしょう。

注: 一部のサイトでは、「古い HTTP/1.0 リクエストを強制する」オプションを設定すると便利です。このオプションは、より基本的なリクエスト (たとえば、HEAD リクエストなし) を使用するためです。これによりパフォーマンスが低下しますが、一部の CGI ベースのサイトとの互換性が向上します。

PD. ウェブサイトを 100% キャプチャできない理由は数多くありますが、SuperUser では熱心に取り組んでいますが、背後でどのシステムが動作しているかを発見するためにウェブサイトのリバースエンジニアリングを行うつもりはありません。それは私の意見です）。

Answer 1

ぜひ読んでみてくださいよくある質問

以下は WinHTTrack Web サイトからの引用です。

質問: 一部のサイトは非常によく撮影されていますが、他のサイトはそうではありません。なぜでしょうか?

回答: ミラーが失敗する理由 (および解決策) はいくつかあります。ログファイル (およびこの FAQ) を読むことは、何が起こったかを把握するのに非常に良い方法です。

サイト内のリンクは、デフォルトではキャプチャされない外部リンクまたは別の (または上位の) ディレクトリにあるリンクを参照します。フィルターの使用は、HTTrack の強力なオプションの 1 つであるため、通常は解決策となります。上記の質問/回答を参照してください。Web サイトの「robots.txt」ルールにより、Web サイトのいくつかの部分へのアクセスが禁止されています。これらを無効にすることはできますが、細心の注意が必要です。HTTrack はフィルターされます (デフォルトのユーザーエージェント ID によって)。ブラウザーユーザーエージェント ID を匿名の ID (MSIE、Netscape など) に変更できます。ここでも、このオプションは慎重に使用してください。この対策は、帯域幅の乱用を回避するために導入されている可能性があります (乱用の FAQ も参照してください)。

ただし、(まだ) 処理できないケースもあります。

フラッシュサイト- 完全なサポートはありません

Java/Javascript を多用するサイト- 偽物/不完全な可能性があります

リダイレクトやその他のトリックを組み込んだ複雑な CGI- 取り扱いが非常に複雑で、問題を引き起こす可能性がある

HTMLコードの解析問題（エンジンが誤ったコメントによって騙されるケース（
コメント (-->) が検出されました。まれなケースですが、発生する可能性があります。その場合は、バグレポートを送信すると良いでしょう。

注: 一部のサイトでは、「古い HTTP/1.0 リクエストを強制する」オプションを設定すると便利です。このオプションは、より基本的なリクエスト (たとえば、HEAD リクエストなし) を使用するためです。これによりパフォーマンスが低下しますが、一部の CGI ベースのサイトとの互換性が向上します。

PD. ウェブサイトを 100% キャプチャできない理由は数多くありますが、SuperUser では熱心に取り組んでいますが、背後でどのシステムが動作しているかを発見するためにウェブサイトのリバースエンジニアリングを行うつもりはありません。それは私の意見です）。

WinHTTrack を使用して Web サイトページをコピー/ミラーリングできない

答え1

関連情報