WinHTTrack を使用して Web サイト ページをコピー/ミラーリングできない

WinHTTrack を使用して Web サイト ページをコピー/ミラーリングできない

使っていますホットトラックウェブサイトをコピー/ミラーリングする際に、1 つの問題に直面します。

私が話しているのはこれウェブサイト。カバーしたいものを検討してくださいこれすべての内部リンクを含むページ (そのページから問題 6.11、問題 6.10 などを確認できます)。そこで、次のことを試しました。

  1. プロジェクト名と URL を入力してください:

スクリーンショット

  1. 設定オプションは上下に動かすことができます

ここに画像の説明を入力してください

そしてミラーリングを開始し、プロセスは完了しましたが、index.html を参照すると、メイン ページは正しく表示されますが、それ以降のリンク (前述の問題 6.11、6.10 などのサブ ページ) は表示されず、ファイル名フィードのみが表示されます。(何が問題なのかを自分で確認してください)

この問題を解決するにはどうすればよいですか?

答え1

ぜひ読んでみてくださいよくある質問

以下は WinHTTrack Web サイトからの引用です。

質問: 一部のサイトは非常によく撮影されていますが、他のサイトはそうではありません。なぜでしょうか?

回答: ミラーが失敗する理由 (および解決策) はいくつかあります。ログ ファイル (およびこの FAQ) を読むことは、何が起こったかを把握するのに非常に良い方法です。

サイト内のリンクは、デフォルトではキャプチャされない外部リンクまたは別の (または上位の) ディレクトリにあるリンクを参照します。フィルターの使用は、HTTrack の強力なオプションの 1 つであるため、通常は解決策となります。上記の質問/回答を参照してください。Web サイトの「robots.txt」ルールにより、Web サイトのいくつかの部分へのアクセスが禁止されています。これらを無効にすることはできますが、細心の注意が必要です。HTTrack はフィルターされます (デフォルトのユーザー エージェント ID によって)。ブラウザー ユーザー エージェント ID を匿名の ID (MSIE、Netscape など) に変更できます。ここでも、このオプションは慎重に使用してください。この対策は、帯域幅の乱用を回避するために導入されている可能性があります (乱用の FAQ も参照してください)。

ただし、(まだ) 処理できないケースもあります。

フラッシュサイト- 完全なサポートはありません

Java/Javascript を多用するサイト- 偽物/不完全な可能性があります

リダイレクトやその他のトリックを組み込んだ複雑な CGI- 取り扱いが非常に複雑で、問題を引き起こす可能性がある

HTMLコードの解析問題(エンジンが誤ったコメントによって騙されるケース(

コメント (-->) が検出されました。まれなケースですが、発生する可能性があります。その場合は、バグ レポートを送信すると良いでしょう。

注: 一部のサイトでは、「古い HTTP/1.0 リクエストを強制する」オプションを設定すると便利です。このオプションは、より基本的なリクエスト (たとえば、HEAD リクエストなし) を使用するためです。これによりパフォーマンスが低下しますが、一部の CGI ベースのサイトとの互換性が向上します。

PD. ウェブサイトを 100% キャプチャできない理由は数多くありますが、SuperUser では熱心に取り組んでいますが、背後でどのシステムが動作しているかを発見するためにウェブサイトのリバース エンジニアリングを行うつもりはありません。それは私の意見です)。

関連情報