異なる時点における単一のウェブサイト/閲覧セッションを比較する

Question 1

ログインして何らかのアクションを実行する必要がある場合、wgetまたは同様のツールを使用した静的ダウンロードでは不十分です。この場合、セレン必要なアクションをスクリプト化し、応答とともにすべての Web サイトコンテンツをダンプします。

基本的な考え方は、好みの言語（Python、Javascript、Rubyなど）でスクリプトを書いて、Selenium Webドライバーを使ってブラウザを操作することです。スクリプトはログインアクションや要素のクリックなどを実行し、レスポンスを受け取ったら転送されたページの本体を保存できます。Pythonの簡単な例は次のとおりです。ここで与えられた、そしてログインを示すコードここ。

<script>すべての外部タグを反復処理してソースをダウンロードするか、すべてのタグを調べて画像をダウンロードすることで、コードを拡張する必要があります<img>。この方法では、メインの HTML コードを簡単に比較し、呼び出されたスクリプト/画像の個々のファイル名を確認できます。

もう一つの可能性は、Seleniumスクリプトを次のように実行することです。ブラウザモブ、HAR ファイルをエクスポートできます。この方法では、自動化とすべてを自動的にダンプすることを組み合わせることができます。もちろん、その後、さまざまなビューアが存在する HAR ファイルを比較する必要があります。HTTPS サイトで動作させるには、BrowserMob で中間者証明書を使用する必要があることに注意してください。

Answer

ログインして何らかのアクションを実行する必要がある場合、wgetまたは同様のツールを使用した静的ダウンロードでは不十分です。この場合、セレン必要なアクションをスクリプト化し、応答とともにすべての Web サイトコンテンツをダンプします。

基本的な考え方は、好みの言語（Python、Javascript、Rubyなど）でスクリプトを書いて、Selenium Webドライバーを使ってブラウザを操作することです。スクリプトはログインアクションや要素のクリックなどを実行し、レスポンスを受け取ったら転送されたページの本体を保存できます。Pythonの簡単な例は次のとおりです。ここで与えられた、そしてログインを示すコードここ。

<script>すべての外部タグを反復処理してソースをダウンロードするか、すべてのタグを調べて画像をダウンロードすることで、コードを拡張する必要があります<img>。この方法では、メインの HTML コードを簡単に比較し、呼び出されたスクリプト/画像の個々のファイル名を確認できます。

もう一つの可能性は、Seleniumスクリプトを次のように実行することです。ブラウザモブ、HAR ファイルをエクスポートできます。この方法では、自動化とすべてを自動的にダンプすることを組み合わせることができます。もちろん、その後、さまざまなビューアが存在する HAR ファイルを比較する必要があります。HTTPS サイトで動作させるには、BrowserMob で中間者証明書を使用する必要があることに注意してください。

Question 2

ウェブサイト全体をダウンロードしたい場合は、記事をご覧ください。最高の無料ウェブサイトリッパー。

この記事には、HTTrack、PageNest、wget など、いくつかの優れたリッパーのレビューが含まれています。私は以前 HTTrack を使用したことがあり、うまく機能しました。

さらに過去に遡るには、インターネットアーカイブウェイバックマシン Web 全体をアーカイブしようとします。Web サイトのスナップショットを定期的に取得するため、比較できる複数のバージョンが見つかります。

トラフィックをキャプチャするには、Web トラフィックモニターが必要です。次の 2 つの優れた製品をお勧めします。ワイヤーシャークマイクロソフトのテレリク・フィドラー。

Answer

ウェブサイト全体をダウンロードしたい場合は、記事をご覧ください。最高の無料ウェブサイトリッパー。

この記事には、HTTrack、PageNest、wget など、いくつかの優れたリッパーのレビューが含まれています。私は以前 HTTrack を使用したことがあり、うまく機能しました。

さらに過去に遡るには、インターネットアーカイブウェイバックマシン Web 全体をアーカイブしようとします。Web サイトのスナップショットを定期的に取得するため、比較できる複数のバージョンが見つかります。

トラフィックをキャプチャするには、Web トラフィックモニターが必要です。次の 2 つの優れた製品をお勧めします。ワイヤーシャークマイクロソフトのテレリク・フィドラー。

異なる時点における単一のウェブサイト/閲覧セッションを比較する

答え1

答え2

関連情報