
次の URL をミラーリングする必要があります。
https://web.archive.org/web/20100515230709/http://markowitzbocadentist.com/
しかし、この日付「20100515230709」のファイルのみをミラーリングする必要があります。多くのオプションを試しましたwget
が、index.html または他の日付のファイルも取得されます。
どうすればそれを達成できるでしょうか?
答え1
wget マニュアル (1.15) より:
実際、1 つのページとそのすべての要件 (別々の Web サイトに存在する場合でも) をダウンロードし、すべてがローカルで適切に表示されるようにするために、この著者は '-p' に加えていくつかのオプションを使用することを好みます。
wget -E -H -k -K -p URL
また、robots.txtが一部のコンテンツをブロックしている可能性があるため、-e robots=offを追加します。
つまり、次のようになります:
wget -E -H -k -K -p -e robots=off https://web.archive.org/web/20100515230709/http://markowitzbocadentist.com/
これにより、1 つのページに必要なファイルがすべて 38 個作成されました。
そのページ以外を取得したい場合は、以前のスナップショット(の一部)もダウンロードする必要があります。archive.orgはかわったページ、完全なサイトに特定の日付ほとんどの場合、その日付にキャプチャされたページで構成されますが、それより前の日付のページも含まれます。たとえば、「手順」へのリンクは、2010-10-21 08:29:33 に作成されたコピーを参照しており、これはあなたが指定した日付 (2010-05-15 23:07:09) よりも前の日付です。
あなたの質問に対する実際の答えは、完了少なくとも別の日付のスナップショットから部分をダウンロードせずに、ある日付のスナップショットを作成します。
-m (ミラー オプション) を追加すると、それらのページも取得されます。