wget を使ってウェブサイトのサブディレクトリをミラーリングするにはどうすればいいですか?

wget を使ってウェブサイトのサブディレクトリをミラーリングするにはどうすればいいですか?

次の URL をミラーリングする必要があります。

https://web.archive.org/web/20100515230709/http://markowitzbocadentist.com/

しかし、この日付「20100515230709」のファイルのみをミラーリングする必要があります。多くのオプションを試しましたwgetが、index.html または他の日付のファイルも取得されます。

どうすればそれを達成できるでしょうか?

答え1

wget マニュアル (1.15) より:

実際、1 つのページとそのすべての要件 (別々の Web サイトに存在する場合でも) をダウンロードし、すべてがローカルで適切に表示されるようにするために、この著者は '-p' に加えていくつかのオプションを使用することを好みます。

wget -E -H -k -K -p URL

また、robots.txtが一部のコンテンツをブロックしている可能性があるため、-e robots=offを追加します。

つまり、次のようになります:

wget -E -H -k -K -p -e robots=off https://web.archive.org/web/20100515230709/http://markowitzbocadentist.com/

これにより、1 つのページに必要なファイルがすべて 38 個作成されました。

そのページ以外を取得したい場合は、以前のスナップショット(の一部)もダウンロードする必要があります。archive.orgはかわったページ、完全なサイト特定の日付ほとんどの場合、その日付にキャプチャされたページで構成されますが、それより前の日付のページも含まれます。たとえば、「手順」へのリンクは、2010-10-21 08:29:33 に作成されたコピーを参照しており、これはあなたが指定した日付 (2010-05-15 23:07:09) よりも前の日付です。

あなたの質問に対する実際の答えは、完了少なくとも別の日付のスナップショットから部分をダウンロードせずに、ある日付のスナップショットを作成します。

-m (ミラー オプション) を追加すると、それらのページも取得されます。

関連情報