Wie spiegele ich das Unterverzeichnis einer Website mit wget

Wie spiegele ich das Unterverzeichnis einer Website mit wget

Ich muss die folgende URL spiegeln:

https://web.archive.org/web/20100515230709/http://markowitzbocadentist.com/

Ich muss aber nur Dateien von diesem Datum „20100515230709“ spiegeln. Ich habe viele wgetOptionen ausprobiert, aber sie erfassen entweder index.html oder auch Dateien von anderen Daten.

Wie kann ich das erreichen?

Antwort1

Aus dem wget-Handbuch (1.15):

Um eine einzelne Seite und alle dazugehörigen Anforderungen herunterzuladen (selbst wenn diese auf unterschiedlichen Websites vorhanden sind) und sicherzustellen, dass alles lokal richtig angezeigt wird, verwendet dieser Autor neben „-p“ gerne noch ein paar weitere Optionen:

wget -E -H -k -K -p URL

Außerdem blockiert robots.txt möglicherweise einige Inhalte. Fügen Sie daher -e robots=off hinzu.

Sie erhalten also:

wget -E -H -k -K -p -e robots=off https://web.archive.org/web/20100515230709/http://markowitzbocadentist.com/

Dadurch erhielt ich 38 Dateien, alle für diese einzelne Seite erforderlich und nicht mehr.

Wenn Sie mehr als nur diese Seite abrufen möchten, müssen Sie auch (Teile von) Schnappschüssen aus früheren Tagen herunterladen. Da archive.org nur diegeändertSeiten, einekomplette Seiteauf einenbestimmtes Datumbesteht fast immer aus Seiten, die an diesem Datum erfasst wurden, aber auch aus Seiten, die an älteren Daten erfasst wurden. Beispielsweise verweist der Link zu „Prozeduren“ auf eine Kopie, die am 21.10.2010 um 08:29:33 erstellt wurde, also vor dem von Ihnen genannten Datum (15.05.2010 um 23:07:09).

Die eigentliche Antwort auf Ihre Frage lautet also: Sie können nicht spiegelnvollständigSnapshot eines Datums, ohne zumindest auch Teile aus dem Snapshot eines anderen Datums herunterzuladen.

Durch Hinzufügen von -m (Spiegeloption) werden diese Seiten ebenfalls abgerufen.

verwandte Informationen