wget
Ich versuche, eine ganze Site wie folgt herunterzuladen :
wget -r http://whatever/
wget -m http://whatever/
Es werden jedoch nur die Seiten mit Text heruntergeladen, keine Bilder. Wie kann ich die Seiten mit Text und Bildern herunterladen? Was übersehe ich hier?
Antwort1
Der wget
Befehl, den Sie verwenden müssen, ist viel länger, wie unten erläutert. Daher möchten Sie ihn möglicherweise in eine Datei wie schreiben wholesite.sh
, daraus eine ausführbare Datei machen und sie ausführen. Es werden ein Verzeichnis mit der URL und Unterverzeichnisse der Assets der Site erstellt, einschließlich Bilder, JS, CSS usw.
wget \
--recursive \
--level 5 \
--no-clobber \
--page-requisites \
--adjust-extension \
--span-hosts \
--convert-links \
--restrict-file-names=windows \
--domains yoursite.com \
--no-parent \
yoursite.com
Erläuterung
--recursive
Dies gibt an, wie viele Unterverzeichnisse der Site-Assets Sie abrufen möchten (da Assets wie Bilder häufig in Unterverzeichnissen der Site gespeichert sind). Die standardmäßige maximale Suchtiefe für Assets beträgt 5 Unterverzeichnisse. Sie können dies mit der level
Flagge direkt darunter ändern.
--level 5
Durchsuchen Sie 5 Unterverzeichnisse nach Assets. Ich empfehle, diesen Wert zu erhöhen oder zu verringern, wenn die Zielsite größer bzw. kleiner ist.
--no-clobber
Überschreiben Sie keine vorhandenen Dateien.
--page-requisites
bewirkt wget
den Download aller Dateien, die für die korrekte Anzeige einer bestimmten HTML-Seite erforderlich sind, einschließlichBilder, CSS, JS usw.
--adjust-extension
Behält die richtigen Dateierweiterungen für .html, .css und andere Assets bei.
--span-hosts
Schließen Sie auch die erforderlichen externen Assets ein.
--convert-links
Aktualisieren Sie Site-Links, damit sie als Dateien in Unterverzeichnissen auf Ihrem lokalen Computer funktionieren (zur lokalen Anzeige).
--restrict-file-names=windows
Ändern Sie Dateinamen, damit sie auch unter Windows funktionieren, falls Sie diesen Befehl auf einem Windows-System verwenden.
--domains yoursite.com
Folgen Sie keinen Links außerhalb dieser Domäne.
--no-parent
Folgen Sie keinen Links außerhalb des Verzeichnisses, in das Sie weiterleiten.
yoursite.com
# Die URL zum Herunterladen