Ich möchte die Quelldateien für eine Webseite herunterladen, die eine Datenbanksuchmaschine ist. Mit curl kann ich nur die Haupt-HTML-Seite herunterladen. Ich möchte auch alle JavaScript-Dateien, CSS-Dateien und PHP-Dateien herunterladen, die mit der Webseite verknüpft und auf der Haupt-HTML-Seite erwähnt sind. Ist dies mit curl/wget oder einem anderen Dienstprogramm möglich?
Antwort1
Zunächst sollten Sie beim Websitebetreiber klären, ob dies eine akzeptable Nutzung seines Dienstes ist. Danach können Sie Folgendes tun:
wget -pk example.com
-p
Ruft die Voraussetzungen zum Anzeigen der Seite ab (Javascript, CSS usw.). -k
Konvertiert die Links auf der Seite in solche, die für die lokale Anzeige verwendet werden können.
Aus man wget
:
-p, --page-requisites
Diese Option veranlasst Wget, alle Dateien herunterzuladen, die für die korrekte Anzeige einer bestimmten HTML-Seite erforderlich sind. Dazu gehören beispielsweise eingebettete Bilder, Sounds und referenzierte Stylesheets.
[...]
-k, --convert-links
Nachdem der Download abgeschlossen ist, konvertieren Sie die Links im Dokument, damit sie für die lokale Anzeige geeignet sind. Dies betrifft nicht nur die sichtbaren Hyperlinks, sondern alle Teile des Dokuments, die auf externe Inhalte verweisen, z. B. eingebettete Bilder, Links zu Stylesheets, Hyperlinks zu Nicht-HTML-Inhalten usw.