Ich versuche, eine Website herunterzuladen, damit sie offline durchsucht werden kann. Daher möchte ich HTML, Bilder, CSS, JavaScript usw.
Das Problem ist, dass die Bilder nicht alle auf derselben Domain wie die Website gehostet werden, ebenso wenig wie CSS und JavaScript. Einige der Bilder stammen von imgur, andere von anderen Filesharing-Sites. Kurz gesagt, es gibt viele, viele Domains, die über Ressourcen verfügen, die von dieser Site verwendet werden.
Wie kann ich das HTML von einer einzelnen Domäne herunterladen, aber die von diesem HTML verwendeten Ressourcen von jeder beliebigen Domäne abrufen?
Antwort1
Sie sollten eine Reihe von Argumenten verwenden fürHost-Spanning:
Hauptsächlich:
-H
zu anderen Hosts als den angegebenen zu wechseln-D
um die einzubeziehenden Domänen anzugeben--exclude-domains
um auszuschließende Domänen anzugeben
Zum Beispiel:
wget -rH --exclude-domains flickr.com myownsite.com