wget-Mirror-Site + Ressourcen aus anderen Domänen

wget-Mirror-Site + Ressourcen aus anderen Domänen

Ich versuche, eine Website herunterzuladen, damit sie offline durchsucht werden kann. Daher möchte ich HTML, Bilder, CSS, JavaScript usw.

Das Problem ist, dass die Bilder nicht alle auf derselben Domain wie die Website gehostet werden, ebenso wenig wie CSS und JavaScript. Einige der Bilder stammen von imgur, andere von anderen Filesharing-Sites. Kurz gesagt, es gibt viele, viele Domains, die über Ressourcen verfügen, die von dieser Site verwendet werden.

Wie kann ich das HTML von einer einzelnen Domäne herunterladen, aber die von diesem HTML verwendeten Ressourcen von jeder beliebigen Domäne abrufen?

Antwort1

Sie sollten eine Reihe von Argumenten verwenden fürHost-Spanning:

Hauptsächlich:

  • -Hzu anderen Hosts als den angegebenen zu wechseln
  • -Dum die einzubeziehenden Domänen anzugeben
  • --exclude-domainsum auszuschließende Domänen anzugeben

Zum Beispiel:

wget -rH --exclude-domains flickr.com myownsite.com

verwandte Informationen