
Ich möchte also alle Bilder von einem Webserver herunterladen, insbesondere JPEGs. Der Befehl, den ich ausführe, sieht echt aus und ich weiß, dass die Website JPEGs enthält. Also zum Beispiel
wget -r -PC:/ -A.jpghttp://somesitewithjpegs.com
Ich gehe davon aus, dass dieser Befehl den gesamten Server rekursiv durchsucht und nur nach JPEG-Bildern sucht und diese Bilder dann auf mein Laufwerk C:/ herunterlädt. Aus irgendeinem Grund funktioniert das nicht.
Wenn ich mir den Quellcode anschaue, kann ich erkennen, dass die Bilder nicht direkt in die Seite eingebettet sind, sondern in einem anderen Verzeichnis auf dem Server gehostet werden. Ist das der Grund, warum wget diese Bilder nicht herunterladen kann?
Antwort1
Um meine eigene Frage zu beantworten: Es stimmt, dass wget nur Links folgen und Dateien direkt herunterladen kann. Da die meisten Bilder mit einem Verzeichnis verknüpft sind, das keine Verzeichnislisten unterstützt oder Einschränkungen aufweist, hat wget keine Möglichkeit, den Inhalt des besagten Verzeichnisses zu analysieren.
Ein gutes Beispiel hierfür ist eine WordPress-Site, die Bilder im Ordner wp-content speichert. Der Versuch, diesen Ordner zu durchsuchen, führt zu einem 403 Forbidden-Fehler. Obwohl wir dieses Bild in unserem Browser als verknüpftes Bild sehen können, hat wget keinen Zugriff darauf, da das Bild in einem Verzeichnis ohne direkten Zugriff gespeichert ist.
Jemand kann diese Antwort ergänzen, wenn mir Details fehlen oder ich den Vorgang nicht richtig erkläre.
Antwort2
Ist das der Grund, warum wget diese Bilder nicht herunterladen kann?
Antwort:Vielleicht / Höchstwahrscheinlich.
Versuchen Sie, diese Optionen hinzuzufügen:
-l1 -H
Der-Hweist die App an, sich über Domänen zu erstrecken, d. h. sie soll Links folgen, die von der Site wegführen(Möglicherweise werden die Bilder von einem anderen Server bereitgestellt). Und das-l1 bedeutet, nur eine Ebene tief zu gehen, d. h., den Links auf der verlinkten Site nicht zu folgen. Auf diese Weise können Sie möglicherweise Inhalte von einem anderen Server herunterladen, der Bilddateien hostet.
Wenn ich mich recht entsinne, können Sie beim Spiegeln einer vollständigen WordPress-Site jedoch auf Bilder aus dem Ordner „wp-content“ zugreifen.