Manchmal möchte ich nur die Verzeichnisstruktur einer Website abrufen, aber die Dateien selbst sind nicht wichtig. Ich möchte nur ihren Namen. So ähnlich wie ein Spiegel, bei dem jeder Eintrag nur eine leere Dummy-Datei ist.
Natürlich wget -r
funktioniert es gut, ein Skript auszuführen und anschließend alle Dateien zu leeren, aber es fühlt sich verschwenderisch an, da es weder dem Server noch meiner Bandbreite gut tut. Eine effizientere, aber noch weniger elegante Methode besteht darin, den Prozess jedes Mal manuell zu stoppen und neu zu starten, wenn Sie auf eine große Datei stoßen, oder ein sehr kurzes Timeout festzulegen. Zumindest reduziert das die Datenmenge, die ich herunterladen muss, erheblich.
Meine Frage ist: Kann ich wget so einstellen, dass es eine Datei nur erstellt, aber ihren Inhalt nicht herunterlädt? Oder verwende ich dafür das falsche Tool?
Antwort1
Posten einer Antwort wie gewünscht:
Nutzen Sie die --spider
Option:
wget -r -nv --spider http://example.com
Anschließend können Sie die Struktur der Site anhand der Ausgabe analysieren. Dadurch werden keine Dateien heruntergeladen, die keine Links enthalten können, wie z. B. Bilder.