
Ich versuche, Mailinglistenarchive herunterzuladen, wie
Insbesondere habe ich eine Seite und möchte jede von dieser Seite verlinkte Datei herunterladen, die mit „.txt.gz“ endet. Gibt es eine Möglichkeit, wget daran zu hindern, dies zu tun? Wenn das nicht geht, gibt es einen alternativen Ansatz?
Verweise
Antwort1
Versuche dies:
wget \ --rekursiv \ --keine-Verzeichnisse \ --kein Elternteil \ --Level 1 \ --accept .txt.gz \ --execute robots=aus \ http://lists.cryolist.org/pipermail/cryolist-cryolist.org/
Verwenden langer Optionen zur besseren Lesbarkeit.
Antwort2
Aus wget --help
:
-r, --recursive specify recursive download.
-l, --level=NUMBER maximum recursion depth (inf or 0 for infinite).
-A, --accept=LIST comma-separated list of accepted extensions.
Beachten Sie, dass die Dateien im iFrame verlinkt sindlists.cryolist.org/pipermail/cryolist-cryolist.org, der folgende Befehl führt zum gewünschten Ergebnis:
wget -r -l1 -A "txt.gz" lists.cryolist.org/pipermail/cryolist-cryolist.org
Schalter
Der
-r
Schalter ermöglicht das Herunterladen anderer verlinkter Ressourcen.Der
-l1
Schalter beschränkt dies auf eine Ebene, d. h. wennpage1
aufpage2
undpage2
auf verlinkt wirdunwanted.txt.gz
, wird diese Datei nicht heruntergeladen.
Antwort3
Schreiben Sie ein Bash-Skript. Speichern Sie alle Monate in einem Array, durchlaufen Sie sie und fügen Sie sie an der richtigen Position in den Wget-Befehl ein.