Begrenzen von Dateien mit wget

Begrenzen von Dateien mit wget

Ich versuche, Mailinglistenarchive herunterzuladen, wie

http://cryolist.org/archives/

Insbesondere habe ich eine Seite und möchte jede von dieser Seite verlinkte Datei herunterladen, die mit „.txt.gz“ endet. Gibt es eine Möglichkeit, wget daran zu hindern, dies zu tun? Wenn das nicht geht, gibt es einen alternativen Ansatz?

Verweise

http://www.gnu.org/software/wget/manual/html_node/

Antwort1

Versuche dies:

wget \
    --rekursiv \
    --keine-Verzeichnisse \
    --kein Elternteil \
    --Level 1 \
    --accept .txt.gz \
    --execute robots=aus \
    http://lists.cryolist.org/pipermail/cryolist-cryolist.org/

Verwenden langer Optionen zur besseren Lesbarkeit.

Antwort2

Aus wget --help:

-r,  --recursive          specify recursive download.
-l,  --level=NUMBER       maximum recursion depth (inf or 0 for infinite).
-A,  --accept=LIST        comma-separated list of accepted extensions.

Beachten Sie, dass die Dateien im iFrame verlinkt sindlists.cryolist.org/pipermail/cryolist-cryolist.org, der folgende Befehl führt zum gewünschten Ergebnis:

wget -r -l1 -A "txt.gz" lists.cryolist.org/pipermail/cryolist-cryolist.org

Schalter

  • Der -rSchalter ermöglicht das Herunterladen anderer verlinkter Ressourcen.

  • Der -l1Schalter beschränkt dies auf eine Ebene, d. h. wenn page1auf page2und page2auf verlinkt wird unwanted.txt.gz, wird diese Datei nicht heruntergeladen.

Antwort3

Schreiben Sie ein Bash-Skript. Speichern Sie alle Monate in einem Array, durchlaufen Sie sie und fügen Sie sie an der richtigen Position in den Wget-Befehl ein.

verwandte Informationen