Laden Sie mit wget eine beliebige Anzahl von Dateien aus einem selbstumleitenden Verzeichnis herunter

Question 1

Wenn ich eine Reihe von Dateien von einer Website herunterladen möchte, die mir das nicht leicht macht (oder es aktiv erschwert), erstelle ich eine Liste mit den URLs der Dateien, etwa so:

lynx -dump -listonly $URL | awk '/\.pdf/ {print $2}' > /tmp/pdflist.txt

Normalerweise bearbeite ich die Datei dann mit , vium Einträge zu löschen, die ich nicht herunterladen möchte, und hole sie schließlich alle mit wget:

wget --input-file=/tmp/pdflist.txt

Das funktioniert gut für einfache Aufgaben und oft auch gut genug für mittelschwere Aufgaben ... aber für schwierige Aufgaben, bei denen es um die Analyse von kompliziertem HTML und das Verfolgen von Links geht (und vielleicht Cookies verwendet werden), schreibe ich einen perlWeb-Bot mit dem libwww-perlModul (auch bekannt alsLWP).

Answer

Wenn ich eine Reihe von Dateien von einer Website herunterladen möchte, die mir das nicht leicht macht (oder es aktiv erschwert), erstelle ich eine Liste mit den URLs der Dateien, etwa so:

lynx -dump -listonly $URL | awk '/\.pdf/ {print $2}' > /tmp/pdflist.txt

Normalerweise bearbeite ich die Datei dann mit , vium Einträge zu löschen, die ich nicht herunterladen möchte, und hole sie schließlich alle mit wget:

wget --input-file=/tmp/pdflist.txt

Das funktioniert gut für einfache Aufgaben und oft auch gut genug für mittelschwere Aufgaben ... aber für schwierige Aufgaben, bei denen es um die Analyse von kompliziertem HTML und das Verfolgen von Links geht (und vielleicht Cookies verwendet werden), schreibe ich einen perlWeb-Bot mit dem libwww-perlModul (auch bekannt alsLWP).

Question 2

Auf deiner Uni-Website gibt es eine Seite mit Links zu allen PDFs? Oder woher kennst du die Liste der PDF-Dateinamen?

In diesem Fall müssen Sie ein Skript namens Scraper schreiben, um programmgesteuert Links von dieser Seite abzurufen und dann automatisch diese Liste zu durchlaufen und sie mit wget oder einem anderen Tool herunterzuladen. Ich würde PHP oder Python vorschlagen, um den Scraper zu schreiben. Sie können die endgültige Paginierung auf der Ursprungswebsite ganz einfach verwalten. Wenn Sie PHP verwenden, können Sie Dateien einfach mit

file_put_contents('Zieldateiname', file_get_contents('Quell-URL');

Answer

Auf deiner Uni-Website gibt es eine Seite mit Links zu allen PDFs? Oder woher kennst du die Liste der PDF-Dateinamen?

In diesem Fall müssen Sie ein Skript namens Scraper schreiben, um programmgesteuert Links von dieser Seite abzurufen und dann automatisch diese Liste zu durchlaufen und sie mit wget oder einem anderen Tool herunterzuladen. Ich würde PHP oder Python vorschlagen, um den Scraper zu schreiben. Sie können die endgültige Paginierung auf der Ursprungswebsite ganz einfach verwalten. Wenn Sie PHP verwenden, können Sie Dateien einfach mit

file_put_contents('Zieldateiname', file_get_contents('Quell-URL');

Laden Sie mit wget eine beliebige Anzahl von Dateien aus einem selbstumleitenden Verzeichnis herunter

Antwort1

Antwort2

verwandte Informationen