Wie kann ich das Herunterladen von Dateien automatisieren?

Question 1

Sie können eine HTML-Eingabedatei angeben mit

wget -F -i <file>

Sie können also einfach die HTML-Dateien ausgeben und sie durchlaufen
(ich habe eine Basis-URL für relative Links hinzugefügt):

for i in <whereYouDumpedFiles>/*.html
do
  wget -F -B <base-url> -i $i
done

Alternative

Sie können die Links einfach mit einer beliebigen Methode in eine Datei (durch Zeilenumbrüche getrennt) schreiben und Folgendes tun:

wget -i <url-file>

Eine gute Möglichkeit, an diese Links zu gelangen, wäre:

lynx -hiddenlinks=ignore -nonumbers -listonly --dump <relevant-url> \
 | sort | uniq | sed /<regexp-pattern-of-urls-you-want>/\!d

möglicherweise in einer For-Schleife, die an „URL-Datei“ angehängt wird

Answer

Sie können eine HTML-Eingabedatei angeben mit

wget -F -i <file>

Sie können also einfach die HTML-Dateien ausgeben und sie durchlaufen
(ich habe eine Basis-URL für relative Links hinzugefügt):

for i in <whereYouDumpedFiles>/*.html
do
  wget -F -B <base-url> -i $i
done

Alternative

Sie können die Links einfach mit einer beliebigen Methode in eine Datei (durch Zeilenumbrüche getrennt) schreiben und Folgendes tun:

wget -i <url-file>

Eine gute Möglichkeit, an diese Links zu gelangen, wäre:

lynx -hiddenlinks=ignore -nonumbers -listonly --dump <relevant-url> \
 | sort | uniq | sed /<regexp-pattern-of-urls-you-want>/\!d

möglicherweise in einer For-Schleife, die an „URL-Datei“ angehängt wird

Question 2

Die Verwendung von Python könnte einfacher sein. Dies ist also eine Lösung mit Python. Wenn Python für Sie keine Option ist, ignorieren Sie es. :)

Ich gehe davon aus, dass das Scraping der Website legal ist.

Schreiben Sie ein einfaches Python-Skript zum Durchlaufen archive_bookname/index.1-177.htmund Verwerfen mitSchöne Suppe, suchen Sie die Links entweder mit CSS-Klassenselektoren oder einfachem Regex-Matching und verwenden Sie dannurllib.urlretrieve()um die Dateien zu bekommen. So würde ich es machen.

Answer

Die Verwendung von Python könnte einfacher sein. Dies ist also eine Lösung mit Python. Wenn Python für Sie keine Option ist, ignorieren Sie es. :)

Ich gehe davon aus, dass das Scraping der Website legal ist.

Schreiben Sie ein einfaches Python-Skript zum Durchlaufen archive_bookname/index.1-177.htmund Verwerfen mitSchöne Suppe, suchen Sie die Links entweder mit CSS-Klassenselektoren oder einfachem Regex-Matching und verwenden Sie dannurllib.urlretrieve()um die Dateien zu bekommen. So würde ich es machen.

Question 3

Oder Sie verwenden einfach Perl und sein brillantes Modul namens www::mechanize. Es ist wirklich einfach, etwas zusammenzustellen, und in der offiziellen CPAN-Dokumentation gibt es unzählige Beispiele.

Answer

Oder Sie verwenden einfach Perl und sein brillantes Modul namens www::mechanize. Es ist wirklich einfach, etwas zusammenzustellen, und in der offiziellen CPAN-Dokumentation gibt es unzählige Beispiele.

Wie kann ich das Herunterladen von Dateien automatisieren?

Antwort1

Antwort2

Antwort3

verwandte Informationen