Как автоматизировать загрузку файлов?

Question 1

Вы можете указать входной HTML-файл с помощью

wget -F -i <file>

поэтому вы можете просто выгрузить html-файлы и перебрать их
(я добавил базовый URL для относительных ссылок):

for i in <whereYouDumpedFiles>/*.html
do
  wget -F -B <base-url> -i $i
done

альтернативно

вы можете просто выгрузить ссылки в файл (разделенные символами новой строки) любым способом и сделать это:

wget -i <url-file>

Хороший способ получить доступ к этим ссылкам:

lynx -hiddenlinks=ignore -nonumbers -listonly --dump <relevant-url> \
 | sort | uniq | sed /<regexp-pattern-of-urls-you-want>/\!d

возможно в цикле for, который добавляется к 'url-file'

Answer

Вы можете указать входной HTML-файл с помощью

wget -F -i <file>

поэтому вы можете просто выгрузить html-файлы и перебрать их
(я добавил базовый URL для относительных ссылок):

for i in <whereYouDumpedFiles>/*.html
do
  wget -F -B <base-url> -i $i
done

альтернативно

вы можете просто выгрузить ссылки в файл (разделенные символами новой строки) любым способом и сделать это:

wget -i <url-file>

Хороший способ получить доступ к этим ссылкам:

lynx -hiddenlinks=ignore -nonumbers -listonly --dump <relevant-url> \
 | sort | uniq | sed /<regexp-pattern-of-urls-you-want>/\!d

возможно в цикле for, который добавляется к 'url-file'

Question 2

Использование python может быть проще. Так что это решение с использованием python. Если python для вас не вариант, то игнорируйте. :)

Я предполагаю, что копирование данных с сайта законно.

Напишите простой скрипт Python для archive_bookname/index.1-177.htmих циклического перебора и очистки с помощьюBeautifulSoup, найдите ссылки с помощью селекторов классов CSS или простого сопоставления регулярных выражений, затем используйтеurllib.urlretrieve()чтобы получить файлы. Вот как я бы это сделал.

Answer

Использование python может быть проще. Так что это решение с использованием python. Если python для вас не вариант, то игнорируйте. :)

Я предполагаю, что копирование данных с сайта законно.

Напишите простой скрипт Python для archive_bookname/index.1-177.htmих циклического перебора и очистки с помощьюBeautifulSoup, найдите ссылки с помощью селекторов классов CSS или простого сопоставления регулярных выражений, затем используйтеurllib.urlretrieve()чтобы получить файлы. Вот как я бы это сделал.

Question 3

Или вы можете просто использовать Perl и его замечательный модуль www::mechanize. Это действительно просто собрать что-то вместе, и есть тонны примеров в официальной документации CPAN.

Answer

Или вы можете просто использовать Perl и его замечательный модуль www::mechanize. Это действительно просто собрать что-то вместе, и есть тонны примеров в официальной документации CPAN.

Как автоматизировать загрузку файлов?

решение1

решение2

решение3

Связанный контент