如何自動下載檔案？

Question 1

您可以指定輸入 html 文件

wget -F -i <file>

所以你可以轉儲 html 檔案並循環它們
（我已經添加了相對連結的基本 url）：

for i in <whereYouDumpedFiles>/*.html
do
  wget -F -B <base-url> -i $i
done

或者

您可以透過任何方法將連結轉儲到檔案（由換行符號分隔），然後執行以下操作：

wget -i <url-file>

獲取這些連結的一個好方法是：

lynx -hiddenlinks=ignore -nonumbers -listonly --dump <relevant-url> \
 | sort | uniq | sed /<regexp-pattern-of-urls-you-want>/\!d

可能在附加到「url-file」的 for 循環中

Answer

您可以指定輸入 html 文件

wget -F -i <file>

所以你可以轉儲 html 檔案並循環它們
（我已經添加了相對連結的基本 url）：

for i in <whereYouDumpedFiles>/*.html
do
  wget -F -B <base-url> -i $i
done

或者

您可以透過任何方法將連結轉儲到檔案（由換行符號分隔），然後執行以下操作：

wget -i <url-file>

獲取這些連結的一個好方法是：

lynx -hiddenlinks=ignore -nonumbers -listonly --dump <relevant-url> \
 | sort | uniq | sed /<regexp-pattern-of-urls-you-want>/\!d

可能在附加到「url-file」的 for 循環中

Question 2

使用 python 可能會更容易。所以這是一個使用python的解決方案。如果 python 不適合您，請忽略。 :)

我假設抓取網站是合法的。

編寫一個簡單的Python腳本來循環archive_bookname/index.1-177.htm，使用它們廢棄美麗湯，使用 css 類選擇器或簡單的正則表達式匹配找到鏈接，然後使用urllib.urlretrieve()獲取文件。我就是這麼做的。

Answer

使用 python 可能會更容易。所以這是一個使用python的解決方案。如果 python 不適合您，請忽略。 :)

我假設抓取網站是合法的。

編寫一個簡單的Python腳本來循環archive_bookname/index.1-177.htm，使用它們廢棄美麗湯，使用 css 類選擇器或簡單的正則表達式匹配找到鏈接，然後使用urllib.urlretrieve()獲取文件。我就是這麼做的。

Question 3

或者您可以簡單地使用 Perl 及其名為 www::mechanize 的出色模組。將一些東西放在一起非常簡單，官方 CPAN 文件中有大量範例。

Answer

或者您可以簡單地使用 Perl 及其名為 www::mechanize 的出色模組。將一些東西放在一起非常簡單，官方 CPAN 文件中有大量範例。

相關內容