自己リダイレクトディレクトリからwgetを使用して任意の数のファイルをダウンロードする

Question 1

簡単にダウンロードできない (またはダウンロードが困難である) Web サイトから大量のファイルをダウンロードしたいときは、次のようにしてファイルの URL のリストを生成します。

lynx -dump -listonly $URL | awk '/\.pdf/ {print $2}' > /tmp/pdflist.txt

次に、通常はでファイルを編集してviダウンロードしたくないエントリを削除し、最後に wget ですべてを取得します。

wget --input-file=/tmp/pdflist.txt

これは単純なタスクにはうまく機能し、中程度の難易度のタスクにも十分機能します...しかし、複雑なHTMLの解析やリンクの追跡（およびCookieの使用）を伴う難しいタスクの場合は、perlモジュールlibwww-perl（別名ライブ壁紙）。

Answer

簡単にダウンロードできない (またはダウンロードが困難である) Web サイトから大量のファイルをダウンロードしたいときは、次のようにしてファイルの URL のリストを生成します。

lynx -dump -listonly $URL | awk '/\.pdf/ {print $2}' > /tmp/pdflist.txt

次に、通常はでファイルを編集してviダウンロードしたくないエントリを削除し、最後に wget ですべてを取得します。

wget --input-file=/tmp/pdflist.txt

これは単純なタスクにはうまく機能し、中程度の難易度のタスクにも十分機能します...しかし、複雑なHTMLの解析やリンクの追跡（およびCookieの使用）を伴う難しいタスクの場合は、perlモジュールlibwww-perl（別名ライブ壁紙）。

Question 2

あなたの大学のウェブサイトには、すべての PDF へのリンクを提供するページがありますか? または、PDF ファイル名のリストをどうやって知るのですか?

その場合、スクレイパーと呼ばれるスクリプトを書いて、そのページからリンクをプログラム的に取得し、そのリストを自動的にループしてwgetなどのツールでダウンロードする必要があります。スクレイパーの作成にはPHPまたはPythonをお勧めします。元のWebサイトで最終的なページネーションを簡単に管理できます。PHPを使用する場合は、次のようにファイルをダウンロードするだけです。

file_put_contents('destination_filename', file_get_contents('source_url');

Answer

あなたの大学のウェブサイトには、すべての PDF へのリンクを提供するページがありますか? または、PDF ファイル名のリストをどうやって知るのですか?

その場合、スクレイパーと呼ばれるスクリプトを書いて、そのページからリンクをプログラム的に取得し、そのリストを自動的にループしてwgetなどのツールでダウンロードする必要があります。スクレイパーの作成にはPHPまたはPythonをお勧めします。元のWebサイトで最終的なページネーションを簡単に管理できます。PHPを使用する場合は、次のようにファイルをダウンロードするだけです。

file_put_contents('destination_filename', file_get_contents('source_url');

自己リダイレクトディレクトリからwgetを使用して任意の数のファイルをダウンロードする

答え1

答え2

関連情報