
次のようなメーリングリストのアーカイブをダウンロードしようとしています
特に、あるページからリンクされ、末尾が「.txt.gz」であるすべてのファイルをダウンロードしたいと考えています。wget でこれを行うように制限する方法はありますか? それができない場合、別の方法はありますか?
参考文献
答え1
これを試して:
wget \ --再帰\ --ディレクトリなし\ --親なし\ - レベル1 \ --accept .txt.gz \ --execute ロボット = オフ \ http://lists.cryolist.org/pipermail/cryolist-cryolist.org/
読みやすくするために長いオプションを使用します。
答え2
からwget --help
:
-r, --recursive specify recursive download.
-l, --level=NUMBER maximum recursion depth (inf or 0 for infinite).
-A, --accept=LIST comma-separated list of accepted extensions.
ファイルはiFrameにリンクされていることを念頭に置いてくださいリスト:次のコマンドを実行すると、目的の結果が生成されます。
wget -r -l1 -A "txt.gz" lists.cryolist.org/pipermail/cryolist-cryolist.org
スイッチ
スイッチ
-r
により、リンクされている他のリソースもダウンロードされます。スイッチ
-l1
はこれを 1 つのレベルに制限します。つまり、page1
にリンクしpage2
、page2
にリンクする場合unwanted.txt.gz
、このファイルはダウンロードされません。
答え3
bash スクリプトを作成し、すべての月を配列に保存し、それらをループして、正しい位置に wget コマンドに挿入します。