wget でファイルを制限する

wget でファイルを制限する

次のようなメーリングリストのアーカイブをダウンロードしようとしています

http://cryolist.org/archives/

特に、あるページからリンクされ、末尾が「.txt.gz」であるすべてのファイルをダウンロードしたいと考えています。wget でこれを行うように制限する方法はありますか? それができない場合、別の方法はありますか?

参考文献

http://www.gnu.org/software/wget/manual/html_node/

答え1

これを試して:

wget \
    --再帰\
    --ディレクトリなし\
    --親なし\
    - レベル1 \
    --accept .txt.gz \
    --execute ロボット = オフ \
    http://lists.cryolist.org/pipermail/cryolist-cryolist.org/

読みやすくするために長いオプションを使用します。

答え2

からwget --help

-r,  --recursive          specify recursive download.
-l,  --level=NUMBER       maximum recursion depth (inf or 0 for infinite).
-A,  --accept=LIST        comma-separated list of accepted extensions.

ファイルはiFrameにリンクされていることを念頭に置いてくださいリスト:次のコマンドを実行すると、目的の結果が生成されます。

wget -r -l1 -A "txt.gz" lists.cryolist.org/pipermail/cryolist-cryolist.org

スイッチ

  • スイッチ-rにより、リンクされている他のリソースもダウンロードされます。

  • スイッチ-l1はこれを 1 つのレベルに制限します。つまり、page1にリンクしpage2page2にリンクする場合unwanted.txt.gz、このファイルはダウンロードされません。

答え3

bash スクリプトを作成し、すべての月を配列に保存し、それらをループして、正しい位置に wget コマンドに挿入します。

関連情報