wgetは再帰モードでは動作しません

Question 1

問題は、すべてのリンクがaol.com/index.html異なるホストを指しているために発生します。すべてのホストから再帰的にダウンロードするには、オプションを追加します。--span-hostsすべての AOL ホストを許可するには、オプションを追加するとうまくいくようです--span-hosts '*.aol.com'。

wget --span-hosts '*.aol.com' -r http://www.aol.com

リンクを一覧表示できます

grep -Po '(?<=href=")[^"]*' aol.com/index.html

ほとんどのアドレスはwww.aol.comを指しているので、

wget -r http://www.aol.com

Answer

問題は、すべてのリンクがaol.com/index.html異なるホストを指しているために発生します。すべてのホストから再帰的にダウンロードするには、オプションを追加します。--span-hostsすべての AOL ホストを許可するには、オプションを追加するとうまくいくようです--span-hosts '*.aol.com'。

wget --span-hosts '*.aol.com' -r http://www.aol.com

リンクを一覧表示できます

grep -Po '(?<=href=")[^"]*' aol.com/index.html

ほとんどのアドレスはwww.aol.comを指しているので、

wget -r http://www.aol.com

Question 2

以下を使用すると、wgetWeb サイトにリンクされているすべてのページを再帰的にダウンロードできます。

wget -r $(curl http://aol.com | grep -Po '(?<=href=")[^"]*')

サンプルのウェブサイトを希望のものに置き換えてください。これは次のように取得されます。Deapth for search in a graph

作業方法 curlを取得しますindex.html。にパイプされ、grepに一致するすべてのリンクが検索されます。入力結果はに変数としてhref渡されます。変数からリンクを 1 つずつ取得します。wgetwget

Answer

以下を使用すると、wgetWeb サイトにリンクされているすべてのページを再帰的にダウンロードできます。

wget -r $(curl http://aol.com | grep -Po '(?<=href=")[^"]*')

サンプルのウェブサイトを希望のものに置き換えてください。これは次のように取得されます。Deapth for search in a graph

作業方法 curlを取得しますindex.html。にパイプされ、grepに一致するすべてのリンクが検索されます。入力結果はに変数としてhref渡されます。変数からリンクを 1 つずつ取得します。wgetwget

wgetは再帰モードでは動作しません

答え1

答え2

関連情報