wget はリンクがたくさんあるページから再帰的にダウンロードします

wget はリンクがたくさんあるページから再帰的にダウンロードします

再帰オプションをオンにして wget を使用すると、ファイルをダウンロードしようとするとエラー メッセージが表示されます。リンクはダウンロード可能なファイルであると認識されますが、実際には、必要なファイル (またはたどるリンク) が実際に含まれているページに到達するには、リンクをたどるだけでよいのです。

wget -r -l 16 --accept=jpg website.com

エラー メッセージは、.... 拒否される必要があるためです。これは通常、取得しようとしている Web サイト リンクが SQL ステートメントで終了する場合に発生します。ただし、そのリンクでまったく同じ wget コマンドを使用すると、問題は発生しません。ページを取得しようとしている方法を正確に知りたいのです。プロジェクトがどの程度乱雑であるかはわかりませんが、ソースをざっと調べてみることはできると思います。また、wget のコンテキストで「再帰的」が正確に何を意味するのか理解していない可能性もあります。各リンクを実行して移動し、要求した拡張子のファイルを取得するものだと思っていました。

私はこれを stackOverFlow に投稿しましたが、彼らは私をここに送り返しました:) 皆さんが助けてくれることを願っています。

編集: エラーメッセージの出力

2010-04-13 16:54:47 (128 KB/s) - `somewebsite.com/index.php?id=917218' saved [10789]

Removing somewebsite.com/index.php?id=917218 since it should be rejected.

ウェブサイトのソースは明かさないほうがいいと思います :)

答え1

ヒュー・アレンが指摘したように、これを使用すると--accept=jpgwgetはロードしますのみ拡張子が .jpg のファイル (および常に取得される .htm、.html)。wget が php ファイルを削除すると通知するのはそのためです。そのため、--accept=jpg,phpまたは同様のものを使用するようにしてください。

を参照してくださいwget マニュアル詳細については、こちらをご覧ください。承認/拒否のメカニズム全体が非常に詳細に説明されているので、一読することをお勧めします。

答え2

多分、--accept=jpg他のすべてを拒否することを意味します。

関連情報