wget --spider: 壊れたリンクがどこから来ているのかを知る方法

Question 1

wget の実行と連動して、Web サーバーのログを監視できるはずです。404ログファイルで 's を探して、referrerフィールドを取得します。これにより、壊れたリンクを含むページがわかります。

その後は、問題のあるリンクがないかそのページを調べるだけです。

Answer

wget の実行と連動して、Web サーバーのログを監視できるはずです。404ログファイルで 's を探して、referrerフィールドを取得します。これにより、壊れたリンクを含むページがわかります。

その後は、問題のあるリンクがないかそのページを調べるだけです。

Question 2

良い方法（ウェブサーバーのログを使わない）は、--debugフラグとgrepを使って^Referer:

コマンドラインの場合:

wget -r -nv --spider http://www.domain.com/ 2>&1 | egrep -A 1 '(^---response end---$|^--[0-9]{4}-[0-9]{2}-[0-9]{2}|^[0-9]{4}-[0-9]{2}-[0-9]{2} ERROR|^Referer:|^Remote file does not)'

ログに対して同様のgrepを実行できます。注意: 一部のwgetは、以下のサポートなしでコンパイルされています。--debug

Answer

良い方法（ウェブサーバーのログを使わない）は、--debugフラグとgrepを使って^Referer:

コマンドラインの場合:

wget -r -nv --spider http://www.domain.com/ 2>&1 | egrep -A 1 '(^---response end---$|^--[0-9]{4}-[0-9]{2}-[0-9]{2}|^[0-9]{4}-[0-9]{2}-[0-9]{2} ERROR|^Referer:|^Remote file does not)'

ログに対して同様のgrepを実行できます。注意: 一部のwgetは、以下のサポートなしでコンパイルされています。--debug

wget --spider: 壊れたリンクがどこから来ているのかを知る方法

答え1

答え2

関連情報