wget --spider: как узнать, откуда берутся битые ссылки

Question 1

Вы должны иметь возможность просматривать журналы веб-сервера в сочетании с запуском wget. Найдите 404's в файле журнала и вытащите поле referrer. Это укажет вам страницу, содержащую неработающую ссылку.

Тогда вам просто нужно будет проверить эту страницу на предмет наличия вредоносной ссылки.

Answer

Вы должны иметь возможность просматривать журналы веб-сервера в сочетании с запуском wget. Найдите 404's в файле журнала и вытащите поле referrer. Это укажет вам страницу, содержащую неработающую ссылку.

Тогда вам просто нужно будет проверить эту страницу на предмет наличия вредоносной ссылки.

Question 2

Хороший способ (не затрагивающий логи веб-сервера) — использовать флаг --debugи grep для^Referer:

В командной строке:

wget -r -nv --spider http://www.domain.com/ 2>&1 | egrep -A 1 '(^---response end---$|^--[0-9]{4}-[0-9]{2}-[0-9]{2}|^[0-9]{4}-[0-9]{2}-[0-9]{2} ERROR|^Referer:|^Remote file does not)'

Вы можете сделать подобный grepping в вашем журнале. Предостережение: некоторые wget не скомпилированы с поддержкой--debug

Answer

Хороший способ (не затрагивающий логи веб-сервера) — использовать флаг --debugи grep для^Referer:

В командной строке:

wget -r -nv --spider http://www.domain.com/ 2>&1 | egrep -A 1 '(^---response end---$|^--[0-9]{4}-[0-9]{2}-[0-9]{2}|^[0-9]{4}-[0-9]{2}-[0-9]{2} ERROR|^Referer:|^Remote file does not)'

Вы можете сделать подобный grepping в вашем журнале. Предостережение: некоторые wget не скомпилированы с поддержкой--debug

wget --spider: как узнать, откуда берутся битые ссылки

решение1

решение2

Связанный контент