wget --spider：如何判斷損壞的連結來自何處

Question 1

您應該能夠結合 wget 運行來查看 Web 伺服器日誌。404在日誌檔案中尋找並提取該referrer欄位。這將告訴您包含損壞連結的頁面。

然後只需檢查該頁面是否有違規連結即可。

Answer

您應該能夠結合 wget 運行來查看 Web 伺服器日誌。404在日誌檔案中尋找並提取該referrer欄位。這將告訴您包含損壞連結的頁面。

然後只需檢查該頁面是否有違規連結即可。

Question 2

一個好方法（不涉及網頁伺服器日誌）是使用 flag--debug和 grep^Referer:

在命令列上：

wget -r -nv --spider http://www.domain.com/ 2>&1 | egrep -A 1 '(^---response end---$|^--[0-9]{4}-[0-9]{2}-[0-9]{2}|^[0-9]{4}-[0-9]{2}-[0-9]{2} ERROR|^Referer:|^Remote file does not)'

您可以在日誌上執行類似的 grep 操作。警告：某些 wget 編譯時不支持--debug

Answer

一個好方法（不涉及網頁伺服器日誌）是使用 flag--debug和 grep^Referer:

在命令列上：

wget -r -nv --spider http://www.domain.com/ 2>&1 | egrep -A 1 '(^---response end---$|^--[0-9]{4}-[0-9]{2}-[0-9]{2}|^[0-9]{4}-[0-9]{2}-[0-9]{2} ERROR|^Referer:|^Remote file does not)'

您可以在日誌上執行類似的 grep 操作。警告：某些 wget 編譯時不支持--debug

wget --spider：如何判斷損壞的連結來自何處

答案1

答案2

相關內容