答案1
我建議你去閱讀常問問題
以下是 WinHTTrack 網站的引用:
問題:有些站點捕獲得很好,有些則不然。為什麼?
答:鏡像失敗有多種原因(和解決方案)。閱讀日誌檔案(以及此常見問題解答!)通常是弄清楚發生了什麼情況的好主意。
網站內的連結指的是外部鏈接,或位於另一個(或上層)目錄中的鏈接,預設不會捕獲 - 使用過濾器通常是解決方案,因為這是 HTTrack 中強大的選項之一。請參閱上述問題/答案。網站“robots.txt”規則禁止訪問多個網站部分 - 您可以停用它們,但必須非常小心! HTTrack 已被過濾(透過其預設的用戶代理 IDentity) - 您可以將瀏覽器用戶代理身份更改為匿名身份(MSIE、Netscape ..) - 在此再次小心使用此選項,因為此措施可能已被採用避免一些頻寬濫用(另請參閱濫用常見問題!)
然而,有些情況還無法處理:
快閃記憶體站點- 沒有完全支持
密集的 Java/Javascript 站點- 可能是假的/不完整的
具有內建重定向和其他技巧的複雜 CGI- 處理起來非常複雜,因此可能會引起問題
HTML 程式碼中的解析問題(引擎被欺騙的情況,例如透過錯誤註解(
偵測到註釋 (-->)。罕見情況,但可能會發生。錯誤報告通常是好的!
注意:對於某些站點,設定「強制舊的 HTTP/1.0 請求」選項可能很有用,因為此選項使用更基本的請求(例如無 HEAD 請求)。這會導致效能損失,但會增加與某些基於 cgi 的網站的相容性。
PD。網站無法 100% 被捕獲的原因有很多,我認為超級用戶我們非常熱心,但我們不會對網站進行反向工程來發現哪個系統正在從後面運行(這是我的意見)。