無法使用 WinHTTrack 複製/鏡像網站頁面

Question

我建議你去閱讀常問問題

以下是 WinHTTrack 網站的引用：

問題：有些站點捕獲得很好，有些則不然。為什麼？

答：鏡像失敗有多種原因（和解決方案）。閱讀日誌檔案（以及此常見問題解答！）通常是弄清楚發生了什麼情況的好主意。

網站內的連結指的是外部鏈接，或位於另一個（或上層）目錄中的鏈接，預設不會捕獲 - 使用過濾器通常是解決方案，因為這是 HTTrack 中強大的選項之一。請參閱上述問題/答案。網站“robots.txt”規則禁止訪問多個網站部分 - 您可以停用它們，但必須非常小心！ HTTrack 已被過濾（透過其預設的用戶代理 IDentity） - 您可以將瀏覽器用戶代理身份更改為匿名身份（MSIE、Netscape ..） - 在此再次小心使用此選項，因為此措施可能已被採用避免一些頻寬濫用（另請參閱濫用常見問題！）

然而，有些情況還無法處理：

快閃記憶體站點- 沒有完全支持

密集的 Java/Javascript 站點- 可能是假的/不完整的

具有內建重定向和其他技巧的複雜 CGI- 處理起來非常複雜，因此可能會引起問題

HTML 程式碼中的解析問題（引擎被欺騙的情況，例如透過錯誤註解（
偵測到註釋 (-->)。罕見情況，但可能會發生。錯誤報告通常是好的！

注意：對於某些站點，設定「強制舊的 HTTP/1.0 請求」選項可能很有用，因為此選項使用更基本的請求（例如無 HEAD 請求）。這會導致效能損失，但會增加與某些基於 cgi 的網站的相容性。

PD。網站無法 100% 被捕獲的原因有很多，我認為超級用戶我們非常熱心，但我們不會對網站進行反向工程來發現哪個系統正在從後面運行（這是我的意見）。

Answer 1

我建議你去閱讀常問問題

以下是 WinHTTrack 網站的引用：

問題：有些站點捕獲得很好，有些則不然。為什麼？

答：鏡像失敗有多種原因（和解決方案）。閱讀日誌檔案（以及此常見問題解答！）通常是弄清楚發生了什麼情況的好主意。

網站內的連結指的是外部鏈接，或位於另一個（或上層）目錄中的鏈接，預設不會捕獲 - 使用過濾器通常是解決方案，因為這是 HTTrack 中強大的選項之一。請參閱上述問題/答案。網站“robots.txt”規則禁止訪問多個網站部分 - 您可以停用它們，但必須非常小心！ HTTrack 已被過濾（透過其預設的用戶代理 IDentity） - 您可以將瀏覽器用戶代理身份更改為匿名身份（MSIE、Netscape ..） - 在此再次小心使用此選項，因為此措施可能已被採用避免一些頻寬濫用（另請參閱濫用常見問題！）

然而，有些情況還無法處理：

快閃記憶體站點- 沒有完全支持

密集的 Java/Javascript 站點- 可能是假的/不完整的

具有內建重定向和其他技巧的複雜 CGI- 處理起來非常複雜，因此可能會引起問題

HTML 程式碼中的解析問題（引擎被欺騙的情況，例如透過錯誤註解（
偵測到註釋 (-->)。罕見情況，但可能會發生。錯誤報告通常是好的！

注意：對於某些站點，設定「強制舊的 HTTP/1.0 請求」選項可能很有用，因為此選項使用更基本的請求（例如無 HEAD 請求）。這會導致效能損失，但會增加與某些基於 cgi 的網站的相容性。

PD。網站無法 100% 被捕獲的原因有很多，我認為超級用戶我們非常熱心，但我們不會對網站進行反向工程來發現哪個系統正在從後面運行（這是我的意見）。

無法使用 WinHTTrack 複製/鏡像網站頁面

答案1

相關內容