無法使用 WinHTTrack 複製/鏡像網站頁面

無法使用 WinHTTrack 複製/鏡像網站頁面

我在用赫特軌道用於複製/鏡像網站並面臨一個問題。

我正在談論網站。考慮我想涵蓋包含所有內部連結的頁面(您可以從該頁面看到:問題 6.11 、問題 6.10 )。所以,我嘗試過以下操作:

  1. 輸入項目名稱和 URL:

螢幕截圖

  1. 設定選項可以上下移動

在此輸入影像描述

我開始鏡像,該過程完成,但是當我瀏覽index.html時,主頁顯示正確,但進一步的連結(如前面提到的問題6.11、6.10等的sab頁面)不顯示 - 僅顯示檔案名稱提要。自己嘗試看看出了什麼問題)

我該如何解決這個問題?

答案1

我建議你去閱讀常問問題

以下是 WinHTTrack 網站的引用:

問題:有些站點捕獲得很好,有些則不然。為什麼?

答:鏡像失敗有多種原因(和解決方案)。閱讀日誌檔案(以及此常見問題解答!)通常是弄清楚發生了什麼情況的好主意。

網站內的連結指的是外部鏈接,或位於另一個(或上層)目錄中的鏈接,預設不會捕獲 - 使用過濾器通常是解決方案,因為這是 HTTrack 中強大的選項之一。請參閱上述問題/答案。網站“robots.txt”規則禁止訪問多個網站部分 - 您可以停用它們,但必須非常小心! HTTrack 已被過濾(透過其預設的用戶代理 IDentity) - 您可以將瀏覽器用戶代理身份更改為匿名身份(MSIE、Netscape ..) - 在此再次小心使用此選項,因為此措施可能已被採用避免一些頻寬濫用(另請參閱濫用常見問題!)

然而,有些情況還無法處理:

快閃記憶體站點- 沒有完全支持

密集的 Java/Javascript 站點- 可能是假的/不完整的

具有內建重定向和其他技巧的複雜 CGI- 處理起來非常複雜,因此可能會引起問題

HTML 程式碼中的解析問題(引擎被欺騙的情況,例如透過錯誤註解(

偵測到註釋 (-->)。罕見情況,但可能會發生。錯誤報告通常是好的!

注意:對於某些站點,設定「強制舊的 HTTP/1.0 請求」選項可能很有用,因為此選項使用更基本的請求(例如無 HEAD 請求)。這會導致效能損失,但會增加與某些基於 cgi 的網站的相容性。

PD。網站無法 100% 被捕獲的原因有很多,我認為超級用戶我們非常熱心,但我們不會對網站進行反向工程來發現哪個系統正在從後面運行(這是我的意見)。

相關內容