Website-Seite kann mit WinHTTrack nicht kopiert/gespiegelt werden

Website-Seite kann mit WinHTTrack nicht kopiert/gespiegelt werden

ich benutzeHttrackzum Kopieren/Spiegeln einer Website und Auftreten eines Problems.

Ich rede überDasWebsite. Ich möchteDasSeite mit allen internen Links (Sie können beispielsweise Folgendes sehen: Problem 6.11, Problem 6.10 auf dieser Seite). Ich habe also Folgendes versucht:

  1. Geben Sie den Projektnamen und die URL ein:

Bildschirmfoto

  1. Die Set-Option kann sowohl nach oben als auch nach unten gehen

Bildbeschreibung hier eingeben

Und ich habe mit dem Spiegeln begonnen, der Vorgang wurde abgeschlossen, aber wenn ich index.html durchsuche, wird die Hauptseite korrekt angezeigt, aber weitere Links (SAB-Seite, wie bereits erwähnt, Problem 6.11, 6.10 usw.) werden nicht angezeigt – nur der Dateinamen-Feed wird angezeigt. (Probieren Sie selbst aus, um herauszufinden, was schief läuft.)

Wie behebe ich dieses Problem?

Antwort1

Ich empfehle Ihnen, dieFAQ

Hier ist ein Zitat von der WinHTTrack-Website:

Frage: Manche Seiten werden sehr gut erfasst, andere nicht. Warum?

Antwort: Es gibt mehrere Gründe (und Lösungen) für den Ausfall eines Spiegels. Das Lesen der Protokolldateien (und dieser FAQ!) ist im Allgemeinen eine SEHR gute Idee, um herauszufinden, was passiert ist.

Links innerhalb der Site beziehen sich auf externe Links oder Links in anderen (oder höheren) Verzeichnissen, die standardmäßig nicht erfasst werden. Die Verwendung von Filtern ist im Allgemeinen DIE Lösung, da dies eine der leistungsstarken Optionen in HTTrack ist. Siehe die obigen Fragen/Antworten. Die Website-Regeln „robots.txt“ verbieten den Zugriff auf mehrere Teile der Website. Sie können sie deaktivieren, aber nur mit großer Sorgfalt! HTTrack wird gefiltert (durch seine standardmäßige User-Agent-IDentität). Sie können die Browser-User-Agent-Identität in eine anonyme ändern (MSIE, Netscape usw.). Verwenden Sie diese Option auch hier mit Vorsicht, da diese Maßnahme möglicherweise getroffen wurde, um Bandbreitenmissbrauch zu verhindern (siehe auch die Missbrauchs-FAQ!)

Es gibt jedoch Fälle, die (noch) nicht behandelt werden können:

Flash-Sites- keine volle Unterstützung

Intensive Java/Javascript-Sites- könnte falsch/unvollständig sein

Komplexes CGI mit integrierter Weiterleitung und anderen Tricks- sehr kompliziert in der Handhabung und daher unter Umständen problematisch

Parsing-Problem im HTML-Code (Fälle, in denen die Engine getäuscht wird, beispielsweise durch einen falschen Kommentar (

Kommentar (-->) erkannt. Selten, kann aber vorkommen. Ein Fehlerbericht ist dann im Allgemeinen gut!

Hinweis: Für einige Websites kann die Einstellung der Option „Alte HTTP/1.0-Anfragen erzwingen“ nützlich sein, da diese Option grundlegendere Anfragen verwendet (z. B. keine HEAD-Anfrage). Dies führt zu einem Leistungsverlust, erhöht jedoch die Kompatibilität mit einigen CGI-basierten Websites.

PD. Es gibt viele Gründe, warum Websites nicht zu 100 % erfasst werden können. Ich denke, bei SuperUser sind wir sehr enthusiastisch, aber wir führen gerne Reverse Engineering für eine Website durch, um herauszufinden, welches System im Hintergrund läuft (Das ist meine Meinung).

verwandte Informationen