Website-Seite kann mit WinHTTrack nicht kopiert/gespiegelt werden

Question

Ich empfehle Ihnen, dieFAQ

Hier ist ein Zitat von der WinHTTrack-Website:

Frage: Manche Seiten werden sehr gut erfasst, andere nicht. Warum?

Antwort: Es gibt mehrere Gründe (und Lösungen) für den Ausfall eines Spiegels. Das Lesen der Protokolldateien (und dieser FAQ!) ist im Allgemeinen eine SEHR gute Idee, um herauszufinden, was passiert ist.

Links innerhalb der Site beziehen sich auf externe Links oder Links in anderen (oder höheren) Verzeichnissen, die standardmäßig nicht erfasst werden. Die Verwendung von Filtern ist im Allgemeinen DIE Lösung, da dies eine der leistungsstarken Optionen in HTTrack ist. Siehe die obigen Fragen/Antworten. Die Website-Regeln „robots.txt“ verbieten den Zugriff auf mehrere Teile der Website. Sie können sie deaktivieren, aber nur mit großer Sorgfalt! HTTrack wird gefiltert (durch seine standardmäßige User-Agent-IDentität). Sie können die Browser-User-Agent-Identität in eine anonyme ändern (MSIE, Netscape usw.). Verwenden Sie diese Option auch hier mit Vorsicht, da diese Maßnahme möglicherweise getroffen wurde, um Bandbreitenmissbrauch zu verhindern (siehe auch die Missbrauchs-FAQ!)

Es gibt jedoch Fälle, die (noch) nicht behandelt werden können:

Flash-Sites- keine volle Unterstützung

Intensive Java/Javascript-Sites- könnte falsch/unvollständig sein

Komplexes CGI mit integrierter Weiterleitung und anderen Tricks- sehr kompliziert in der Handhabung und daher unter Umständen problematisch

Parsing-Problem im HTML-Code (Fälle, in denen die Engine getäuscht wird, beispielsweise durch einen falschen Kommentar (
Kommentar (-->) erkannt. Selten, kann aber vorkommen. Ein Fehlerbericht ist dann im Allgemeinen gut!

Hinweis: Für einige Websites kann die Einstellung der Option „Alte HTTP/1.0-Anfragen erzwingen“ nützlich sein, da diese Option grundlegendere Anfragen verwendet (z. B. keine HEAD-Anfrage). Dies führt zu einem Leistungsverlust, erhöht jedoch die Kompatibilität mit einigen CGI-basierten Websites.

PD. Es gibt viele Gründe, warum Websites nicht zu 100 % erfasst werden können. Ich denke, bei SuperUser sind wir sehr enthusiastisch, aber wir führen gerne Reverse Engineering für eine Website durch, um herauszufinden, welches System im Hintergrund läuft (Das ist meine Meinung).

Answer 1

Ich empfehle Ihnen, dieFAQ

Hier ist ein Zitat von der WinHTTrack-Website:

Frage: Manche Seiten werden sehr gut erfasst, andere nicht. Warum?

Antwort: Es gibt mehrere Gründe (und Lösungen) für den Ausfall eines Spiegels. Das Lesen der Protokolldateien (und dieser FAQ!) ist im Allgemeinen eine SEHR gute Idee, um herauszufinden, was passiert ist.

Links innerhalb der Site beziehen sich auf externe Links oder Links in anderen (oder höheren) Verzeichnissen, die standardmäßig nicht erfasst werden. Die Verwendung von Filtern ist im Allgemeinen DIE Lösung, da dies eine der leistungsstarken Optionen in HTTrack ist. Siehe die obigen Fragen/Antworten. Die Website-Regeln „robots.txt“ verbieten den Zugriff auf mehrere Teile der Website. Sie können sie deaktivieren, aber nur mit großer Sorgfalt! HTTrack wird gefiltert (durch seine standardmäßige User-Agent-IDentität). Sie können die Browser-User-Agent-Identität in eine anonyme ändern (MSIE, Netscape usw.). Verwenden Sie diese Option auch hier mit Vorsicht, da diese Maßnahme möglicherweise getroffen wurde, um Bandbreitenmissbrauch zu verhindern (siehe auch die Missbrauchs-FAQ!)

Es gibt jedoch Fälle, die (noch) nicht behandelt werden können:

Flash-Sites- keine volle Unterstützung

Intensive Java/Javascript-Sites- könnte falsch/unvollständig sein

Komplexes CGI mit integrierter Weiterleitung und anderen Tricks- sehr kompliziert in der Handhabung und daher unter Umständen problematisch

Parsing-Problem im HTML-Code (Fälle, in denen die Engine getäuscht wird, beispielsweise durch einen falschen Kommentar (
Kommentar (-->) erkannt. Selten, kann aber vorkommen. Ein Fehlerbericht ist dann im Allgemeinen gut!

Hinweis: Für einige Websites kann die Einstellung der Option „Alte HTTP/1.0-Anfragen erzwingen“ nützlich sein, da diese Option grundlegendere Anfragen verwendet (z. B. keine HEAD-Anfrage). Dies führt zu einem Leistungsverlust, erhöht jedoch die Kompatibilität mit einigen CGI-basierten Websites.

PD. Es gibt viele Gründe, warum Websites nicht zu 100 % erfasst werden können. Ich denke, bei SuperUser sind wir sehr enthusiastisch, aber wir führen gerne Reverse Engineering für eine Website durch, um herauszufinden, welches System im Hintergrund läuft (Das ist meine Meinung).

Website-Seite kann mit WinHTTrack nicht kopiert/gespiegelt werden

Antwort1

verwandte Informationen