No se puede copiar/reflejar la página del sitio web mediante WinHTTrack

Question

Te sugiero que leas elPreguntas más frecuentes

Aquí hay una cita del sitio web WinHTTrack:

Pregunta: Algunos sitios se capturan muy bien, otros no. ¿Por qué?

Respuesta: Hay varias razones (y soluciones) para que falle un espejo. Leer los archivos de registro (y estas preguntas frecuentes) generalmente es una MUY buena idea para descubrir qué ocurrió.

Los enlaces dentro del sitio se refieren a enlaces externos, o enlaces ubicados en otros directorios (o superiores), no capturados de forma predeterminada; el uso de filtros es generalmente LA solución, ya que esta es una de las opciones poderosas en HTTrack. Vea las preguntas/respuestas anteriores. Las reglas del sitio web 'robots.txt' prohíben el acceso a varias partes del sitio web; puedes desactivarlas, ¡pero sólo con mucho cuidado! HTTrack está filtrado (por su IDentidad de agente de usuario predeterminada). Puede cambiar la identidad del Agente de usuario del navegador a una anónima (MSIE, Netscape...). Aquí nuevamente, use esta opción con cuidado, ya que esta medida podría haberse puesto para evitar algunos abusos de ancho de banda (¡consulte también las preguntas frecuentes sobre abusos!)

Sin embargo, hay casos que (todavía) no se pueden abordar:

Sitios flash- sin soporte completo

Sitios intensivos de Java/Javascript- podría ser falso/incompleto

CGI complejo con redireccionamiento integrado y otros trucos- muy complicado de manejar y por lo tanto puede causar problemas

Problema de análisis en el código HTML (casos en los que el motor se deja engañar, por ejemplo por un comentario falso (
comentario (-->) detectado. Casos raros, pero pueden ocurrir. ¡Un informe de error generalmente es bueno!

Nota: Para algunos sitios, configurar la opción "Forzar solicitudes HTTP/1.0 antiguas" puede ser útil, ya que esta opción utiliza solicitudes más básicas (sin solicitud HEAD, por ejemplo). Esto provocará una pérdida de rendimiento, pero aumentará la compatibilidad con algunos sitios basados en CGI.

PD. Hay muchas razones por las que el sitio web no se puede capturar al 100%. Creo que en SuperUser somos muy entusiastas, pero solemos realizar ingeniería inversa en un sitio web para descubrir qué sistema se está ejecutando desde atrás (es mi opinion).

Answer 1

Te sugiero que leas elPreguntas más frecuentes

Aquí hay una cita del sitio web WinHTTrack:

Pregunta: Algunos sitios se capturan muy bien, otros no. ¿Por qué?

Respuesta: Hay varias razones (y soluciones) para que falle un espejo. Leer los archivos de registro (y estas preguntas frecuentes) generalmente es una MUY buena idea para descubrir qué ocurrió.

Los enlaces dentro del sitio se refieren a enlaces externos, o enlaces ubicados en otros directorios (o superiores), no capturados de forma predeterminada; el uso de filtros es generalmente LA solución, ya que esta es una de las opciones poderosas en HTTrack. Vea las preguntas/respuestas anteriores. Las reglas del sitio web 'robots.txt' prohíben el acceso a varias partes del sitio web; puedes desactivarlas, ¡pero sólo con mucho cuidado! HTTrack está filtrado (por su IDentidad de agente de usuario predeterminada). Puede cambiar la identidad del Agente de usuario del navegador a una anónima (MSIE, Netscape...). Aquí nuevamente, use esta opción con cuidado, ya que esta medida podría haberse puesto para evitar algunos abusos de ancho de banda (¡consulte también las preguntas frecuentes sobre abusos!)

Sin embargo, hay casos que (todavía) no se pueden abordar:

Sitios flash- sin soporte completo

Sitios intensivos de Java/Javascript- podría ser falso/incompleto

CGI complejo con redireccionamiento integrado y otros trucos- muy complicado de manejar y por lo tanto puede causar problemas

Problema de análisis en el código HTML (casos en los que el motor se deja engañar, por ejemplo por un comentario falso (
comentario (-->) detectado. Casos raros, pero pueden ocurrir. ¡Un informe de error generalmente es bueno!

Nota: Para algunos sitios, configurar la opción "Forzar solicitudes HTTP/1.0 antiguas" puede ser útil, ya que esta opción utiliza solicitudes más básicas (sin solicitud HEAD, por ejemplo). Esto provocará una pérdida de rendimiento, pero aumentará la compatibilidad con algunos sitios basados en CGI.

PD. Hay muchas razones por las que el sitio web no se puede capturar al 100%. Creo que en SuperUser somos muy entusiastas, pero solemos realizar ingeniería inversa en un sitio web para descubrir qué sistema se está ejecutando desde atrás (es mi opinion).

No se puede copiar/reflejar la página del sitio web mediante WinHTTrack

Respuesta1

información relacionada