Não é possível copiar/espelhar a página do site usando WinHTTrack

Question

Sugiro que você leia oPerguntas frequentes

Aqui está uma citação do site WinHTTrack:

Pergunta: Alguns sites são capturados muito bem, outros não. Por que?

Resposta: Existem vários motivos (e soluções) para a falha de um espelho. Ler os arquivos de log (e este FAQ!) Geralmente é uma ideia MUITO boa para descobrir o que ocorreu.

Links dentro do site referem-se a links externos, ou links localizados em outros diretórios (ou superiores), não capturados por padrão - o uso de filtros geralmente é A solução, pois esta é uma das opções poderosas do HTTrack. Veja as perguntas/respostas acima. As regras do site 'robots.txt' proíbem o acesso a diversas partes do site - você pode desativá-las, mas apenas com muito cuidado! HTTrack é filtrado (por sua IDentidade de agente de usuário padrão) - você pode alterar a identidade de agente de usuário do navegador para uma anônima (MSIE, Netscape..) - aqui novamente, use esta opção com cuidado, pois esta medida pode ter sido colocada para evitar algum abuso de largura de banda (veja também as perguntas frequentes sobre abuso!)

Existem casos, no entanto, que (ainda) não podem ser tratados:

Sites Flash- sem suporte completo

Sites Java/Javascript intensivos- pode ser falso/incompleto

CGI complexo com redirecionamento integrado e outros truques- muito complicado de manusear e, portanto, pode causar problemas

Problema de análise no código HTML (casos onde o motor é enganado, por exemplo por um comentário falso (
comentário (-->) detectado. Casos raros, mas podem ocorrer. Um relatório de bug geralmente é bom!

Nota: Para alguns sites, definir a opção "Forçar solicitações HTTP/1.0 antigas" pode ser útil, pois esta opção usa solicitações mais básicas (sem solicitação HEAD, por exemplo). Isto causará perda de desempenho, mas aumentará a compatibilidade com alguns sites baseados em cgi.

PD. Há muitos motivos pelos quais o site não pode ser capturado 100%, acho que no SuperUser somos muito entusiastas, mas costumamos fazer engenharia reversa em um site para descobrir qual sistema está sendo executado por trás (É minha opinião).

Answer 1

Sugiro que você leia oPerguntas frequentes

Aqui está uma citação do site WinHTTrack:

Pergunta: Alguns sites são capturados muito bem, outros não. Por que?

Resposta: Existem vários motivos (e soluções) para a falha de um espelho. Ler os arquivos de log (e este FAQ!) Geralmente é uma ideia MUITO boa para descobrir o que ocorreu.

Links dentro do site referem-se a links externos, ou links localizados em outros diretórios (ou superiores), não capturados por padrão - o uso de filtros geralmente é A solução, pois esta é uma das opções poderosas do HTTrack. Veja as perguntas/respostas acima. As regras do site 'robots.txt' proíbem o acesso a diversas partes do site - você pode desativá-las, mas apenas com muito cuidado! HTTrack é filtrado (por sua IDentidade de agente de usuário padrão) - você pode alterar a identidade de agente de usuário do navegador para uma anônima (MSIE, Netscape..) - aqui novamente, use esta opção com cuidado, pois esta medida pode ter sido colocada para evitar algum abuso de largura de banda (veja também as perguntas frequentes sobre abuso!)

Existem casos, no entanto, que (ainda) não podem ser tratados:

Sites Flash- sem suporte completo

Sites Java/Javascript intensivos- pode ser falso/incompleto

CGI complexo com redirecionamento integrado e outros truques- muito complicado de manusear e, portanto, pode causar problemas

Problema de análise no código HTML (casos onde o motor é enganado, por exemplo por um comentário falso (
comentário (-->) detectado. Casos raros, mas podem ocorrer. Um relatório de bug geralmente é bom!

Nota: Para alguns sites, definir a opção "Forçar solicitações HTTP/1.0 antigas" pode ser útil, pois esta opção usa solicitações mais básicas (sem solicitação HEAD, por exemplo). Isto causará perda de desempenho, mas aumentará a compatibilidade com alguns sites baseados em cgi.

PD. Há muitos motivos pelos quais o site não pode ser capturado 100%, acho que no SuperUser somos muito entusiastas, mas costumamos fazer engenharia reversa em um site para descobrir qual sistema está sendo executado por trás (É minha opinião).

Não é possível copiar/espelhar a página do site usando WinHTTrack

Responder1

informação relacionada