Como faço para espelhar o subdiretório de um site com wget

Como faço para espelhar o subdiretório de um site com wget

Preciso espelhar o seguinte URL:

https://web.archive.org/web/20100515230709/http://markowitzbocadentist.com/

Mas preciso espelhar apenas arquivos desta data '20100515230709'. Tentei muitas wgetopções, mas elas capturam index.html ou arquivos de outras datas também.

Como posso conseguir isso?

Responder1

Do manual do wget (1.15):

Na verdade, para baixar uma única página e todos os seus requisitos (mesmo que existam em sites separados), e garantir que o lote seja exibido corretamente localmente, este autor gosta de usar algumas opções além de '-p':

wget -E -H -k -K -p url

Além disso, o robots.txt pode estar bloqueando algum conteúdo, então adicione -e robots=off

Então você obtém:

wget -E -H -k -K -p -e robots=off https://web.archive.org/web/20100515230709/http://markowitzbocadentist.com/

Isso me deu 38 arquivos, todos necessários para aquela única página e nada mais.

Se você deseja obter mais do que apenas essa página, também precisa baixar (partes de) instantâneos de dias anteriores. Porque archive.org só busca omudadopáginas, umsite completocom umData específicaquase sempre consiste em páginas que foram capturadas naquela data, mas também em datas mais antigas. Por exemplo, o link para "Procedimentos" refere-se a uma cópia feita em 21/10/2010 às 08:29:33, que é anterior à data que você mencionou (15/05/2010 às 23:07:09).

Portanto, a resposta real à sua pergunta é: você não pode espelhar umcompletoinstantâneo de uma data sem pelo menos baixar partes do instantâneo de outra data também.

Adicionar o -m (opção de espelho) também busca essas páginas.

informação relacionada