
Preciso espelhar o seguinte URL:
https://web.archive.org/web/20100515230709/http://markowitzbocadentist.com/
Mas preciso espelhar apenas arquivos desta data '20100515230709'. Tentei muitas wget
opções, mas elas capturam index.html ou arquivos de outras datas também.
Como posso conseguir isso?
Responder1
Do manual do wget (1.15):
Na verdade, para baixar uma única página e todos os seus requisitos (mesmo que existam em sites separados), e garantir que o lote seja exibido corretamente localmente, este autor gosta de usar algumas opções além de '-p':
wget -E -H -k -K -p url
Além disso, o robots.txt pode estar bloqueando algum conteúdo, então adicione -e robots=off
Então você obtém:
wget -E -H -k -K -p -e robots=off https://web.archive.org/web/20100515230709/http://markowitzbocadentist.com/
Isso me deu 38 arquivos, todos necessários para aquela única página e nada mais.
Se você deseja obter mais do que apenas essa página, também precisa baixar (partes de) instantâneos de dias anteriores. Porque archive.org só busca omudadopáginas, umsite completocom umData específicaquase sempre consiste em páginas que foram capturadas naquela data, mas também em datas mais antigas. Por exemplo, o link para "Procedimentos" refere-se a uma cópia feita em 21/10/2010 às 08:29:33, que é anterior à data que você mencionou (15/05/2010 às 23:07:09).
Portanto, a resposta real à sua pergunta é: você não pode espelhar umcompletoinstantâneo de uma data sem pelo menos baixar partes do instantâneo de outra data também.
Adicionar o -m (opção de espelho) também busca essas páginas.