Estou tentando espelhar um site do blogger para poder ter uma cópia exata dele em meu sistema de arquivos para visualização. Tentei emitir o seguinte comando no Linux:
wget -r -k -x -e robots=off --wait 1 http://your.site.here.blogspot.com/
Eu até tentei usar o sinalizador -D para listar uma lista separada por vírgulas de domínios a seguir (prefiro seguir qualquer domínio sem ter que especificar todos eles). Eu até tentei mudar a parte .com da URL para o domínio de nível superior do meu país (.it) (sem o qual, por algum motivo, não entendo e gostaria de saber, o wget recupera apenas index.html e não outra página, talvez alguém aqui possa explicar o porquê).
Então, mesmo quando eu faço um
wget -r -k -x -e robots=off --wait 1 http://your.site.here.blogspot.it/
vários HTML e também o favicon.ico são baixados, mas nenhuma das imagens .png do blogger é baixada. Por que isso acontece e como posso fazer o wget funcionar corretamente. Eu li a página de manual do wget, mas não tive sorte.
Obrigado.
Responder1
Conforme jayhendren
sugerido, tentei listar o domínio bp.blogspot.com na lista após o sinalizador -D. No entanto, o que esqueci de fazer foi adicionar o sinalizador -H. Por que o wget exige que o sinalizador -H extra seja adicionado separadamente da lista de domínios a seguir com o sinalizador -D não está claro para mim, mas funciona. Aqui está o comando que especifiquei para espelhar o site do Blogger, incluindo as imagens veiculadas no domínio externo:
wget --domains=blogspot.it,bp.blogspot.com -H --mirror -e robots=off \
--wait 0.5 --convert-links http://yoursitehere.blogspot.it/
Nota: isso funciona na Itália. Converta .it em .com ou em qualquer outro domínio de nível superior se quiser que funcione em sua localização.
Cumprimentos.
Responder2
Sem a saída de erro do wget, não posso dizer qual é exatamente o problema que você tem. Mas geralmente ao baixar (ou espelhar um site) com o wget, usarei a opção -mirror assim:
wget --mirror -p --adjust-extension --wait 1 http://your.site.here.blogspot.it/