Estou tentando baixar um site inteiro wget
assim:
wget -r http://whatever/
wget -m http://whatever/
Mas só baixa as páginas com texto, sem imagens. Como posso baixar as páginas com texto e imagens? O que estou perdendo aqui?
Responder1
O wget
comando que você precisará usar é muito mais extenso, conforme explicado abaixo. Dessa forma, você pode querer enviá-lo para um arquivo como wholesite.sh
, torná-lo um executável e executá-lo. Ele criará um diretório com a URL e subdiretórios dos ativos do site, incluindo imagens, js, css, etc.
wget \
--recursive \
--level 5 \
--no-clobber \
--page-requisites \
--adjust-extension \
--span-hosts \
--convert-links \
--restrict-file-names=windows \
--domains yoursite.com \
--no-parent \
yoursite.com
Explicação
--recursive
Isso especifica quantos subdiretórios de ativos do site você deseja recuperar (já que ativos como imagens geralmente são mantidos em subdiretórios do site). A profundidade máxima padrão para pesquisar ativos é de 5 subdiretórios. Você pode modificar isso com a level
bandeira logo abaixo.
--level 5
Pesquise ativos em 5 subdiretórios. Eu recomendo aumentar ou diminuir isso se o site de destino for maior ou menor, respectivamente.
--no-clobber
Não sobrescreva os arquivos existentes.
--page-requisites
faz com wget
que baixe todos os arquivos necessários para exibir corretamente uma determinada página HTML que incluiimagens, css, js, etc.
--adjust-extension
Preserva extensões de arquivo adequadas para .html, .css e outros ativos.
--span-hosts
Inclua também os ativos necessários externos.
--convert-links
Atualize os links do site para funcionarem como arquivos em subdiretórios em sua máquina local (para visualização local).
--restrict-file-names=windows
Modifique os nomes dos arquivos para funcionarem no Windows também, caso você esteja usando este comando em um sistema Windows.
--domains yoursite.com
Não siga links fora deste domínio.
--no-parent
Não siga links fora do diretório que você passou.
yoursite.com
# O URL para download