Como baixar um site inteiro com wget incluindo suas imagens

Como baixar um site inteiro com wget incluindo suas imagens

Estou tentando baixar um site inteiro wgetassim:

wget -r http://whatever/

wget -m http://whatever/

Mas só baixa as páginas com texto, sem imagens. Como posso baixar as páginas com texto e imagens? O que estou perdendo aqui?

Responder1

O wgetcomando que você precisará usar é muito mais extenso, conforme explicado abaixo. Dessa forma, você pode querer enviá-lo para um arquivo como wholesite.sh, torná-lo um executável e executá-lo. Ele criará um diretório com a URL e subdiretórios dos ativos do site, incluindo imagens, js, css, etc.

wget \
     --recursive \
     --level 5 \
     --no-clobber \
     --page-requisites \
     --adjust-extension \
     --span-hosts \
     --convert-links \
     --restrict-file-names=windows \
     --domains yoursite.com \
     --no-parent \
         yoursite.com

Explicação

--recursive Isso especifica quantos subdiretórios de ativos do site você deseja recuperar (já que ativos como imagens geralmente são mantidos em subdiretórios do site). A profundidade máxima padrão para pesquisar ativos é de 5 subdiretórios. Você pode modificar isso com a levelbandeira logo abaixo.

--level 5Pesquise ativos em 5 subdiretórios. Eu recomendo aumentar ou diminuir isso se o site de destino for maior ou menor, respectivamente.

--no-clobber Não sobrescreva os arquivos existentes.

--page-requisites faz com wgetque baixe todos os arquivos necessários para exibir corretamente uma determinada página HTML que incluiimagens, css, js, etc.

--adjust-extension Preserva extensões de arquivo adequadas para .html, .css e outros ativos.

--span-hosts Inclua também os ativos necessários externos.

--convert-links Atualize os links do site para funcionarem como arquivos em subdiretórios em sua máquina local (para visualização local).

--restrict-file-names=windows Modifique os nomes dos arquivos para funcionarem no Windows também, caso você esteja usando este comando em um sistema Windows.

--domains yoursite.com Não siga links fora deste domínio.

--no-parent Não siga links fora do diretório que você passou.

yoursite.com# O URL para download


Exemplo adaptado de:https://gist.github.com/christiangenco/8531418

informação relacionada