Wget - Baixe todas as imagens do servidor web

Wget - Baixe todas as imagens do servidor web

Então, quero baixar todas as imagens de um servidor web, principalmente jpegs. O comando que estou executando parece legítimo e sei que o site contém JPEGs. Então por exemplo

wget -r -PC:/ -A.jpghttp://somesitewithjpegs.com

Entendo que este comando fará a varredura de todo o servidor, procurando recursivamente apenas por imagens JPEG e, em seguida, fará o download dessas imagens para minha unidade C:/. Por alguma razão, isso não está funcionando.

Olhando para o código-fonte, posso ver que as imagens não estão diretamente incorporadas na página, mas sim hospedadas em outro diretório no servidor. É por isso que o wget não consegue baixar essas imagens?

Responder1

Para responder à minha pergunta, é verdade que o wget só pode seguir links e baixar arquivos diretamente. Visto que a maioria das imagens está vinculada a um diretório que não suporta listagens de diretórios ou tem restrições, o wget não tem como analisar o conteúdo desse diretório.

Um bom exemplo disso é um site wordpress que armazena imagens na pasta wp-content. A tentativa de percorrer esta pasta gera um erro 403 proibido. Embora possamos ver esta imagem em nosso navegador como uma imagem vinculada, o wget não tem acesso a ela porque a imagem está armazenada em um diretório sem acesso direto.

Alguém pode acrescentar algo a esta resposta se estiver faltando detalhes ou não explicando o processo corretamente.

Responder2

É por isso que o wget não consegue baixar essas imagens?

Resposta:Talvez / Muito provavelmente.

Tente adicionar estas opções:

-l1 -H

O-Hdiz ao aplicativo para abranger domínios, o que significa que ele deve seguir links que apontam para fora do site(Talvez as imagens sejam veiculadas em um servidor diferente). E a-l1 significa ir apenas um nível de profundidade: isto é, não siga os links no site vinculado. Dessa forma, você poderá baixar o conteúdo de um servidor diferente que hospeda arquivos de imagem.

iirc, ao espelhar um site wordpress completo, você pode acessar imagens da pasta wp-content.

informação relacionada