
Então, quero baixar todas as imagens de um servidor web, principalmente jpegs. O comando que estou executando parece legítimo e sei que o site contém JPEGs. Então por exemplo
wget -r -PC:/ -A.jpghttp://somesitewithjpegs.com
Entendo que este comando fará a varredura de todo o servidor, procurando recursivamente apenas por imagens JPEG e, em seguida, fará o download dessas imagens para minha unidade C:/. Por alguma razão, isso não está funcionando.
Olhando para o código-fonte, posso ver que as imagens não estão diretamente incorporadas na página, mas sim hospedadas em outro diretório no servidor. É por isso que o wget não consegue baixar essas imagens?
Responder1
Para responder à minha pergunta, é verdade que o wget só pode seguir links e baixar arquivos diretamente. Visto que a maioria das imagens está vinculada a um diretório que não suporta listagens de diretórios ou tem restrições, o wget não tem como analisar o conteúdo desse diretório.
Um bom exemplo disso é um site wordpress que armazena imagens na pasta wp-content. A tentativa de percorrer esta pasta gera um erro 403 proibido. Embora possamos ver esta imagem em nosso navegador como uma imagem vinculada, o wget não tem acesso a ela porque a imagem está armazenada em um diretório sem acesso direto.
Alguém pode acrescentar algo a esta resposta se estiver faltando detalhes ou não explicando o processo corretamente.
Responder2
É por isso que o wget não consegue baixar essas imagens?
Resposta:Talvez / Muito provavelmente.
Tente adicionar estas opções:
-l1 -H
O-Hdiz ao aplicativo para abranger domínios, o que significa que ele deve seguir links que apontam para fora do site(Talvez as imagens sejam veiculadas em um servidor diferente). E a-l1 significa ir apenas um nível de profundidade: isto é, não siga os links no site vinculado. Dessa forma, você poderá baixar o conteúdo de um servidor diferente que hospeda arquivos de imagem.
iirc, ao espelhar um site wordpress completo, você pode acessar imagens da pasta wp-content.