Wget: descarga todas las imágenes del servidor web

Wget: descarga todas las imágenes del servidor web

Entonces quiero descargar todas las imágenes de un servidor web, particularmente jpegs. El comando que estoy ejecutando parece legítimo y sé que el sitio web tiene archivos JPEG. Así por ejemplo

wget -r -PC:/ -A.jpghttp://algunsitioconjpegs.com

Tengo entendido que este comando escaneará todo el servidor de forma recursiva buscando diligentemente solo imágenes jpeg y luego descargará esas imágenes a mi unidad C:/. Por alguna razón esto no funciona.

Al observar el código fuente, puedo ver que las imágenes en realidad no están directamente incrustadas en la página, sino que están alojadas en otro directorio del servidor. ¿Es por eso que wget no puede descargar estas imágenes?

Respuesta1

Para responder a mi propia pregunta, es cierto que wget sólo puede seguir enlaces y descargar archivos directamente. Dado que la mayoría de las imágenes están vinculadas a un directorio que no admite listados de directorios o tiene restricciones, wget no tiene forma de analizar el contenido de dicho directorio.

Un buen ejemplo de esto es un sitio de WordPress que almacena imágenes en la carpeta wp-content. Al intentar recorrer esta carpeta se produce un error 403 prohibido. Aunque podemos ver esta imagen en nuestro navegador como una imagen vinculada, wget no tiene acceso a ella porque la imagen está almacenada en un directorio sin acceso directo.

Alguien puede complementar esta respuesta si me faltan detalles o no explico el proceso correctamente.

Respuesta2

¿Es por eso que wget no puede descargar estas imágenes?

Respuesta:Quizás / Muy probablemente.

Intente agregar estas opciones:

-l1 -H

El-Hle dice a la aplicación que abarque dominios, lo que significa que debe seguir enlaces que apunten fuera del sitio(Quizás las imágenes se sirvan desde un servidor diferente). Y el-l1 significa ir solo a un nivel de profundidad: es decir, no seguir enlaces en el sitio vinculado. De esta manera, es posible que pueda descargar contenidos desde un servidor diferente que aloje archivos de imágenes.

iirc, mientras refleja un sitio completo de WordPress, puede acceder a las imágenes desde la carpeta wp-content.

información relacionada