Cómo descargar un sitio completo con wget incluidas sus imágenes

Cómo descargar un sitio completo con wget incluidas sus imágenes

Estoy intentando descargar un sitio completo wgetcomo este:

wget -r http://whatever/

wget -m http://whatever/

Pero sólo descarga las páginas con texto, no imágenes. ¿Cómo puedo descargar las páginas con texto e imágenes? ¿Que me estoy perdiendo aqui?

Respuesta1

El wgetcomando que necesitarás usar es mucho más largo como se explica a continuación. Como tal, es posible que desees enviarlo a un archivo como wholesite.sh, convertirlo en ejecutable y ejecutarlo. Creará un directorio de la URL y subdirectorios de los activos del sitio, incluidas imágenes, js, css, etc.

wget \
     --recursive \
     --level 5 \
     --no-clobber \
     --page-requisites \
     --adjust-extension \
     --span-hosts \
     --convert-links \
     --restrict-file-names=windows \
     --domains yoursite.com \
     --no-parent \
         yoursite.com

Explicación

--recursive Esto especifica cuántos subdirectorios de los activos del sitio desea recuperar (ya que los activos como las imágenes a menudo se guardan en subdirectorios del sitio). La profundidad máxima predeterminada para buscar activos es 5 subdirectorios. Puedes modificar esto con la levelbandera justo debajo.

--level 5Busque activos en 5 subdirectorios. Recomendaría aumentar o disminuir esto si el sitio de destino es más grande o más pequeño, respectivamente.

--no-clobber No sobrescribas archivos existentes.

--page-requisites hace wgetque se descarguen todos los archivos necesarios para mostrar correctamente una página HTML determinada que incluyeimágenes, css, js, etc.

--adjust-extension Conserva las extensiones de archivo adecuadas para .html, .css y otros activos.

--span-hosts Incluya también los activos necesarios fuera del sitio.

--convert-links Actualice los enlaces del sitio para que funcionen como archivos dentro de subdirectorios en su máquina local (para verlos localmente).

--restrict-file-names=windows Modifique los nombres de archivos para que funcionen también en Windows, en caso de que esté utilizando este comando en un sistema Windows.

--domains yoursite.com No siga enlaces fuera de este dominio.

--no-parent No siga enlaces fuera del directorio que ingresa.

yoursite.com# La URL para descargar


Ejemplo adaptado de:https://gist.github.com/christiangenco/8531418

información relacionada