Estoy intentando descargar un sitio completo wget
como este:
wget -r http://whatever/
wget -m http://whatever/
Pero sólo descarga las páginas con texto, no imágenes. ¿Cómo puedo descargar las páginas con texto e imágenes? ¿Que me estoy perdiendo aqui?
Respuesta1
El wget
comando que necesitarás usar es mucho más largo como se explica a continuación. Como tal, es posible que desees enviarlo a un archivo como wholesite.sh
, convertirlo en ejecutable y ejecutarlo. Creará un directorio de la URL y subdirectorios de los activos del sitio, incluidas imágenes, js, css, etc.
wget \
--recursive \
--level 5 \
--no-clobber \
--page-requisites \
--adjust-extension \
--span-hosts \
--convert-links \
--restrict-file-names=windows \
--domains yoursite.com \
--no-parent \
yoursite.com
Explicación
--recursive
Esto especifica cuántos subdirectorios de los activos del sitio desea recuperar (ya que los activos como las imágenes a menudo se guardan en subdirectorios del sitio). La profundidad máxima predeterminada para buscar activos es 5 subdirectorios. Puedes modificar esto con la level
bandera justo debajo.
--level 5
Busque activos en 5 subdirectorios. Recomendaría aumentar o disminuir esto si el sitio de destino es más grande o más pequeño, respectivamente.
--no-clobber
No sobrescribas archivos existentes.
--page-requisites
hace wget
que se descarguen todos los archivos necesarios para mostrar correctamente una página HTML determinada que incluyeimágenes, css, js, etc.
--adjust-extension
Conserva las extensiones de archivo adecuadas para .html, .css y otros activos.
--span-hosts
Incluya también los activos necesarios fuera del sitio.
--convert-links
Actualice los enlaces del sitio para que funcionen como archivos dentro de subdirectorios en su máquina local (para verlos localmente).
--restrict-file-names=windows
Modifique los nombres de archivos para que funcionen también en Windows, en caso de que esté utilizando este comando en un sistema Windows.
--domains yoursite.com
No siga enlaces fuera de este dominio.
--no-parent
No siga enlaces fuera del directorio que ingresa.
yoursite.com
# La URL para descargar