Descargar todos los archivos fuente de una página web

Descargar todos los archivos fuente de una página web

Quiero descargar los archivos fuente de una página web que es un motor de búsqueda de bases de datos. Usando curl solo puedo descargar la página html principal. También me gustaría descargar todos los archivos javascript, css y php que están vinculados a la página web y se mencionan en la página html principal. ¿Es posible hacerlo usando curl/wget o alguna otra utilidad?

Respuesta1

En primer lugar, debe comprobar con el operador del sitio web que este es un uso aceptable de su servicio. Después de eso, puedes hacer algo como esto:

wget -pk example.com

-pobtiene los requisitos para ver la página (Javascript, CSS, etc.). -kconvierte los enlaces de la página en aquellos que se pueden utilizar para la visualización local.

De man wget:

-p, --requisitos-de-página

Esta opción hace que Wget descargue todos los archivos necesarios para mostrar correctamente una página HTML determinada. Esto incluye elementos como imágenes integradas, sonidos y hojas de estilo a las que se hace referencia.

[...]

-k, --convertir-enlaces

Una vez completada la descarga, convierta los enlaces del documento para que sean adecuados para la visualización local. Esto afecta no sólo a los hipervínculos visibles, sino a cualquier parte del documento que enlace a contenido externo, como imágenes incrustadas, enlaces a hojas de estilo, hipervínculos a contenido no HTML, etc.

información relacionada