¿Existe alguna forma de recuperar el código fuente de cada página web de un sitio web y guardarlo en un único archivo de texto? ¿Con los caracteres CRFL apropiados como si las páginas se recuperaran individualmente en Internet Explorer? Probé Wget, pero parece que no puedo encontrar la combinación correcta de opciones.
Respuesta1
Si el servidor web se ha configurado correctamente, no, esto no es posible. Esto se debe a que si pudiera descargar el código fuente de los sitios web, podría recuperar datos valiosos, como los detalles de autenticación de la base de datos del sitio web.
Sin embargo, puede descargar elHTML renderizadode la página web, tal como aparece en su navegador de Internet, con wget
:
wget -E -H -k -K -p URLHERE
Sin embargo, algunos servidores web pueden tratarlos wget
como un robot (un programa que extrae y guarda datos de páginas web); en este caso, puede utilizar los -e robots=off
interruptores que tenga a su wget
disposición.