Estoy intentando reflejar el sitio de un blogger para poder tener una copia exacta en mi sistema de archivos para ver. Intenté emitir el siguiente comando en Linux:
wget -r -k -x -e robots=off --wait 1 http://your.site.here.blogspot.com/
Incluso he intentado usar el indicador -D para enumerar una lista de dominios separados por comas a seguir (preferiría seguir cualquier dominio sin tener que especificarlos todos). Incluso intenté cambiar la parte .com de la URL al dominio de nivel superior para mi país (.it) (sin el cual, por alguna razón que no entiendo y me gustaría saber, wget solo recupera index.html y no otra página, quizás alguien aquí pueda explicar por qué).
Entonces, incluso cuando hago un
wget -r -k -x -e robots=off --wait 1 http://your.site.here.blogspot.it/
Se descargan varios HTML y también favicon.ico, pero no se descarga ninguna de las imágenes .png de Blogger. ¿Por qué es así y cómo puedo hacer que wget funcione correctamente? Leí la página de manual de wget pero no tuve suerte.
Gracias.
Respuesta1
Como jayhendren
se sugirió, intenté incluir el dominio bp.blogspot.com en la lista que sigue al indicador -D. Sin embargo, lo que olvidé es agregar el indicador -H. No me queda claro por qué wget requiere que se agregue el indicador -H adicional por separado de la lista de dominios a seguir con el indicador -D, pero funciona. Este es el comando que finalmente especifiqué para reflejar el sitio de Blogger, incluidas las imágenes servidas desde el dominio externo:
wget --domains=blogspot.it,bp.blogspot.com -H --mirror -e robots=off \
--wait 0.5 --convert-links http://yoursitehere.blogspot.it/
Nota: esto funciona desde Italia. Convierta .it a .com o a cualquier otro dominio de nivel superior si desea que esto funcione desde su ubicación.
Saludos.
Respuesta2
Sin la salida de error de wget, no puedo decir cuál es el problema exacto que tienes. Pero, en general, al descargar (o duplicar un sitio web) con wget, usaré la opción -mirror como esta:
wget --mirror -p --adjust-extension --wait 1 http://your.site.here.blogspot.it/