A veces, sólo deseo obtener la estructura de directorios de un sitio web, pero los archivos en sí no son importantes. Sólo quiero su nombre. Algo así como un espejo donde cada entrada es solo un archivo ficticio vacío.
Por supuesto, hacer wget -r
y luego ejecutar un script para vaciar todos los archivos funciona bien, pero parece un desperdicio porque no es bueno ni para el servidor ni para mi ancho de banda. Una forma más eficiente, pero aún menos elegante, es detener y reiniciar manualmente el proceso cada vez que acceda a un archivo grande, o establecer un tiempo de espera muy corto. Al menos eso reduce significativamente la cantidad de datos que tengo que descargar.
Mi pregunta es: ¿Puedo hacer que wget solo cree un archivo, pero no descargue su contenido? ¿O estoy usando la herramienta incorrecta para el trabajo?
Respuesta1
Publicar una respuesta según lo solicitado:
Utilice la --spider
opción:
wget -r -nv --spider http://example.com
Luego puede analizar la estructura del sitio a partir del resultado. Esto no descargará archivos que no tengan posibilidades de contener enlaces, como imágenes.