dando sentido a la salida wget -r

Question

Puede intentar omitir archivos con --rejectla opción (también acepta comodines):

wget --rechazar index.html

Sin embargo, no quieres hacer esto. Cuando se usa wget con -r, de alguna manera necesita obtener una lista de archivos dentro del directorio. Por lo tanto, wget solicita el archivo index.html y analiza el contenido con la esperanza de obtener rutas a otros archivos en este directorio. Cuando no hay ningún archivo index.html en la carpeta, el servidor web normalmente lo generará para wget; este archivo contendrá la lista del directorio. La creación de este archivo de lista debe estar habilitada en el servidor web; de lo contrario, wget recibirá una respuesta HTTP 404 y fallará con la descarga recursiva.

Este es el tamaño del archivo en bytes.
Esto significa que no se pudo eliminar un archivo (probablemente porque no se creó en primer lugar). ¿Tiene permiso de escritura en el directorio en el que descarga con wget?

Editar:Después de probar las descargas de wget --spider, --recursive reproduje el error de desvinculación. Parece que wget usa el tipo de contenido de respuesta para determinar si el archivo puede contener enlaces a otros recursos. Si la prueba de tipo de contenido falla y el archivo no se descarga, wget seguirá intentando eliminar el archivo temporal, como si se hubiera descargado (esto es evidente al volver a ejecutar wget con --debug. Indicará claramente Removing file due to --spider in recursive_retrieve():). Supongo que encontraste un error en wget.

Answer 1

Puede intentar omitir archivos con --rejectla opción (también acepta comodines):

wget --rechazar index.html

Sin embargo, no quieres hacer esto. Cuando se usa wget con -r, de alguna manera necesita obtener una lista de archivos dentro del directorio. Por lo tanto, wget solicita el archivo index.html y analiza el contenido con la esperanza de obtener rutas a otros archivos en este directorio. Cuando no hay ningún archivo index.html en la carpeta, el servidor web normalmente lo generará para wget; este archivo contendrá la lista del directorio. La creación de este archivo de lista debe estar habilitada en el servidor web; de lo contrario, wget recibirá una respuesta HTTP 404 y fallará con la descarga recursiva.

Este es el tamaño del archivo en bytes.
Esto significa que no se pudo eliminar un archivo (probablemente porque no se creó en primer lugar). ¿Tiene permiso de escritura en el directorio en el que descarga con wget?

Editar:Después de probar las descargas de wget --spider, --recursive reproduje el error de desvinculación. Parece que wget usa el tipo de contenido de respuesta para determinar si el archivo puede contener enlaces a otros recursos. Si la prueba de tipo de contenido falla y el archivo no se descarga, wget seguirá intentando eliminar el archivo temporal, como si se hubiera descargado (esto es evidente al volver a ejecutar wget con --debug. Indicará claramente Removing file due to --spider in recursive_retrieve():). Supongo que encontraste un error en wget.

dando sentido a la salida wget -r

Respuesta1

información relacionada