¿Cómo evito que wget cargue listados de directorios de Apache en diferentes órdenes?

Question 1

Como se señala enuna respuestaa una pregunta relacionada,documentación de wgetdice:

Tenga en cuenta también que las cadenas de consulta (cadenas al final de una URL que comienzan con un signo de interrogación ('?') no se incluyen como parte del nombre de archivo para las reglas de aceptación/rechazo, aunque en realidad contribuirán al nombre elegido para el archivo local. Se espera que una versión futura de Wget proporcione una opción para permitir la comparación con cadenas de consulta.

Probablemente tendrás que utilizar una herramienta diferente comopavukohttrack. Estos dos programas proporcionan un filtrado de nombres que es más sólido que el de wget.

Como alternativa, puedes descargar el directorio usando wget y filtrarlo luego.

find . -name '*\?' -delete
# Here is a less dangerous pattern that matches the string you provided more closely:
find . -name '*\??=?;?=?' -delete

Answer

Como se señala enuna respuestaa una pregunta relacionada,documentación de wgetdice:

Tenga en cuenta también que las cadenas de consulta (cadenas al final de una URL que comienzan con un signo de interrogación ('?') no se incluyen como parte del nombre de archivo para las reglas de aceptación/rechazo, aunque en realidad contribuirán al nombre elegido para el archivo local. Se espera que una versión futura de Wget proporcione una opción para permitir la comparación con cadenas de consulta.

Probablemente tendrás que utilizar una herramienta diferente comopavukohttrack. Estos dos programas proporcionan un filtrado de nombres que es más sólido que el de wget.

Como alternativa, puedes descargar el directorio usando wget y filtrarlo luego.

find . -name '*\?' -delete
# Here is a less dangerous pattern that matches the string you provided more closely:
find . -name '*\??=?;?=?' -delete

Question 2

Usaría httrack si intentas reflejar un directorio de archivos *.pdf. Un comando como este funcionó para mí:

 % httrack http://my.server.com/dir/with/pdfs/ +mime:text/html +*.pdf --update

Puede consultar más información sobre httrack en las siguientes URL:

Debo mencionar una ventaja importante de usar httrack sobre wget es que httrack solo descargará archivos que hayan cambiado/actualizado.

Answer

Usaría httrack si intentas reflejar un directorio de archivos *.pdf. Un comando como este funcionó para mí:

 % httrack http://my.server.com/dir/with/pdfs/ +mime:text/html +*.pdf --update

Puede consultar más información sobre httrack en las siguientes URL:

Debo mencionar una ventaja importante de usar httrack sobre wget es que httrack solo descargará archivos que hayan cambiado/actualizado.

¿Cómo evito que wget cargue listados de directorios de Apache en diferentes órdenes?

Respuesta1

Respuesta2

información relacionada