¿Por qué wget no descarga los archivos recién agregados desde el servidor?

Question

Si agregó un archivo de imagen JPEG pero no actualizó ningún archivo HTML para incluir una referencia al mismo (o un enlace a una página de índice dinámica), Wget no podrá encontrar el JPEG.

La sincronización de dos conjuntos de carpetas entre máquinas normalmente se haría utilizando herramientas como rsync, robocopy, etc. que no tienen este problema y que no copian archivos sin cambios y, por lo tanto, son mucho más eficientes.

Actualizar:

Para buscar cambios en el contenido de servidores a los que no tiene acceso administrativo, a veces puede utilizar la HTTP HEADsolicitud y examinar el Last-Modifiedencabezado, si está presente.

C:\> curl --head https://www.gnu.org/graphics/heckert_gnu.transp.small.png
HTTP/1.1 200 OK
Date: Thu, 28 Nov 2019 23:15:33 GMT
Server: Apache/2.4.7
Strict-Transport-Security: max-age=63072000
Access-Control-Allow-Origin: (null)
Last-Modified: Sat, 19 Nov 2016 18:01:39 GMT
ETag: "1dfd-541ab36d9a6c0"
Accept-Ranges: bytes
Content-Length: 7677
Cache-Control: max-age=2592000
Expires: Sat, 28 Dec 2019 23:15:33 GMT
Content-Type: image/png
Content-Language: non-html

Wget tiene algunas opciones para usar solicitudes HTTP HEAD.

Para un sitio web completamente estático sin Javascript, es posible que pueda utilizar un enfoque simple usando Wget, etc. Creo que estos sitios son raros.

Siempre tendrás problemas con las páginas generadas dinámicamente. Tendría que descargar y analizar HTML del sitio para determinar las URL que necesita verificar. Es posible que también necesites ejecutar Javascript.

Sólo puede comprobar si hay cambios en el contenido generado, no en los archivos fuente. Como han señalado otros, el contenido generado a menudo tiene cambios que no son de interés, como marcas de tiempo, tiempos de procesamiento, etc.

Answer 1