Por que o wget não está baixando os arquivos recém-adicionados do servidor?

Question

Se você adicionou um arquivo de imagem JPEG, mas não atualizou nenhum arquivo HTML para incluir uma referência a ele (ou um link para uma página de índice dinâmico), o Wget não conseguirá encontrar o JPEG.

A sincronização de dois conjuntos de pastas entre máquinas normalmente seria feita usando ferramentas como rsync, robocopy etc. que não apresentam esse problema e que não copiam arquivos inalterados e, portanto, são muito mais eficientes.

Atualizar:

Para procurar alterações no conteúdo em servidores aos quais você não tem acesso administrativo, às vezes você pode usar a HTTP HEADsolicitação e examinar o Last-Modifiedcabeçalho, se presente

C:\> curl --head https://www.gnu.org/graphics/heckert_gnu.transp.small.png
HTTP/1.1 200 OK
Date: Thu, 28 Nov 2019 23:15:33 GMT
Server: Apache/2.4.7
Strict-Transport-Security: max-age=63072000
Access-Control-Allow-Origin: (null)
Last-Modified: Sat, 19 Nov 2016 18:01:39 GMT
ETag: "1dfd-541ab36d9a6c0"
Accept-Ranges: bytes
Content-Length: 7677
Cache-Control: max-age=2592000
Expires: Sat, 28 Dec 2019 23:15:33 GMT
Content-Type: image/png
Content-Language: non-html

Wget tem algumas opções para usar solicitações HTTP HEAD.

Para um site completamente estático sem Javascript, você pode usar uma abordagem simples usando Wget etc. Acredito que esses sites sejam raros.

Você sempre terá problemas com páginas geradas dinamicamente. Você teria que baixar e analisar o HTML do site para determinar os URLs que precisa verificar. Você também pode precisar executar Javascript.

Você só pode verificar alterações no conteúdo gerado, não nos arquivos de origem. Como outros observaram, o conteúdo gerado geralmente apresenta alterações que não são de interesse - como carimbos de data e hora, tempos de processamento, etc.

Answer 1