wget がサーバーから新しく追加されたファイルをダウンロードしないのはなぜですか?

Question

JPEG 画像ファイルを追加したが、そのファイルへの参照 (または動的インデックスページへのリンク) を含むように HTML ファイルを更新しなかった場合、Wget は JPEG を見つけることができません。

マシン間で 2 セットのフォルダーを同期する場合は通常、rsync、robocopy などのツールを使用して行いますが、これらのツールにはこの問題がなく、変更されていないファイルはコピーされないため、はるかに効率的です。

アップデート：

管理者権限のないサーバーのコンテンツの変更を確認するには、リクエストを使用してHTTP HEAD、Last-Modified存在する場合はヘッダーを調べることができます。

C:\> curl --head https://www.gnu.org/graphics/heckert_gnu.transp.small.png
HTTP/1.1 200 OK
Date: Thu, 28 Nov 2019 23:15:33 GMT
Server: Apache/2.4.7
Strict-Transport-Security: max-age=63072000
Access-Control-Allow-Origin: (null)
Last-Modified: Sat, 19 Nov 2016 18:01:39 GMT
ETag: "1dfd-541ab36d9a6c0"
Accept-Ranges: bytes
Content-Length: 7677
Cache-Control: max-age=2592000
Expires: Sat, 28 Dec 2019 23:15:33 GMT
Content-Type: image/png
Content-Language: non-html

Wget には、HTTP HEAD リクエストを使用するためのオプションがいくつかあります。

Javascript のない完全に静的な Web サイトの場合は、Wget などを使用した簡単な方法を使用できる可能性があります。そのようなサイトはまれだと思います。

動的に生成されたページでは常に問題が発生します。確認する必要がある URL を決定するには、サイトから HTML をダウンロードして解析する必要があります。また、Javascript を実行する必要がある場合もあります。

変更を確認できるのは生成されたコンテンツのみであり、ソースファイルの変更は確認できません。他の人が指摘しているように、生成されたコンテンツには、タイムスタンプや処理時間など、重要でない変更が含まれることがよくあります。

Answer 1