wget이 서버에서 새로 추가된 파일을 다운로드하지 않는 이유는 무엇입니까?

Question

JPEG 이미지 파일을 추가했지만 이에 대한 참조(또는 동적 색인 페이지에 대한 링크)를 포함하도록 HTML 파일을 업데이트하지 않은 경우 Wget은 JPEG를 찾을 수 없습니다.

컴퓨터 간에 두 세트의 폴더 동기화는 일반적으로 이 문제가 없고 변경되지 않은 파일을 복사하지 않으므로 훨씬 더 효율적인 rsync, robocopy 등과 같은 도구를 사용하여 수행됩니다.

업데이트:

관리 액세스 권한이 없는 서버의 콘텐츠 변경 사항을 찾으려면 때때로 요청을 사용 하고 헤더가 있는 경우 HTTP HEAD검사 할 수 있습니다.Last-Modified

C:\> curl --head https://www.gnu.org/graphics/heckert_gnu.transp.small.png
HTTP/1.1 200 OK
Date: Thu, 28 Nov 2019 23:15:33 GMT
Server: Apache/2.4.7
Strict-Transport-Security: max-age=63072000
Access-Control-Allow-Origin: (null)
Last-Modified: Sat, 19 Nov 2016 18:01:39 GMT
ETag: "1dfd-541ab36d9a6c0"
Accept-Ranges: bytes
Content-Length: 7677
Cache-Control: max-age=2592000
Expires: Sat, 28 Dec 2019 23:15:33 GMT
Content-Type: image/png
Content-Language: non-html

Wget에는 HTTP HEAD 요청을 사용하기 위한 몇 가지 옵션이 있습니다.

Javascript가 없는 완전히 정적인 웹사이트의 경우 Wget 등을 사용하여 간단한 접근 방식을 사용할 수 있습니다. 이러한 사이트는 드물다고 생각합니다.

동적으로 생성된 페이지에는 항상 문제가 있습니다. 확인해야 할 URL을 결정하려면 사이트에서 HTML을 다운로드하고 구문 분석해야 합니다. Javascript를 실행해야 할 수도 있습니다.

소스 파일이 아닌 생성된 콘텐츠의 변경 사항만 확인할 수 있습니다. 다른 사람들이 언급했듯이 생성된 콘텐츠에는 타임스탬프, 처리 시간 등 관심 없는 변경 사항이 포함되는 경우가 많습니다.

Answer 1