왜 wget을 사용하여 동일한 웹페이지를 두 번 다운로드하면 서로 다른 두 파일이 생성되나요?

왜 wget을 사용하여 동일한 웹페이지를 두 번 다운로드하면 서로 다른 두 파일이 생성되나요?

정적 웹 페이지가 변경되면 이를 알려주는 스크립트를 작성하려고 합니다. 그러기 위해서 wget웹페이지를 다운받아서 diff변경되었는지 확인하는 용도로 사용하고 있습니다. 저는 Ubuntu 20.04 LTS 가상 머신을 실행하고 있습니다. 예는 다음과 같습니다.

$ wget --quiet https://twiki.di.uniroma1.it/twiki/view/Reti_Avanzate/InternetOfThings2021 -O file1
$ wget --quiet https://twiki.di.uniroma1.it/twiki/view/Reti_Avanzate/InternetOfThings2021 -O file2
$ diff -q file1 file2
Files file1 and file2 differ

보시다시피 diff두 파일 간의 차이점을 보고합니다. 왜? 비교하려고 해도 diff -y나에게는 똑같아 보인다.

업데이트

차이점을 찾으면 다음과 git diff --color-words -- file1 file2같은 결과가 나타납니다.

차이점

분명히 타임스탬프가 추가되는 필드가 있고 두 파일 중 하나에는 <!--GENERATED_HEADERS-->다른 파일에는 없는 필드가 있습니다.

해결 방법에 대한 아이디어가 있습니까?

답변1

-dump페이지를 렌더링하는 동안 태그를 무시하는 옵션 과 함께 w3m을 사용하면 이 문제를 해결할 수 있습니다 .

$ w3m -dump  https://twiki.di.uniroma1.it/twiki/view/Reti_Avanzate/InternetOfThings2021 > file1
$ w3m -dump  https://twiki.di.uniroma1.it/twiki/view/Reti_Avanzate/InternetOfThings2021 > file2
$ if cmp -s file1 file2; then echo "Files are not different"; fi
  Files are not different                                                              
$

답변2

이 문제를 해결하는 방법이 아니라 원인이 무엇인지에 대한 또 하나의 "답변": (분명히) TiddlyWiki의 사용된 버전이 출력을 생성하는 것 같습니다.무작위 태그 순서로HTML 요소에서. 예:

--- file1
+++ file2
@@ -703,881 +703,881 @@
[...]
-<td valign="top" bgcolor="#ffffff" class="twikiTableCol2" align="left"> r1 </td>
[...]
+<td bgcolor="#ffffff" class="twikiTableCol2" align="left" valign="top"> r1 </td>
[...]

이는 테이블, 이미지, 링크의 속성에 대해 반복됩니다.

관련 정보