다양한 시점의 단일 웹사이트/탐색 세션 비교

다양한 시점의 단일 웹사이트/탐색 세션 비교

서로 다른 시점의 단일 웹사이트를 비교해야 합니다. 즉, 며칠 후 또는 로그인한 후입니다. 저는 응답 시간보다는 js, 이미지와 같은 실제 콘텐츠에 더 관심이 있습니다. 오늘 내가 전달받은 js는 어제와 동일합니다. 그것들을 자동으로 덤프하고 비교하는 깔끔한 방법이 있습니까(파일 해시 기반)?

내가 생각해 낼 수 있는 최선의 방법은 다운로드한 모든 파일을 일반 텍스트로 전달해야 하는 TLS 검사와 함께 프록시를 사용하는 것입니다. 또는 웹사이트를 구성하는 모든 파일을 포함하는 har 파일을 사용하세요. 그러한 접근 방식이 놓칠 수 있는 것이 있습니까? 아니면 다른 방법이 있을까요?

편집하다:

로그인한 후 다운로드해야 하며 특히 일부 스크립트가 백그라운드에서 무엇을 보내고 받는지 알아야 합니다. 따라서 활성 세션을 기록하고 일반 텍스트로 전송되는 모든 데이터를 캡처해야 합니다.

답변1

로그인하고 일부 작업을 수행해야 하는 경우에는 wget유사한 도구를 사용한 정적 다운로드로는 충분하지 않습니다. 이 경우 다음을 사용하는 것이 좋습니다.셀렌필요한 작업을 스크립트로 작성하고 응답과 함께 모든 웹사이트 콘텐츠를 덤프합니다.

기본 아이디어는 브라우저를 조종하기 위해 Selenium 웹 드라이버를 사용하는 선호하는 언어(예: Python, Javascript, Ruby 등)로 스크립트를 작성하는 것입니다. 스크립트는 로그인 작업, 요소 클릭 등을 수행하며 응답을 받으면 전송된 페이지의 본문을 저장할 수 있습니다. Python의 간단한 예는 다음과 같습니다.여기에 주어진및 로그인을 보여주는 일부 코드여기.

모든 외부 태그를 반복하고 해당 소스를 다운로드하여 코드를 확장해야 합니다. <script>또는 모든 태그를 거쳐 <img>이미지를 다운로드할 수 있습니다. 이렇게 하면 기본 HTML 코드를 쉽게 비교하고 호출된 스크립트/이미지의 개별 파일 이름을 볼 수 있습니다.

또 다른 가능성은 다음과 같이 Selenium 스크립트를 실행하는 것입니다.브라우저몹, HAR 파일을 내보낼 수 있습니다. 이렇게 하면 자동화와 모든 것을 자동으로 덤프하는 기능을 결합할 수 있습니다. 물론, 다양한 뷰어가 존재하는 HAR 파일을 비교해야 합니다. HTTPS 사이트에서 작동하려면 BrowserMob에서 Man-in-the-Middle 인증서를 사용해야 합니다.

답변2

전체 웹사이트를 다운로드하려면 해당 기사를 참조하세요. 최고의 무료 웹사이트 리퍼.

이 기사에는 HTTrack, PageNest, wget 등 여러 가지 좋은 리퍼에 대한 리뷰가 포함되어 있습니다. 나는 과거에 HTTrack을 사용해 본 적이 있으며 그것은 나에게 효과적이었습니다.

시간을 더 거슬러 올라가려면 다음을 시도해 볼 수 있습니다. 인터넷 아카이브 웨이백 머신 웹 전체를 보관하려고 하는 것입니다. 정기적으로 웹사이트의 스냅샷을 찍으므로 비교할 수 있는 여러 버전을 찾을 수 있습니다.

트래픽을 캡처하려면 웹 트래픽 모니터가 필요합니다. 나는 두 가지 우수한 제품을 추천할 수 있습니다: 와이어샤크 그리고 마이크로소프트의 텔레릭 피들러.

관련 정보