Twitter 아카이브를 사용하여 WARC 파일 만들기

Twitter 아카이브를 사용하여 WARC 파일 만들기

다음과 같은 구조를 가진 Twitter 아카이브를 다운로드했습니다.

twitter_archive
| assets
+-- fonts (.eot files)
+-- images (icons)
+-- js
| data
+-- various tweet folders containing images
+-- more javascript files
| index.html (launching this brings you to a local webpage in which you 
              can navigate the archive with a Twitter style GUI)

나는무자비한아카이브를 사용하고 렌더링할 수 있는 WARC 파일을 생성하는 Python 패키지https://replayweb.page/.

WARC 파일 생성에 성공했지만 replayweb.page에 로드하면 "이 아카이브에 정의된 페이지가 없습니다. 그러나 수동으로 index.html로 이동하면 Twitter 아카이브 GUI가 정상적으로 로드됩니다.

내 질문은 index.html을 페이지로 정의하기 위해 warcit와 함께 어떤 인수를 사용할 수 있습니까?

내가 사용한 명령은 다음과 같습니다.

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --index-files=index.html http://website.com/ "E:/twitter_archive/"

답변1

warcit 도구를 사용하여 로컬 Twitter 아카이브에서 WARC 파일을 생성하고 있는 것 같습니다. warcit 도구를 사용하면 웹 사이트를 크롤링하고 페이지 및 관련 리소스(예: 이미지 및 스타일시트)를 WARC 파일에 저장하여 웹 사이트에서 WARC 파일을 생성할 수 있습니다.

Twitter 아카이브에 index.html 파일을 페이지로 포함하는 WARC 파일을 생성하려면 index.html 파일 경로와 함께 --index-files 옵션을 사용할 수 있습니다. 예를 들어:

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --index-files=E:/twitter_archive/index.html http://website.com/ "E:/twitter_archive/"

이렇게 하면 index.html 파일을 페이지로 포함하고 다른 페이지와 링크된 리소스를 포함하는 WARC 파일이 생성됩니다.

Twitter 아카이브의 모든 파일을 WARC 파일에 포함하려면 --index-files 옵션 대신 --mirror 옵션을 사용할 수 있습니다. 이렇게 하면 특정 인덱스 파일에서 링크된 파일만이 아닌 Twitter 아카이브의 모든 파일을 포함하는 WARC 파일이 생성됩니다.

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --mirror http://website.com/ "E:/twitter_archive/"

관련 정보