Twitter 아카이브를 사용하여 WARC 파일 만들기

Question

warcit 도구를 사용하여 로컬 Twitter 아카이브에서 WARC 파일을 생성하고 있는 것 같습니다. warcit 도구를 사용하면 웹 사이트를 크롤링하고 페이지 및 관련 리소스(예: 이미지 및 스타일시트)를 WARC 파일에 저장하여 웹 사이트에서 WARC 파일을 생성할 수 있습니다.

Twitter 아카이브에 index.html 파일을 페이지로 포함하는 WARC 파일을 생성하려면 index.html 파일 경로와 함께 --index-files 옵션을 사용할 수 있습니다. 예를 들어:

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --index-files=E:/twitter_archive/index.html http://website.com/ "E:/twitter_archive/"

이렇게 하면 index.html 파일을 페이지로 포함하고 다른 페이지와 링크된 리소스를 포함하는 WARC 파일이 생성됩니다.

Twitter 아카이브의 모든 파일을 WARC 파일에 포함하려면 --index-files 옵션 대신 --mirror 옵션을 사용할 수 있습니다. 이렇게 하면 특정 인덱스 파일에서 링크된 파일만이 아닌 Twitter 아카이브의 모든 파일을 포함하는 WARC 파일이 생성됩니다.

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --mirror http://website.com/ "E:/twitter_archive/"

Answer 1

warcit 도구를 사용하여 로컬 Twitter 아카이브에서 WARC 파일을 생성하고 있는 것 같습니다. warcit 도구를 사용하면 웹 사이트를 크롤링하고 페이지 및 관련 리소스(예: 이미지 및 스타일시트)를 WARC 파일에 저장하여 웹 사이트에서 WARC 파일을 생성할 수 있습니다.

Twitter 아카이브에 index.html 파일을 페이지로 포함하는 WARC 파일을 생성하려면 index.html 파일 경로와 함께 --index-files 옵션을 사용할 수 있습니다. 예를 들어:

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --index-files=E:/twitter_archive/index.html http://website.com/ "E:/twitter_archive/"

이렇게 하면 index.html 파일을 페이지로 포함하고 다른 페이지와 링크된 리소스를 포함하는 WARC 파일이 생성됩니다.

Twitter 아카이브의 모든 파일을 WARC 파일에 포함하려면 --index-files 옵션 대신 --mirror 옵션을 사용할 수 있습니다. 이렇게 하면 특정 인덱스 파일에서 링크된 파일만이 아닌 Twitter 아카이브의 모든 파일을 포함하는 WARC 파일이 생성됩니다.

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --mirror http://website.com/ "E:/twitter_archive/"

Twitter 아카이브를 사용하여 WARC 파일 만들기

답변1

관련 정보