
Я скачал архив Twitter, имеющий следующую структуру:
twitter_archive
| assets
+-- fonts (.eot files)
+-- images (icons)
+-- js
| data
+-- various tweet folders containing images
+-- more javascript files
| index.html (launching this brings you to a local webpage in which you
can navigate the archive with a Twitter style GUI)
Я пытался использоватьварцитПакет Python для использования архива и создания файла WARC, который может быть отрендерен вhttps://replayweb.page/.
Мне удалось создать файл WARC, но при загрузке в replayweb.page он сообщает, что «В этом архиве не определены страницы». Однако при ручном переходе к index.html графический интерфейс архива Twitter загружается как обычно.
Мой вопрос: какие аргументы я могу использовать с warcit, чтобы определить index.html как страницу?
Я использовал следующую команду:
warcit --name twitter_archive -o --no-gzip -d 20221122010159 --index-files=index.html http://website.com/ "E:/twitter_archive/"
решение1
Похоже, вы используете инструмент warcit для создания файла WARC из локального архива Twitter. Инструмент warcit позволяет вам создать файл WARC из веб-сайта, просканировав его и сохранив страницы и связанные с ними ресурсы (например, изображения и таблицы стилей) в файле WARC.
Чтобы создать файл WARC, который включает файл index.html в вашем архиве Twitter в качестве страницы, вы можете использовать опцию --index-files с путем к файлу index.html. Например:
warcit --name twitter_archive -o --no-gzip -d 20221122010159 --index-files=E:/twitter_archive/index.html http://website.com/ "E:/twitter_archive/"
Это создаст файл WARC, который будет включать файл index.html в качестве страницы, а также любые другие страницы и ресурсы, на которые он ссылается.
Если вы хотите включить все файлы в вашем архиве Twitter в файл WARC, вы можете использовать опцию --mirror вместо опции --index-files. Это создаст файл WARC, который включает все файлы в вашем архиве Twitter, а не только те, на которые есть ссылки из определенного файла индекса.
warcit --name twitter_archive -o --no-gzip -d 20221122010159 --mirror http://website.com/ "E:/twitter_archive/"