Создание файла WARC с использованием архива Twitter

Question

Похоже, вы используете инструмент warcit для создания файла WARC из локального архива Twitter. Инструмент warcit позволяет вам создать файл WARC из веб-сайта, просканировав его и сохранив страницы и связанные с ними ресурсы (например, изображения и таблицы стилей) в файле WARC.

Чтобы создать файл WARC, который включает файл index.html в вашем архиве Twitter в качестве страницы, вы можете использовать опцию --index-files с путем к файлу index.html. Например:

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --index-files=E:/twitter_archive/index.html http://website.com/ "E:/twitter_archive/"

Это создаст файл WARC, который будет включать файл index.html в качестве страницы, а также любые другие страницы и ресурсы, на которые он ссылается.

Если вы хотите включить все файлы в вашем архиве Twitter в файл WARC, вы можете использовать опцию --mirror вместо опции --index-files. Это создаст файл WARC, который включает все файлы в вашем архиве Twitter, а не только те, на которые есть ссылки из определенного файла индекса.

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --mirror http://website.com/ "E:/twitter_archive/"

Answer 1

Похоже, вы используете инструмент warcit для создания файла WARC из локального архива Twitter. Инструмент warcit позволяет вам создать файл WARC из веб-сайта, просканировав его и сохранив страницы и связанные с ними ресурсы (например, изображения и таблицы стилей) в файле WARC.

Чтобы создать файл WARC, который включает файл index.html в вашем архиве Twitter в качестве страницы, вы можете использовать опцию --index-files с путем к файлу index.html. Например:

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --index-files=E:/twitter_archive/index.html http://website.com/ "E:/twitter_archive/"

Это создаст файл WARC, который будет включать файл index.html в качестве страницы, а также любые другие страницы и ресурсы, на которые он ссылается.

Если вы хотите включить все файлы в вашем архиве Twitter в файл WARC, вы можете использовать опцию --mirror вместо опции --index-files. Это создаст файл WARC, который включает все файлы в вашем архиве Twitter, а не только те, на которые есть ссылки из определенного файла индекса.

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --mirror http://website.com/ "E:/twitter_archive/"

Создание файла WARC с использованием архива Twitter

решение1

Связанный контент