Crear un archivo WARC usando un archivo de Twitter

Question

Parece que estás utilizando la herramienta warcit para crear un archivo WARC a partir de un archivo local de Twitter. La herramienta warcit le permite crear un archivo WARC desde un sitio web rastreándolo y guardando las páginas y los recursos asociados (como imágenes y hojas de estilo) en el archivo WARC.

Para crear un archivo WARC que incluya el archivo index.html en su archivo de Twitter como una página, puede usar la opción --index-files con la ruta al archivo index.html. Por ejemplo:

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --index-files=E:/twitter_archive/index.html http://website.com/ "E:/twitter_archive/"

Esto creará un archivo WARC que incluye el archivo index.html como una página, junto con otras páginas y recursos vinculados desde él.

Si desea incluir todos los archivos de su archivo de Twitter en el archivo WARC, puede usar la opción --mirror en lugar de la opción --index-files. Esto creará un archivo WARC que incluye todos los archivos de su archivo de Twitter, en lugar de solo los vinculados desde un archivo de índice específico.

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --mirror http://website.com/ "E:/twitter_archive/"

Answer 1

Parece que estás utilizando la herramienta warcit para crear un archivo WARC a partir de un archivo local de Twitter. La herramienta warcit le permite crear un archivo WARC desde un sitio web rastreándolo y guardando las páginas y los recursos asociados (como imágenes y hojas de estilo) en el archivo WARC.

Para crear un archivo WARC que incluya el archivo index.html en su archivo de Twitter como una página, puede usar la opción --index-files con la ruta al archivo index.html. Por ejemplo:

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --index-files=E:/twitter_archive/index.html http://website.com/ "E:/twitter_archive/"

Esto creará un archivo WARC que incluye el archivo index.html como una página, junto con otras páginas y recursos vinculados desde él.

Si desea incluir todos los archivos de su archivo de Twitter en el archivo WARC, puede usar la opción --mirror en lugar de la opción --index-files. Esto creará un archivo WARC que incluye todos los archivos de su archivo de Twitter, en lugar de solo los vinculados desde un archivo de índice específico.

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --mirror http://website.com/ "E:/twitter_archive/"

Crear un archivo WARC usando un archivo de Twitter

Respuesta1

información relacionada