Crear un archivo WARC usando un archivo de Twitter

Crear un archivo WARC usando un archivo de Twitter

Descargué un archivo de Twitter que tiene la siguiente estructura:

twitter_archive
| assets
+-- fonts (.eot files)
+-- images (icons)
+-- js
| data
+-- various tweet folders containing images
+-- more javascript files
| index.html (launching this brings you to a local webpage in which you 
              can navigate the archive with a Twitter style GUI)

Intenté usar elguerraPaquete Python para usar el archivo y crear un archivo WARC que se puede representar enhttps://replayweb.page/.

Logré crear el archivo WARC, pero cuando lo cargué en replayweb.page indica que "No hay páginas definidas en este archivo. Sin embargo, al navegar manualmente a index.html, carga la GUI del archivo de Twitter normalmente.

Mi pregunta es, ¿qué argumentos puedo usar con warcit para definir index.html como una página?

El comando que he usado es:

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --index-files=index.html http://website.com/ "E:/twitter_archive/"

Respuesta1

Parece que estás utilizando la herramienta warcit para crear un archivo WARC a partir de un archivo local de Twitter. La herramienta warcit le permite crear un archivo WARC desde un sitio web rastreándolo y guardando las páginas y los recursos asociados (como imágenes y hojas de estilo) en el archivo WARC.

Para crear un archivo WARC que incluya el archivo index.html en su archivo de Twitter como una página, puede usar la opción --index-files con la ruta al archivo index.html. Por ejemplo:

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --index-files=E:/twitter_archive/index.html http://website.com/ "E:/twitter_archive/"

Esto creará un archivo WARC que incluye el archivo index.html como una página, junto con otras páginas y recursos vinculados desde él.

Si desea incluir todos los archivos de su archivo de Twitter en el archivo WARC, puede usar la opción --mirror en lugar de la opción --index-files. Esto creará un archivo WARC que incluye todos los archivos de su archivo de Twitter, en lugar de solo los vinculados desde un archivo de índice específico.

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --mirror http://website.com/ "E:/twitter_archive/"

información relacionada