
Descargué un archivo de Twitter que tiene la siguiente estructura:
twitter_archive
| assets
+-- fonts (.eot files)
+-- images (icons)
+-- js
| data
+-- various tweet folders containing images
+-- more javascript files
| index.html (launching this brings you to a local webpage in which you
can navigate the archive with a Twitter style GUI)
Intenté usar elguerraPaquete Python para usar el archivo y crear un archivo WARC que se puede representar enhttps://replayweb.page/.
Logré crear el archivo WARC, pero cuando lo cargué en replayweb.page indica que "No hay páginas definidas en este archivo. Sin embargo, al navegar manualmente a index.html, carga la GUI del archivo de Twitter normalmente.
Mi pregunta es, ¿qué argumentos puedo usar con warcit para definir index.html como una página?
El comando que he usado es:
warcit --name twitter_archive -o --no-gzip -d 20221122010159 --index-files=index.html http://website.com/ "E:/twitter_archive/"
Respuesta1
Parece que estás utilizando la herramienta warcit para crear un archivo WARC a partir de un archivo local de Twitter. La herramienta warcit le permite crear un archivo WARC desde un sitio web rastreándolo y guardando las páginas y los recursos asociados (como imágenes y hojas de estilo) en el archivo WARC.
Para crear un archivo WARC que incluya el archivo index.html en su archivo de Twitter como una página, puede usar la opción --index-files con la ruta al archivo index.html. Por ejemplo:
warcit --name twitter_archive -o --no-gzip -d 20221122010159 --index-files=E:/twitter_archive/index.html http://website.com/ "E:/twitter_archive/"
Esto creará un archivo WARC que incluye el archivo index.html como una página, junto con otras páginas y recursos vinculados desde él.
Si desea incluir todos los archivos de su archivo de Twitter en el archivo WARC, puede usar la opción --mirror en lugar de la opción --index-files. Esto creará un archivo WARC que incluye todos los archivos de su archivo de Twitter, en lugar de solo los vinculados desde un archivo de índice específico.
warcit --name twitter_archive -o --no-gzip -d 20221122010159 --mirror http://website.com/ "E:/twitter_archive/"