Erstellen einer WARC-Datei mithilfe eines Twitter-Archivs

Erstellen einer WARC-Datei mithilfe eines Twitter-Archivs

Ich habe ein Twitter-Archiv heruntergeladen, das folgende Struktur hat:

twitter_archive
| assets
+-- fonts (.eot files)
+-- images (icons)
+-- js
| data
+-- various tweet folders containing images
+-- more javascript files
| index.html (launching this brings you to a local webpage in which you 
              can navigate the archive with a Twitter style GUI)

Ich habe versucht, diewarcitPython-Paket, um das Archiv zu verwenden und eine WARC-Datei zu erstellen, die gerendert werden kann inhttps://replayweb.page/.

Ich konnte die WARC-Datei erfolgreich erstellen, aber beim Laden in replayweb.page wird angezeigt, dass „In diesem Archiv keine Seiten definiert sind“. Beim manuellen Navigieren zu index.html wird die Twitter-Archiv-GUI jedoch wie gewohnt geladen.

Meine Frage ist, welche Argumente kann ich mit warcit verwenden, um index.html als Seite zu definieren?

Der Befehl, den ich verwendet habe, ist:

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --index-files=index.html http://website.com/ "E:/twitter_archive/"

Antwort1

Es sieht so aus, als würden Sie das Tool „warcit“ verwenden, um eine WARC-Datei aus einem lokalen Twitter-Archiv zu erstellen. Mit dem Tool „warcit“ können Sie eine WARC-Datei aus einer Website erstellen, indem Sie diese crawlen und die Seiten und zugehörigen Ressourcen (wie Bilder und Stylesheets) in der WARC-Datei speichern.

Um eine WARC-Datei zu erstellen, die die Datei index.html in Ihrem Twitter-Archiv als Seite einbindet, können Sie die Option --index-files mit dem Pfad zur Datei index.html verwenden. Beispiel:

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --index-files=E:/twitter_archive/index.html http://website.com/ "E:/twitter_archive/"

Dadurch wird eine WARC-Datei erstellt, die die Datei „index.html“ als Seite enthält, zusammen mit allen anderen Seiten und Ressourcen, auf die von dort aus verwiesen wird.

Wenn Sie alle Dateien Ihres Twitter-Archivs in die WARC-Datei aufnehmen möchten, können Sie die Option --mirror anstelle der Option --index-files verwenden. Dadurch wird eine WARC-Datei erstellt, die alle Dateien Ihres Twitter-Archivs enthält und nicht nur die, die von einer bestimmten Indexdatei aus verlinkt sind.

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --mirror http://website.com/ "E:/twitter_archive/"

verwandte Informationen