
Ich habe ein Twitter-Archiv heruntergeladen, das folgende Struktur hat:
twitter_archive
| assets
+-- fonts (.eot files)
+-- images (icons)
+-- js
| data
+-- various tweet folders containing images
+-- more javascript files
| index.html (launching this brings you to a local webpage in which you
can navigate the archive with a Twitter style GUI)
Ich habe versucht, diewarcitPython-Paket, um das Archiv zu verwenden und eine WARC-Datei zu erstellen, die gerendert werden kann inhttps://replayweb.page/.
Ich konnte die WARC-Datei erfolgreich erstellen, aber beim Laden in replayweb.page wird angezeigt, dass „In diesem Archiv keine Seiten definiert sind“. Beim manuellen Navigieren zu index.html wird die Twitter-Archiv-GUI jedoch wie gewohnt geladen.
Meine Frage ist, welche Argumente kann ich mit warcit verwenden, um index.html als Seite zu definieren?
Der Befehl, den ich verwendet habe, ist:
warcit --name twitter_archive -o --no-gzip -d 20221122010159 --index-files=index.html http://website.com/ "E:/twitter_archive/"
Antwort1
Es sieht so aus, als würden Sie das Tool „warcit“ verwenden, um eine WARC-Datei aus einem lokalen Twitter-Archiv zu erstellen. Mit dem Tool „warcit“ können Sie eine WARC-Datei aus einer Website erstellen, indem Sie diese crawlen und die Seiten und zugehörigen Ressourcen (wie Bilder und Stylesheets) in der WARC-Datei speichern.
Um eine WARC-Datei zu erstellen, die die Datei index.html in Ihrem Twitter-Archiv als Seite einbindet, können Sie die Option --index-files mit dem Pfad zur Datei index.html verwenden. Beispiel:
warcit --name twitter_archive -o --no-gzip -d 20221122010159 --index-files=E:/twitter_archive/index.html http://website.com/ "E:/twitter_archive/"
Dadurch wird eine WARC-Datei erstellt, die die Datei „index.html“ als Seite enthält, zusammen mit allen anderen Seiten und Ressourcen, auf die von dort aus verwiesen wird.
Wenn Sie alle Dateien Ihres Twitter-Archivs in die WARC-Datei aufnehmen möchten, können Sie die Option --mirror anstelle der Option --index-files verwenden. Dadurch wird eine WARC-Datei erstellt, die alle Dateien Ihres Twitter-Archivs enthält und nicht nur die, die von einer bestimmten Indexdatei aus verlinkt sind.
warcit --name twitter_archive -o --no-gzip -d 20221122010159 --mirror http://website.com/ "E:/twitter_archive/"