Twitter アーカイブを使用して WARC ファイルを作成する

Twitter アーカイブを使用して WARC ファイルを作成する

次のような構造の Twitter アーカイブをダウンロードしました。

twitter_archive
| assets
+-- fonts (.eot files)
+-- images (icons)
+-- js
| data
+-- various tweet folders containing images
+-- more javascript files
| index.html (launching this brings you to a local webpage in which you 
              can navigate the archive with a Twitter style GUI)

私はワルシットアーカイブを使用してレンダリング可能なWARCファイルを作成するPythonパッケージhttps://replayweb.page/

WARC ファイルの作成には成功しましたが、replayweb.page にロードすると、「このアーカイブにはページが定義されていません。」と表示されます。ただし、手動で index.html に移動すると、Twitter アーカイブ GUI が通常どおりロードされます。

私の質問は、index.html をページとして定義するために warcit でどのような引数を使用できるかということです。

私が使用したコマンドは次のとおりです。

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --index-files=index.html http://website.com/ "E:/twitter_archive/"

答え1

warcit ツールを使用して、ローカルの Twitter アーカイブから WARC ファイルを作成しているようです。warcit ツールを使用すると、Web サイトをクロールし、ページと関連リソース (画像やスタイルシートなど) を WARC ファイルに保存することで、Web サイトから WARC ファイルを作成できます。

Twitter アーカイブ内の index.html ファイルをページとして含む WARC ファイルを作成するには、index.html ファイルへのパスを指定した --index-files オプションを使用します。例:

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --index-files=E:/twitter_archive/index.html http://website.com/ "E:/twitter_archive/"

これにより、index.html ファイルをページとして含む WARC ファイルと、そこからリンクされているその他のページおよびリソースが作成されます。

Twitter アーカイブ内のすべてのファイルを WARC ファイルに含める場合は、--index-files オプションの代わりに --mirror オプションを使用できます。これにより、特定のインデックス ファイルからリンクされたファイルだけでなく、Twitter アーカイブ内のすべてのファイルを含む WARC ファイルが作成されます。

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --mirror http://website.com/ "E:/twitter_archive/"

関連情報