
次のような構造の Twitter アーカイブをダウンロードしました。
twitter_archive
| assets
+-- fonts (.eot files)
+-- images (icons)
+-- js
| data
+-- various tweet folders containing images
+-- more javascript files
| index.html (launching this brings you to a local webpage in which you
can navigate the archive with a Twitter style GUI)
私はワルシットアーカイブを使用してレンダリング可能なWARCファイルを作成するPythonパッケージhttps://replayweb.page/。
WARC ファイルの作成には成功しましたが、replayweb.page にロードすると、「このアーカイブにはページが定義されていません。」と表示されます。ただし、手動で index.html に移動すると、Twitter アーカイブ GUI が通常どおりロードされます。
私の質問は、index.html をページとして定義するために warcit でどのような引数を使用できるかということです。
私が使用したコマンドは次のとおりです。
warcit --name twitter_archive -o --no-gzip -d 20221122010159 --index-files=index.html http://website.com/ "E:/twitter_archive/"
答え1
warcit ツールを使用して、ローカルの Twitter アーカイブから WARC ファイルを作成しているようです。warcit ツールを使用すると、Web サイトをクロールし、ページと関連リソース (画像やスタイルシートなど) を WARC ファイルに保存することで、Web サイトから WARC ファイルを作成できます。
Twitter アーカイブ内の index.html ファイルをページとして含む WARC ファイルを作成するには、index.html ファイルへのパスを指定した --index-files オプションを使用します。例:
warcit --name twitter_archive -o --no-gzip -d 20221122010159 --index-files=E:/twitter_archive/index.html http://website.com/ "E:/twitter_archive/"
これにより、index.html ファイルをページとして含む WARC ファイルと、そこからリンクされているその他のページおよびリソースが作成されます。
Twitter アーカイブ内のすべてのファイルを WARC ファイルに含める場合は、--index-files オプションの代わりに --mirror オプションを使用できます。これにより、特定のインデックス ファイルからリンクされたファイルだけでなく、Twitter アーカイブ内のすべてのファイルを含む WARC ファイルが作成されます。
warcit --name twitter_archive -o --no-gzip -d 20221122010159 --mirror http://website.com/ "E:/twitter_archive/"