Twitter アーカイブを使用して WARC ファイルを作成する

Question

warcit ツールを使用して、ローカルの Twitter アーカイブから WARC ファイルを作成しているようです。warcit ツールを使用すると、Web サイトをクロールし、ページと関連リソース (画像やスタイルシートなど) を WARC ファイルに保存することで、Web サイトから WARC ファイルを作成できます。

Twitter アーカイブ内の index.html ファイルをページとして含む WARC ファイルを作成するには、index.html ファイルへのパスを指定した --index-files オプションを使用します。例:

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --index-files=E:/twitter_archive/index.html http://website.com/ "E:/twitter_archive/"

これにより、index.html ファイルをページとして含む WARC ファイルと、そこからリンクされているその他のページおよびリソースが作成されます。

Twitter アーカイブ内のすべてのファイルを WARC ファイルに含める場合は、--index-files オプションの代わりに --mirror オプションを使用できます。これにより、特定のインデックスファイルからリンクされたファイルだけでなく、Twitter アーカイブ内のすべてのファイルを含む WARC ファイルが作成されます。

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --mirror http://website.com/ "E:/twitter_archive/"

Answer 1

warcit ツールを使用して、ローカルの Twitter アーカイブから WARC ファイルを作成しているようです。warcit ツールを使用すると、Web サイトをクロールし、ページと関連リソース (画像やスタイルシートなど) を WARC ファイルに保存することで、Web サイトから WARC ファイルを作成できます。

Twitter アーカイブ内の index.html ファイルをページとして含む WARC ファイルを作成するには、index.html ファイルへのパスを指定した --index-files オプションを使用します。例:

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --index-files=E:/twitter_archive/index.html http://website.com/ "E:/twitter_archive/"

これにより、index.html ファイルをページとして含む WARC ファイルと、そこからリンクされているその他のページおよびリソースが作成されます。

Twitter アーカイブ内のすべてのファイルを WARC ファイルに含める場合は、--index-files オプションの代わりに --mirror オプションを使用できます。これにより、特定のインデックスファイルからリンクされたファイルだけでなく、Twitter アーカイブ内のすべてのファイルを含む WARC ファイルが作成されます。

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --mirror http://website.com/ "E:/twitter_archive/"

Twitter アーカイブを使用して WARC ファイルを作成する

答え1

関連情報