スペース効率の良いウェブアーカイブを作成するツールを探す

スペース効率の良いウェブアーカイブを作成するツールを探す

私は、毎日、あるいは 1 日に 2 回か 3 回変更されるブログを、スペース効率よくアーカイブするツールを探しています。個々のブログ投稿が変更されるという意味ではありません (少なくとも定期的に変更されるわけではありません)。新しいブログ エントリが追加され、古いエントリがフロント ページの下部に移動されるという意味です。私が見つけた 1 つの問題は、同じブログ エントリを複数回アーカイブするのは非効率的であるということです。理想的には、同じエントリの改訂はアーカイブする必要がありますが、改訂は改善または修正によるものである可能性が高いため、元のエントリはアーカイブする必要はありません。

これは、テキストと静止画像を含む blogspot.com ブログです。Linux ソリューションが推奨されます。

答え1

1 つの解決策は、Git リポジトリに保存することです。

Git はコンテンツ ベースのアドレス指定を使用するため、変更されていないファイルはリポジトリ内でわずかな追加スペースしか占有しません。リビジョンも差分を保存するため、スペースをほとんど占有しません。最初は BLOB が個別に圧縮されて保存されますが、Git は定期的にファイルをパックにまとめ、より効率的に圧縮します。 を使用して、この機能を手動で呼び出すこともできますgit gc

ウェブサイトのデータを取得する簡単な方法は、 を使用することですwget --mirror。または、ブログ サイトが XML API を提供しているかどうかを確認します (定型的な HTML をアーカイブするのを避けることで、よりスペース効率が高くなります)。ページを現在の作業ツリーにダウンロードします。

次に、ダウンロードが完了したら、すべてを git リポジトリに追加してコミットします。したがって、各コミットは、ある時点のスナップショットを表します。

関連情報