![スペース効率の良いウェブアーカイブを作成するツールを探す](https://rvso.com/image/1325979/%E3%82%B9%E3%83%9A%E3%83%BC%E3%82%B9%E5%8A%B9%E7%8E%87%E3%81%AE%E8%89%AF%E3%81%84%E3%82%A6%E3%82%A7%E3%83%96%E3%82%A2%E3%83%BC%E3%82%AB%E3%82%A4%E3%83%96%E3%82%92%E4%BD%9C%E6%88%90%E3%81%99%E3%82%8B%E3%83%84%E3%83%BC%E3%83%AB%E3%82%92%E6%8E%A2%E3%81%99.png)
私は、毎日、あるいは 1 日に 2 回か 3 回変更されるブログを、スペース効率よくアーカイブするツールを探しています。個々のブログ投稿が変更されるという意味ではありません (少なくとも定期的に変更されるわけではありません)。新しいブログ エントリが追加され、古いエントリがフロント ページの下部に移動されるという意味です。私が見つけた 1 つの問題は、同じブログ エントリを複数回アーカイブするのは非効率的であるということです。理想的には、同じエントリの改訂はアーカイブする必要がありますが、改訂は改善または修正によるものである可能性が高いため、元のエントリはアーカイブする必要はありません。
これは、テキストと静止画像を含む blogspot.com ブログです。Linux ソリューションが推奨されます。
答え1
1 つの解決策は、Git リポジトリに保存することです。
Git はコンテンツ ベースのアドレス指定を使用するため、変更されていないファイルはリポジトリ内でわずかな追加スペースしか占有しません。リビジョンも差分を保存するため、スペースをほとんど占有しません。最初は BLOB が個別に圧縮されて保存されますが、Git は定期的にファイルをパックにまとめ、より効率的に圧縮します。 を使用して、この機能を手動で呼び出すこともできますgit gc
。
ウェブサイトのデータを取得する簡単な方法は、 を使用することですwget --mirror
。または、ブログ サイトが XML API を提供しているかどうかを確認します (定型的な HTML をアーカイブするのを避けることで、よりスペース効率が高くなります)。ページを現在の作業ツリーにダウンロードします。
次に、ダウンロードが完了したら、すべてを git リポジトリに追加してコミットします。したがって、各コミットは、ある時点のスナップショットを表します。