類似ファイルの最適な圧縮方法は?

類似ファイルの最適な圧縮方法は?

バイナリ データベース ダンプなどの古い完全バックアップをいくつか持っています。明らかに、それらはあまり違いがないので、ここで完全バックアップを実行するのは賢明な考えではありません。今のところ、ほとんどのファイルの内容が似ているという事実を利用できる圧縮プログラムを探しています。

答え1

最初にファイルを tar 圧縮すると ( を使用tar cvf my_backup.tar <file list...>)、データが 1 つの大きなファイルとして認識されるため、どの圧縮ツールでも適切に機能します。

したがって、ファイルを tar し、それを zip、7-zip、bzip2 などに格納します。tar ファイルから、さまざまな圧縮アルゴリズムを試して、どれが最もパフォーマンスが良いかを確認できます。

答え2

7-Zip は、とてもうまく機能しています。十分な処理能力があれば、非常に大きなウィンドウで操作できます。類似点を見つけられるように、元のファイルはできるだけ圧縮されていない状態にしてください。(たとえば、異機種環境の Excel ファイルの場合、xlsx ファイルは保存時に軽く圧縮されるため、最初に内容を解凍する必要があります。私はかつて、ほぼ冗長な 600 MiB 以上の Excel バージョン ファイルを数百 KiB に圧縮することができました。)

関連情報