7-Zip Ultra - 他の複数の 7-zip ultra 圧縮ファイルを zip 圧縮すると、サイズに大きな違いが生じますか?

7-Zip Ultra - 他の複数の 7-zip ultra 圧縮ファイルを zip 圧縮すると、サイズに大きな違いが生じますか?

転送する必要があるファイルがたくさんあります。ほとんどが png と pdf ですが、一部は svg、その他さまざまなものがあります。数 TB 相当のファイルで、個々にサイズが数 KB から数 MB です。問題は、アップロード速度が遅い (200 KB ~ 700 KB/秒) サイトからリモートで転送する必要があることです。

これらのファイルをできるだけ早くバックアップすることが重要ですが、現在は有線接続しか方法がありません。これには数週間かかるため、時間がかかりすぎます。残念ながら、ハードドライブを手動で転送して送ってくれる信頼できる人が近くにいません。そのため、できるだけ小さなファイルに圧縮するしかありません。

私は 7-Zip の Ultra 圧縮 (LZMA2) を使用してファイルをアーカイブし、10 MB のチャンクに分割しました (ファイルのカテゴリごとに異なるグループに分割)。これはうまくいきました。

これらすべてに対して同じことを実行し、すべてのグループ (フォルダーごとに分割) を 1 つの 7-Zip Ultra LZMA2 10 MB 分割アーカイブに圧縮すると、何か効果がありますか、それとも時間の無駄になりますか? データを結合してより高度に圧縮し、全体の 10 MB ファイルを減らすことはできますか?

注: チャンクに分割した理由は、転送にはどうしても時間がかかるため、小さなチャンクに分割することで、ネットワーク障害、コンピューターの再起動、その他の問題で全体が台無しになるのを防ぐためです。

答え1

申し訳ありませんが、これはほとんど時間の無駄になります。

データ圧縮の仕組みは、パターンや仮定を識別し、それをより効率的な方法で表現することです。ただし、最終結果では圧縮可能なパターンが作成される傾向はありません。

圧縮がかなり粗雑なデータを取得し、それをより積極的に圧縮して、いくらかの利益を得ることは可能です。通常、利益は 3% 未満で、非常にまれなケースでは 10% になります。ただし、オーバーヘッドが少しあります。したがって、他の結果は非常に一般的ですが、コストは多少かかりますが、ほぼ 0% の節約となり、ファイル サイズが実際に増加する可能性があります。

よろしければお気軽にお試しください。ただし、このような取り組みの一般的な結果は、改善がほとんどないかまったく見られないか、あるいは状況が悪化することさえあります。

実際には、すべてのデータを圧縮できるわけではありません。その理由は、「ピジョン ホール」原理としても知られる「カウント」の議論で説明できます。(参照:圧縮に関するFAQセクション8) 基本的に、圧縮されたデータが同等かそれより小さい場合 (より少ないビットを使用)、圧縮ファイルの数は非圧縮ファイルより少なくなります。これは、すべての固有の非圧縮ファイルをより少ないビットで表現できるわけではないことを証明しています。

実際、ほとんどのデータは圧縮できません。幸いなことに、興味深いデータのほとんどは圧縮可能です。たとえば、ほとんどの画像はランダムな白黒画像のようには見えません (たとえば、ランダムな強度のランダムなモノクロピクセルを表示する古いテレビの「雪」など)。ほとんどのスプレッドシートには、実際には完全にランダムな数字は含まれていません (負の兆の数、小数点以下 43 桁の 1 の分数、除算記号の直前のプラス記号など)。

テキストにも、母音を多用したり、句読点の後にスペース、大文字が時々使われたりするなどのパターンがあります。

ただし、圧縮されたデータは、有用なパターンを取り込み、それを効率的な方法で表現する傾向があります。そのため、データ圧縮プロセスによって非効率性が排除されます。その結果、通常、非効率性はほとんどなくなり、それを特定してより効率的に保存できるようになります。

関連情報