7-Zip Ultra - 壓縮多個其他 7-zip Ultra 壓縮檔案是否有任何顯著的大小差異?

7-Zip Ultra - 壓縮多個其他 7-zip Ultra 壓縮檔案是否有任何顯著的大小差異?

我有很多文件,主要是 png 和 pdf,還有一些 svg,還有一些其他的文件,需要傳輸。價值數 TB 的檔案大小從幾 kb 到幾 mb 不等。問題是我必須從上傳品質差的網站(200kb 0 700kb/秒)遠端傳輸它們。

盡快備份這些文件很重要,但目前透過網路是唯一的方法。這將需要數週的時間,這太長了。不幸的是,我沒有可以信任的本地人來手動傳輸並向我發送硬碟。所以我只能將盡可能多的檔案壓縮為小檔案。

我使用 7-Zip 超壓縮 (LZMA2) 來歸檔檔案並分成 10mb 的區塊(針對不同類別的檔案分成不同的群組)。這效果很好。

如果我對所有這些一起做同樣的事情,將所有群組(由資料夾分隔)壓縮到一個 7-Zip Ultra LZMA2 10mb 分割檔案中,它會有所幫助,還是會浪費時間?它是否能夠合併資料以進行更高程度的壓縮,從而減少 10mb 的檔案總量?

注意:我將其分成區塊的原因是因為無論如何傳輸都需要很長時間,因此小塊可以防止網路故障、電腦重新啟動或任何其他導致整個事情搞砸的問題。

答案1

抱歉,但這很大程度是浪費時間。

資料壓縮的工作方式是識別模式/假設,並以更有效的方式表示這些模式/假設。然而,最終結果往往不會創建可壓縮模式。

可以採取一些壓縮得相當糟糕的數據,並對其進行更積極的壓縮,並獲得一些增益。通常增益低於 3%,在極少數情況下增益可達 10%。然而,有一點開銷。因此,其他很常見的結果大約是 0% 的節省,並且需要一些成本,因此您實際上可能會增加檔案大小。

如果您願意,可以隨意嘗試,但這種努力的常見結果是改進可以忽略不計或根本不存在,甚至使事情變得更糟。

事實上,並非所有資料都可以壓縮。 「計數」論證,也稱為「鴿子洞」原理,解釋了原因。 (看:壓縮常見問題第 8 部分.)基本上,如果壓縮資料相等或更小(使用更少的位元),則可能的壓縮檔案比未壓縮的檔案少,這證明並非每個可能的唯一未壓縮檔案都可以用更少的位元表示。

事實上,大多數數據是不可壓縮的。對我們來說幸運的是,最有趣的數據是可壓縮的。例如,大多數影像看起來不像隨機的黑白圖片(例如,顯示隨機強度的隨機單色像素的舊電視機上的「雪」)。大多數電子表格實際上並不具有完全隨機的數字(包括負數萬億的數字、小數點後四十三位的小數以及除號之前的加號)。

即使文字也有模式,例如大量使用元音,偶爾使用標點符號,後面跟著空格,然後是大寫字母。

然而,壓縮數據傾向於採用有用的模式,並以有效的方式表示它們。因此,資料壓縮過程消除了低效率。結果是,我們通常可以更有效地識別和儲存很少的低效率。

相關內容