7-Zip Ultra — Будет ли существенная разница в размере при сжатии нескольких других файлов с помощью 7-Zip Ultra?

7-Zip Ultra — Будет ли существенная разница в размере при сжатии нескольких других файлов с помощью 7-Zip Ultra?

У меня много файлов, в основном png и pdf, немного svg, несколько других, которые нужно перенести. Несколько терабайтных файлов, файлы по отдельности aized от нескольких кб до нескольких мб. Проблема в том, что мне приходится передавать их удаленно с сайта, у которого плохая загрузка (200кб 0 700кб/сек).

Важно, чтобы я сделал резервную копию этих файлов как можно скорее, но в настоящее время единственный способ — через сеть. Это займет недели, что слишком долго. К сожалению, у меня нет никого поблизости, кому я мог бы доверить вручную перенести и отправить мне жесткий диск. Поэтому мне остается сжимать как можно больше в маленькие файлы.

Я использовал 7-Zip на сжатии Ultra (LZMA2) для архивации файлов и разбил их на куски по 10 МБ (в разных группах для разных категорий файлов). Это сработало отлично.

Если я сделаю то же самое со всеми этими вместе, сожму все группы (разделенные по папкам) в один 7-Zip Ultra LZMA2 10 МБ разделенный архив, поможет ли это вообще или будет пустой тратой времени? Сможет ли он объединить данные для сжатия в большей степени и в результате получить меньше общих 10 МБ файлов?

ПРИМЕЧАНИЕ: Я разбил данные на части, потому что передача данных в любом случае займет много времени, поэтому небольшие части позволят избежать сбоя сети, перезагрузки компьютера или любой другой проблемы, которая могла бы испортить все.

решение1

Извините, но это будет пустой тратой времени.

Сжатие данных работает так, чтобы выявлять закономерности/предположения и представлять их более эффективным способом. Однако конечный результат не стремится создавать сжимаемые закономерности.

Можно взять некоторые данные, которые были сжаты довольно плохо, и сжать их более агрессивно, и получить некоторый выигрыш. Обычно выигрыш составляет менее 3%, а в довольно редких случаях — 10%. Однако есть небольшие накладные расходы. Поэтому другие результаты, которые встречаются довольно часто, — это примерно 0% экономии, с некоторыми затратами, так что вы можете фактически увеличить размер файла.

Если хотите, можете смело попробовать, но обычно результатом таких усилий являются незначительные или нулевые улучшения, а то и вовсе ухудшение ситуации.

Факт в том, что не все данные можно сжать. Аргумент «подсчета», также известный как принцип «ящика», объясняет, почему. (См.:Раздел 8 FAQ по сжатию.) По сути, если сжатые данные равны или меньше (используют меньше бит), то существует меньше возможных сжатых файлов, чем несжатых файлов, что доказывает, что не каждый возможный уникальный несжатый файл может быть представлен меньшим количеством бит.

На самом деле, большинство данных несжимаемы. К счастью для нас, большинство интересных данных сжимаемы. Например, большинство изображений не выглядят как случайные черно-белые картинки (например, «снег» на старых телевизорах, которые отображали случайные монохромные пиксели случайной интенсивности). Большинство электронных таблиц на самом деле не содержат полностью случайных чисел (включая числа в отрицательных триллионах и дроби единицы, которые имеют сорок три десятичных знака, и знаки плюс непосредственно перед знаками деления).

Даже в тексте есть закономерности, такие как частое использование гласных и периодическое использование знаков препинания, за которыми следуют пробелы, а затем заглавные буквы.

Однако сжатые данные, как правило, берут полезные шаблоны и представляют их эффективными способами. Таким образом, процесс сжатия данных устраняет неэффективность. Результатом является то, что обычно остается мало неэффективности, которую мы можем идентифицировать и хранить более эффективно.

Связанный контент