7-Zip Ultra - 여러 개의 다른 7-zip Ultra 압축 파일을 압축하면 크기에 상당한 차이가 있습니까?

7-Zip Ultra - 여러 개의 다른 7-zip Ultra 압축 파일을 압축하면 크기에 상당한 차이가 있습니까?

주로 png와 pdf, 일부 svg, 기타 다양한 파일을 전송해야 하는 파일이 많이 있습니다. 여러 TB에 해당하는 파일은 몇 kb에서 몇 mb까지 개별적으로 크기 조정됩니다. 문제는 업로드 상태가 좋지 않은 사이트(200kb 0 700kb/sec)에서 원격으로 전송해야 한다는 것입니다.

이 파일을 최대한 빨리 백업하는 것이 중요하지만 현재로서는 유선을 통한 방법밖에 없습니다. 이 작업은 몇 주가 소요될 예정이며 이는 너무 긴 시간입니다. 안타깝게도 나에게 하드 드라이브를 수동으로 전송하고 보내줄 수 있는 신뢰할 수 있는 현지 사람이 없습니다. 그래서 가능한 한 작은 파일로 압축해야 합니다.

저는 7-Zip on Ultra 압축(LZMA2)을 사용하여 파일을 보관하고 10MB 청크로 분할했습니다(파일 카테고리에 따라 다른 그룹으로). 이것은 훌륭하게 작동했습니다.

모든 항목에 동일한 작업을 수행하면 모든 그룹(폴더로 구분)을 단일 7-Zip Ultra LZMA2 10mb 분할 아카이브로 압축합니다. 전혀 도움이 될까요, 아니면 시간 낭비가 될까요? 데이터를 병합하여 더 높은 수준으로 압축하고 전체 10MB 파일을 줄일 수 있습니까?

참고: 덩어리로 나눈 이유는 무슨 일이 있어도 전송하는 데 오랜 시간이 걸리기 때문입니다. 따라서 작은 덩어리는 네트워크 오류, 컴퓨터 다시 시작 또는 전체를 망칠 수 있는 기타 문제를 방지할 수 있습니다.

답변1

죄송합니다. 하지만 이는 시간 낭비가 될 것입니다.

데이터 압축이 작동하는 방식은 패턴/가정을 식별하고 이를 보다 효율적인 방식으로 표현하는 것입니다. 그러나 최종 결과는 압축 가능한 패턴을 생성하는 경향이 없습니다.

다소 형편없이 압축된 일부 데이터를 가져와서 보다 적극적으로 압축하여 약간의 이득을 얻을 수 있습니다. 일반적으로 이득은 3% 미만이며 매우 드문 경우에는 10%입니다. 그러나 약간의 오버헤드가 있습니다. 따라서 매우 일반적인 다른 결과는 비용 절감 효과가 약 0%이므로 실제로 파일 크기를 늘릴 수 있습니다.

원한다면 자유롭게 시도해 보십시오. 그러나 그러한 노력의 일반적인 결과는 무시할 수 있거나 존재하지 않는 개선, 심지어 상황을 악화시키는 것입니다.

사실 모든 데이터를 압축할 수 있는 것은 아닙니다. "비둘기 구멍" 원리라고도 알려진 "계산" 주장이 그 이유를 설명합니다. (보다:압축 FAQ 섹션 8.) 기본적으로 압축된 데이터가 같거나 더 작은 경우(더 적은 비트 사용) 압축되지 않은 파일보다 가능한 압축 파일 수가 적습니다. 이는 가능한 모든 고유한 압축되지 않은 파일이 더 적은 비트로 표시될 수는 없음을 증명합니다.

실제로 대부분의 데이터는 압축할 수 없습니다. 다행스럽게도 대부분의 흥미로운 데이터는 압축 가능합니다. 예를 들어, 대부분의 이미지는 무작위 흑백 사진처럼 보이지 않습니다(예: 무작위 강도의 무작위 흑백 픽셀을 표시하는 오래된 TV 세트의 "눈"). 대부분의 스프레드시트에는 실제로 완전히 난수가 없습니다(음수 1조 단위의 숫자, 소수점 이하 43자리의 분수, 나누기 기호 바로 앞에 있는 더하기 기호 포함).

텍스트에도 모음을 많이 사용하고 구두점과 공백, 대문자를 가끔 사용하는 등의 패턴이 있습니다.

그러나 압축된 데이터는 유용한 패턴을 취하고 이를 효율적인 방식으로 표현하는 경향이 있습니다. 따라서 데이터 압축 프로세스는 비효율성을 제거합니다. 그 결과 일반적으로 더 효율적으로 식별하고 저장할 수 있는 비효율성이 거의 없습니다.

관련 정보