블록 수준 중복 제거를 위해 gzip 파일 최적화

Question 1

zcat을 사용하여 파일을 추출한 다음 각 파일에 대한 체크섬을 계산할 수 있습니다.

for x in *.gz
do
    zcat $x | sha256sum > $x.sum
done

그런 다음 해당 *.gz.sum 파일에 속이 있는지 확인하십시오. "something.gz.sum"이라는 속임수를 제거할 때마다 해당 "something.gz"도 제거하세요.

Answer

zcat을 사용하여 파일을 추출한 다음 각 파일에 대한 체크섬을 계산할 수 있습니다.

for x in *.gz
do
    zcat $x | sha256sum > $x.sum
done

그런 다음 해당 *.gz.sum 파일에 속이 있는지 확인하십시오. "something.gz.sum"이라는 속임수를 제거할 때마다 해당 "something.gz"도 제거하세요.

Question 2

내 질문의 전반부에 답하기: gzip 파일의 날짜/이름 스탬프 자르기. 아니요, 아직 기성 코드 조각을 찾지 못했지만 시각적 바이너리 diff 도구인 vbindiff를 설치할 시간을 찾았고 헤더가 압축되지 않았으므로 실제 압축된 스트림은 gzip및 와 동일합니다 gzip -n. 그리고 남은 것은 통합 버전을 얻기 위해 압축 파일의 맨 처음 부분에서 몇 바이트를 조작하는 것뿐입니다. 누군가가 sed바이너리에 대해 알지 않는 한 작은 C 프로그램이 내 문제를 해결할 것입니다 :-)

두 번째 부분에서는 여러 데이터를 실험해 봐야 합니다. 확실한 결과가 있으면 여기에 게시하겠습니다.

Answer

내 질문의 전반부에 답하기: gzip 파일의 날짜/이름 스탬프 자르기. 아니요, 아직 기성 코드 조각을 찾지 못했지만 시각적 바이너리 diff 도구인 vbindiff를 설치할 시간을 찾았고 헤더가 압축되지 않았으므로 실제 압축된 스트림은 gzip및 와 동일합니다 gzip -n. 그리고 남은 것은 통합 버전을 얻기 위해 압축 파일의 맨 처음 부분에서 몇 바이트를 조작하는 것뿐입니다. 누군가가 sed바이너리에 대해 알지 않는 한 작은 C 프로그램이 내 문제를 해결할 것입니다 :-)

두 번째 부분에서는 여러 데이터를 실험해 봐야 합니다. 확실한 결과가 있으면 여기에 게시하겠습니다.

블록 수준 중복 제거를 위해 gzip 파일 최적화

답변1

답변2

관련 정보