Otimizando arquivos compactados para desduplicação em nível de bloco

Question 1

Você poderia usar zcat para extrair os arquivos e calcular uma soma de verificação para cada arquivo:

for x in *.gz
do
    zcat $x | sha256sum > $x.sum
done

em seguida, verifique se há ingênuos nos arquivos *.gz.sum. Cada vez que você remover um idiota chamado "something.gz.sum", remova também o "something.gz" correspondente

Answer

Você poderia usar zcat para extrair os arquivos e calcular uma soma de verificação para cada arquivo:

for x in *.gz
do
    zcat $x | sha256sum > $x.sum
done

em seguida, verifique se há ingênuos nos arquivos *.gz.sum. Cada vez que você remover um idiota chamado "something.gz.sum", remova também o "something.gz" correspondente

Question 2

Respondendo à primeira metade da minha pergunta sobre: cortar o carimbo de data/nome de um arquivo gzip. não, ainda não encontrei um trecho de código pronto, mas encontrei tempo para instalar o vbindiff, uma ferramenta visual de comparação binária, e descobri que o cabeçalho não estava compactado e, portanto, o fluxo compactado real é idêntico a gzipe gzip -n, e tudo o que resta é manipular alguns bytes logo no início dos arquivos compactados para obter a versão unificada. um pequeno programa C resolverá meu problema, a menos que alguém conheça sedbinários :-)

Quanto à segunda parte, terei apenas que experimentar vários dados. Se eu tiver algum resultado definitivo, postarei aqui.

Answer

Respondendo à primeira metade da minha pergunta sobre: cortar o carimbo de data/nome de um arquivo gzip. não, ainda não encontrei um trecho de código pronto, mas encontrei tempo para instalar o vbindiff, uma ferramenta visual de comparação binária, e descobri que o cabeçalho não estava compactado e, portanto, o fluxo compactado real é idêntico a gzipe gzip -n, e tudo o que resta é manipular alguns bytes logo no início dos arquivos compactados para obter a versão unificada. um pequeno programa C resolverá meu problema, a menos que alguém conheça sedbinários :-)

Quanto à segunda parte, terei apenas que experimentar vários dados. Se eu tiver algum resultado definitivo, postarei aqui.

Otimizando arquivos compactados para desduplicação em nível de bloco

Responder1

Responder2

informação relacionada