¿Por qué los archivos tar.xz son 15 veces más pequeños cuando se usa la biblioteca tar de Python en comparación con el tar de macOS?

Question 1

Respuesta corta: sí, es seguro usar Python tarlibpara comprimir los datos, no se pierde nada en comparación con BSD tar.

Problema de fondo: clasificación

Creo que el problema subyacente es que BSD tary GNU, tarsin ninguna opción de clasificación, colocan los archivos en el archivo en un orden indefinido.

GNU tartiene una --sortopción:

ordenar las entradas del directorio según ORDER, cuál es uno de none, name, o inode.
El valor predeterminado es --sort=none, que almacena los miembros del archivo en el mismo orden en que los devuelve el sistema operativo.

Probando GNU`tar`

Para probar esto instalé GNU taren mi Mac con:

brew install gnu-tar

Y luego tarreó la misma carpeta, pero con la --sortopción:

gtar --sort='name' -cJf zsh-archive-sorted.tar.xz /Users/user/Desktop/temp/tar/2021-03-11

El zsh-archive-sorted.tar.xzarchivo es de 1,5 MB, igual al tamaño del archivo creado por la biblioteca Python.

Concatenar en orden ordenado

El efecto que tiene la clasificación en el tamaño del archivo final se demuestra concatenando primero todos los archivos JSON ordenados por nombre (que tiene la creación de Unixtime al principio) y luego tar con BSD tar:

cat *.json > all.txt
tar cJf zsh-cat-archive.tar.xz all.txt

El zsh-cat-archive.tar.xzarchivo también pesa 1,5 MB.

`tarfile`Clasificación de Python

Finalmente, eldocumentación de la TarFile.addfunción de Pythonconfirma que Python tarfileordena de forma predeterminada:

Los directorios se agregan de forma recursiva de forma predeterminada. Esto se puede evitar estableciendo recursivo en False. La recursión agrega entradas en orden.

Por qué es importante ordenar

Creo que la razón por la que la clasificación tiene tal impacto en mi caso es la siguiente:

Mis archivos JSON contienen ubicaciones de cientos de vehículos. Cada minuto leo todas las ubicaciones, pero sólo algunas de estas ubicaciones tienen un valor diferente de un minuto a otro.
Al ordenar los archivos por nombre, dos archivos posteriores tienen caracteres ligeramente diferentes entre ellos. Aparentemente esto es muy favorable para la eficiencia de la compresión.

Answer

Respuesta corta: sí, es seguro usar Python tarlibpara comprimir los datos, no se pierde nada en comparación con BSD tar.

Problema de fondo: clasificación

Creo que el problema subyacente es que BSD tary GNU, tarsin ninguna opción de clasificación, colocan los archivos en el archivo en un orden indefinido.

GNU tartiene una --sortopción:

ordenar las entradas del directorio según ORDER, cuál es uno de none, name, o inode.
El valor predeterminado es --sort=none, que almacena los miembros del archivo en el mismo orden en que los devuelve el sistema operativo.

Probando GNU`tar`

Para probar esto instalé GNU taren mi Mac con:

brew install gnu-tar

Y luego tarreó la misma carpeta, pero con la --sortopción:

gtar --sort='name' -cJf zsh-archive-sorted.tar.xz /Users/user/Desktop/temp/tar/2021-03-11

El zsh-archive-sorted.tar.xzarchivo es de 1,5 MB, igual al tamaño del archivo creado por la biblioteca Python.

Concatenar en orden ordenado

El efecto que tiene la clasificación en el tamaño del archivo final se demuestra concatenando primero todos los archivos JSON ordenados por nombre (que tiene la creación de Unixtime al principio) y luego tar con BSD tar:

cat *.json > all.txt
tar cJf zsh-cat-archive.tar.xz all.txt

El zsh-cat-archive.tar.xzarchivo también pesa 1,5 MB.

`tarfile`Clasificación de Python

Finalmente, eldocumentación de la TarFile.addfunción de Pythonconfirma que Python tarfileordena de forma predeterminada:

Los directorios se agregan de forma recursiva de forma predeterminada. Esto se puede evitar estableciendo recursivo en False. La recursión agrega entradas en orden.

Por qué es importante ordenar

Creo que la razón por la que la clasificación tiene tal impacto en mi caso es la siguiente:

Mis archivos JSON contienen ubicaciones de cientos de vehículos. Cada minuto leo todas las ubicaciones, pero sólo algunas de estas ubicaciones tienen un valor diferente de un minuto a otro.
Al ordenar los archivos por nombre, dos archivos posteriores tienen caracteres ligeramente diferentes entre ellos. Aparentemente esto es muy favorable para la eficiencia de la compresión.

Question 2

Intente configurar los niveles de compresión en la línea de comando de macOS.

Sé que estás preguntando sobrexzpero explicado enesta respuesta aquí, en versiones anteriores de GZip puedes establecer el nivel de compresión con una variable de entorno como esta:

GZIP=-9 tar cf zsh-archive.tar.xz folderpath

Dicho esto, parece que sólo funciona con GZip 1.8 y se deprecia en versiones posteriores. Entonces use la opción -I/ --use-compress-program=COMMANDpara tar en su lugar; Tenga en cuenta que es posible que esta opción no funcione en macOS, pero colóquela aquí de todos modos por si acaso. Entonces el comando cambiaría a:

tar -I 'gzip -9' -cf zsh-archive.tar.xz folderpath

Y sí, estos ejemplos comprimirían el archivo Gzip en lugar de xz, pero puedes cambiar fácilmente el comando a este para usarlo xzasí:

tar -I 'xz -9' -cf zsh-archive.tar.xz folderpath

El xznivel de compresión varía de -0a -9y el valor predeterminado es -6; también lo -9es el nivel de compresión más alto.

Solo tenga en cuenta que xzno está instalado en macOS de forma predeterminada. Para instalarlo en macOS primero debes instalarcerveza caseray luego instalarxzvía Homebrew así:

brew install xz

Answer

Intente configurar los niveles de compresión en la línea de comando de macOS.

Sé que estás preguntando sobrexzpero explicado enesta respuesta aquí, en versiones anteriores de GZip puedes establecer el nivel de compresión con una variable de entorno como esta:

GZIP=-9 tar cf zsh-archive.tar.xz folderpath

Dicho esto, parece que sólo funciona con GZip 1.8 y se deprecia en versiones posteriores. Entonces use la opción -I/ --use-compress-program=COMMANDpara tar en su lugar; Tenga en cuenta que es posible que esta opción no funcione en macOS, pero colóquela aquí de todos modos por si acaso. Entonces el comando cambiaría a:

tar -I 'gzip -9' -cf zsh-archive.tar.xz folderpath

Y sí, estos ejemplos comprimirían el archivo Gzip en lugar de xz, pero puedes cambiar fácilmente el comando a este para usarlo xzasí:

tar -I 'xz -9' -cf zsh-archive.tar.xz folderpath

El xznivel de compresión varía de -0a -9y el valor predeterminado es -6; también lo -9es el nivel de compresión más alto.

Solo tenga en cuenta que xzno está instalado en macOS de forma predeterminada. Para instalarlo en macOS primero debes instalarcerveza caseray luego instalarxzvía Homebrew así:

brew install xz

Question 3

Me pregunto qué usa Python para la compresión.

http://tukaani.org/xz/

Probablemente esté usando las llamadas a funciones en liblzma.Alquitránprobablemente esté canalizando el comando xz shell.

Un comentario rápido sobre --sort=name:

La opción de clasificación es una mejora relativamente reciente de GNU tar y se introdujo en la versión tar 1.28.

Es posible que nunca se implemente en BSD tar.

Answer

Me pregunto qué usa Python para la compresión.

http://tukaani.org/xz/

Probablemente esté usando las llamadas a funciones en liblzma.Alquitránprobablemente esté canalizando el comando xz shell.

Un comentario rápido sobre --sort=name:

La opción de clasificación es una mejora relativamente reciente de GNU tar y se introdujo en la versión tar 1.28.

Es posible que nunca se implemente en BSD tar.

¿Por qué los archivos tar.xz son 15 veces más pequeños cuando se usa la biblioteca tar de Python en comparación con el tar de macOS?

Contexto

Ejemplo de trabajo mínimo

Cosas que he probado

Pregunta

Respuesta1

Problema de fondo: clasificación

Probando GNU`tar`

Concatenar en orden ordenado

`tarfile`Clasificación de Python

Por qué es importante ordenar

Respuesta2

Intente configurar los niveles de compresión en la línea de comando de macOS.

Respuesta3

información relacionada

Contexto

Ejemplo de trabajo mínimo

Cosas que he probado

Pregunta

Respuesta1

Problema de fondo: clasificación

Probando GNUtar

Concatenar en orden ordenado

tarfileClasificación de Python

Por qué es importante ordenar

Respuesta2

Intente configurar los niveles de compresión en la línea de comando de macOS.

Respuesta3

información relacionada

Probando GNU`tar`

`tarfile`Clasificación de Python