Cómo leer archivos zip grandes en pyspark

2024-7-9 • tag-icon

Cómo leer archivos zip grandes en pyspark

Tengo n cantidad de archivos .zip en s3, que quiero procesar y extraer algunos datos de ellos. Los archivos zip contienen un único archivo json. En spar podemos leer archivos .gz, pero no encontré ninguna forma de leer datos dentro de archivos .zip. ¿Puede alguien ayudarme? ¿Cómo puedo procesar archivos zip grandes a través de Spark usando Python? Encontré algunas opciones como newAPIHadoopFile, pero no tuve suerte con ellas ni encontré la manera de implementarlas en pyspark. Tenga en cuenta que los archivos zip son >1G, algunos también son de 20G.

información relacionada