Como ler arquivos zip grandes no pyspark

2024-7-9 • tag-icon

Como ler arquivos zip grandes no pyspark

Eu tenho vários arquivos .zip no s3, que desejo processar e extrair alguns dados deles. zip contém um único arquivo json. No spar podemos ler arquivos .gz, mas não encontrei nenhuma maneira de ler dados em arquivos .zip. Alguém pode me ajudar como posso processar arquivos zip grandes no Spark usando python. Me deparei com algumas opções como newAPIHadoopFile, mas não tive sorte com elas, nem encontrei uma maneira de implementá-las no pyspark. Observe que os arquivos zip têm> 1G, alguns também têm 20G.

informação relacionada