Как читать большие zip-файлы в pyspark

2024-7-19 • tag-icon

У меня есть n-ное количество .zip-файлов на s3, которые я хочу обработать и извлечь из них некоторые данные. zip-файлы содержат один json-файл. В spar мы можем читать .gz-файлы, но я не нашел способа читать данные внутри .zip-файлов. Может ли кто-нибудь помочь мне, как обрабатывать большие zip-файлы в spark с помощью python. Я наткнулся на несколько вариантов, таких как newAPIHadoopFile, но мне с ними не повезло, и я не нашел способа реализовать их в pyspark. Обратите внимание, что zip-файлы имеют размер >1G, некоторые также имеют размер 20G.

Связанный контент