Pyspark で大きな zip ファイルを読み取る方法

2024-7-9 • tag-icon

S3 に n 個の .zip ファイルがあり、これらを処理してデータを抽出したいと考えています。zip ファイルには 1 つの json ファイルが含まれています。spar では .gz ファイルを読み取ることができますが、.zip ファイル内のデータを読み取る方法が見つかりませんでした。python を使用して、spark で大きな zip ファイルを処理する方法を教えてください。newAPIHadoopFile などのオプションを見つけましたが、うまくいきませんでした。pyspark で実装する方法も見つかりませんでした。zip ファイルは 1G を超えており、20G のものもあることに注意してください。

関連情報