So lesen Sie große Zip-Dateien in Pyspark

2024-7-9 • tag-icon

So lesen Sie große Zip-Dateien in Pyspark

Ich habe n .zip-Dateien auf S3, die ich verarbeiten und aus denen ich einige Daten extrahieren möchte. Zip-Dateien enthalten eine einzelne JSON-Datei. In Spar können wir .gz-Dateien lesen, aber ich habe keine Möglichkeit gefunden, Daten in .zip-Dateien zu lesen. Kann mir bitte jemand helfen, wie ich große Zip-Dateien über Spark mit Python verarbeiten kann? Ich bin auf einige Optionen wie newAPIHadoopFile gestoßen, hatte damit aber kein Glück und fand auch keine Möglichkeit, sie in Pyspark zu implementieren. Bitte beachten Sie, dass die Zip-Dateien >1 GB groß sind, einige sind auch 20 GB groß.

verwandte Informationen