Schnellster Weg zum Importieren von Dateien in Spark?

Schnellster Weg zum Importieren von Dateien in Spark?

Ich spiele mit Spark 3.0.1 herum und bin wirklich beeindruckt von der Leistung mit Spark SQL bei GB an Daten.

Ich versuche herauszufinden, wie ich vor dem Ausführen der Analyseabfragen am besten mehrere JSON-Dateien in den Spark-Datenrahmen importieren kann.

Gerade habe ich versucht, ca. 1.500 .gz-Dateien zu importieren, die jeweils eine JSON-strukturierte Datei enthalten. Diese Dateien sind in einem S3-Bucket gespeichert und ich habe eine Datenpipeline, die diesen Bucket alle x Zeit füllt. Wir sprechen von einer Gesamtgröße von 5 GB für 1.500 GZ-Dateien, unkomprimiert sind es etwa 60/70 GB (kompletter Datensatz).

Das Importieren dieser Dateien aus S3 dauert fast 3 bis 4 Minuten, während die SQL-Abfragen nur wenige Sekunden dauern.

Der Flaschenhals ist hier eindeutig S3.

Was wäre hier der ideale Ansatz, um den Import dieser gz-Dateien zu beschleunigen?

Jeder Vorschlag wäre äußerst willkommen.

Danke schön!

verwandte Informationen