Spark でファイルをインポートする最も速い方法は何ですか?

Spark でファイルをインポートする最も速い方法は何ですか?

私は Spark 3.0.1 を試していますが、数 GB のデータに対する Spark SQL のパフォーマンスには本当に感心しています。

分析クエリを実行する前に、Spark データフレームに複数の JSON ファイルをインポートする最適な方法を理解しようとしています。

今、私はそれぞれ json 構造化ファイルを含む約 1,500 個の .gz ファイルをインポートしようとしました。これらのファイルは S3 バケットに保存され、x 時間ごとにこのバケットを埋めるデータ パイプラインがあります。1,500 個の gz ファイルでフル サイズは 5 GB で、圧縮されていない場合は約 60/70 GB (完全なデータセット) になります。

S3 からこれらのファイルをインポートするには約 3 ~ 4 分かかりますが、SQL クエリには数秒しかかかりません。

ここでのボトルネックは明らかに S3 です。

これらの gz ファイルのインポートを高速化するための理想的なアプローチは何でしょうか?

どのようなご提案でも大歓迎です。

ありがとう!

関連情報