Spark でファイルをインポートする最も速い方法は何ですか?

2024-6-23 • tag-icon

私は Spark 3.0.1 を試していますが、数 GB のデータに対する Spark SQL のパフォーマンスには本当に感心しています。

分析クエリを実行する前に、Spark データフレームに複数の JSON ファイルをインポートする最適な方法を理解しようとしています。

今、私はそれぞれ json 構造化ファイルを含む約 1,500 個の .gz ファイルをインポートしようとしました。これらのファイルは S3 バケットに保存され、x 時間ごとにこのバケットを埋めるデータパイプラインがあります。1,500 個の gz ファイルでフルサイズは 5 GB で、圧縮されていない場合は約 60/70 GB (完全なデータセット) になります。

S3 からこれらのファイルをインポートするには約 3 ～ 4 分かかりますが、SQL クエリには数秒しかかかりません。

ここでのボトルネックは明らかに S3 です。

これらの gz ファイルのインポートを高速化するための理想的なアプローチは何でしょうか?

どのようなご提案でも大歓迎です。

ありがとう！

関連情報