私は Spark 3.0.1 を試していますが、数 GB のデータに対する Spark SQL のパフォーマンスには本当に感心しています。
分析クエリを実行する前に、Spark データフレームに複数の JSON ファイルをインポートする最適な方法を理解しようとしています。
今、私はそれぞれ json 構造化ファイルを含む約 1,500 個の .gz ファイルをインポートしようとしました。これらのファイルは S3 バケットに保存され、x 時間ごとにこのバケットを埋めるデータ パイプラインがあります。1,500 個の gz ファイルでフル サイズは 5 GB で、圧縮されていない場合は約 60/70 GB (完全なデータセット) になります。
S3 からこれらのファイルをインポートするには約 3 ~ 4 分かかりますが、SQL クエリには数秒しかかかりません。
ここでのボトルネックは明らかに S3 です。
これらの gz ファイルのインポートを高速化するための理想的なアプローチは何でしょうか?
どのようなご提案でも大歓迎です。
ありがとう!