在 Spark 中匯入檔案的最快方法?

在 Spark 中匯入檔案的最快方法?

我正在使用 Spark 3.0.1,Spark SQL 在 GB 資料上的效能給我留下了深刻的印象。

我試圖了解在運行分析查詢之前在 Spark 資料框中導入多個 JSON 檔案的最佳方法是什麼。

現在我嘗試匯入 ~1.500 個 .gz 文件,每個文件包含一個 json 結構化文件。這些檔案儲存在 S3 儲存桶中,我有一個資料管道,每隔 x 時間填滿該儲存桶。我們討論的是 1.500 gz 檔案的完整大小為 5GB,未壓縮時約為 60/70GB(完整資料集)。

從 S3 匯入這些檔案大約需要 3 到 4 分鐘,而 SQL 查詢只需要幾秒鐘。

這裡的瓶頸顯然是S3。

加速這些 gz 檔案匯入的理想方法是什麼?

任何建議將不勝感激。

謝謝你!

相關內容