在 Spark 中匯入檔案的最快方法？

2024-6-27 • tag-icon

我正在使用 Spark 3.0.1，Spark SQL 在 GB 資料上的效能給我留下了深刻的印象。

我試圖了解在運行分析查詢之前在 Spark 資料框中導入多個 JSON 檔案的最佳方法是什麼。

現在我嘗試匯入 ~1.500 個 .gz 文件，每個文件包含一個 json 結構化文件。這些檔案儲存在 S3 儲存桶中，我有一個資料管道，每隔 x 時間填滿該儲存桶。我們討論的是 1.500 gz 檔案的完整大小為 5GB，未壓縮時約為 60/70GB（完整資料集）。

從 S3 匯入這些檔案大約需要 3 到 4 分鐘，而 SQL 查詢只需要幾秒鐘。

這裡的瓶頸顯然是S3。

加速這些 gz 檔案匯入的理想方法是什麼？

任何建議將不勝感激。

謝謝你！

相關內容