Самый быстрый способ импортировать файлы в Spark?

Самый быстрый способ импортировать файлы в Spark?

Я экспериментирую со Spark 3.0.1 и действительно впечатлен производительностью Spark SQL при обработке ГБ данных.

Я пытаюсь понять, как лучше всего импортировать несколько файлов JSON в фреймворк данных Spark перед выполнением аналитических запросов.

Прямо сейчас я попытался импортировать ~1.500 файлов .gz, содержащих структурированный файл json каждый. Эти файлы хранятся в контейнере S3, и у меня есть конвейер данных, который заполняет этот контейнер каждые x раз. Мы говорим о полном размере 5 ГБ для 1.500 файлов gz, в несжатом виде это около 60/70 ГБ (полный набор данных).

Импорт этих файлов из S3 занимает около 3–4 минут, тогда как SQL-запросы выполняются всего за несколько секунд.

Узким местом здесь явно является S3.

Какой подход был бы идеальным для ускорения импорта этих gz-файлов?

Любые предложения будут чрезвычайно признательны.

Спасибо!

Связанный контент