Я экспериментирую со Spark 3.0.1 и действительно впечатлен производительностью Spark SQL при обработке ГБ данных.
Я пытаюсь понять, как лучше всего импортировать несколько файлов JSON в фреймворк данных Spark перед выполнением аналитических запросов.
Прямо сейчас я попытался импортировать ~1.500 файлов .gz, содержащих структурированный файл json каждый. Эти файлы хранятся в контейнере S3, и у меня есть конвейер данных, который заполняет этот контейнер каждые x раз. Мы говорим о полном размере 5 ГБ для 1.500 файлов gz, в несжатом виде это около 60/70 ГБ (полный набор данных).
Импорт этих файлов из S3 занимает около 3–4 минут, тогда как SQL-запросы выполняются всего за несколько секунд.
Узким местом здесь явно является S3.
Какой подход был бы идеальным для ускорения импорта этих gz-файлов?
Любые предложения будут чрезвычайно признательны.
Спасибо!