¿La forma más rápida de importar archivos en Spark?

2024-6-23 • tag-icon

¿La forma más rápida de importar archivos en Spark?

Estoy jugando con Spark 3.0.1 y estoy realmente impresionado por el rendimiento de Spark SQL en GB de datos.

Estoy tratando de comprender cuál es la mejor manera de importar varios archivos JSON en el marco de datos de Spark antes de ejecutar las consultas de análisis.

En este momento intenté importar ~1.500 archivos .gz que contienen un archivo estructurado json cada uno. Estos archivos se almacenan en un depósito de S3 y tengo una canalización de datos que llena este depósito cada x cantidad de tiempo. Estamos hablando de un tamaño completo de 5 GB para archivos de 1.500 gz, sin comprimir son alrededor de 60/70 GB (conjunto de datos completo).

Importar estos archivos desde S3 lleva casi de 3 a 4 minutos, mientras que las consultas SQL solo toman unos segundos.

El cuello de botella aquí es claramente S3.

¿Cuál sería el enfoque ideal aquí para acelerar la importación de estos archivos gz?

Cualquier sugerencia será muy apreciada.

¡Gracias!

información relacionada