Infraestructura Apache Spark: combinación de nodos de computación y almacenamiento

Question

Voy a responder mi propia pregunta ya que encontré algunos recursos; sin embargo, también marcaré cualquier respuesta de calidad que aparezca como respuesta, así que siéntete libre de contribuir. Los comentarios sobre mis pensamientos aquí también son más que bienvenidos.

EsteEl enlace tiene información sobre el aprovisionamiento de hardware para Spark y, por lo que puedo entender, básicamente puedes tratar a Spark como la capa de aplicación en una pila de tres niveles. Por lo tanto, puede ejecutar (por ejemplo) Cassandra o HBase en sus nodos de almacenamiento y mantener Spark en nodos de "aplicaciones" con CPU y memoria más potentes, pero con menos almacenamiento disponible. Parece que Ethernet de 10 Gbps entre los nodos será importante en estos casos de uso.

Supongo que esto plantea la pregunta de cómo se procesa un conjunto de datos muy grande considerando que, en última instancia, es posible que aún se estén transmitiendo datos desde una base de datos Hbase para realizar el procesamiento, pero creo que esto se reduce a la arquitectura de la aplicación, por lo que quedan fuera del alcance de este sitio.

Answer 1

Voy a responder mi propia pregunta ya que encontré algunos recursos; sin embargo, también marcaré cualquier respuesta de calidad que aparezca como respuesta, así que siéntete libre de contribuir. Los comentarios sobre mis pensamientos aquí también son más que bienvenidos.

EsteEl enlace tiene información sobre el aprovisionamiento de hardware para Spark y, por lo que puedo entender, básicamente puedes tratar a Spark como la capa de aplicación en una pila de tres niveles. Por lo tanto, puede ejecutar (por ejemplo) Cassandra o HBase en sus nodos de almacenamiento y mantener Spark en nodos de "aplicaciones" con CPU y memoria más potentes, pero con menos almacenamiento disponible. Parece que Ethernet de 10 Gbps entre los nodos será importante en estos casos de uso.

Supongo que esto plantea la pregunta de cómo se procesa un conjunto de datos muy grande considerando que, en última instancia, es posible que aún se estén transmitiendo datos desde una base de datos Hbase para realizar el procesamiento, pero creo que esto se reduce a la arquitectura de la aplicación, por lo que quedan fuera del alcance de este sitio.

Infraestructura Apache Spark: combinación de nodos de computación y almacenamiento

Respuesta1

información relacionada