Soy un administrador de sistemas MUY nuevo (Clase del 2016) y me pidieron que creara un clúster de big data con 3 servidores PowerEdge sin sistema operativo. Tengo la siguiente solicitud para colocar en el clúster:
*Hadoop2 *YARN *Java 7&8 *Spark *SBT *Maven *Scala *P7zip *Pig *Hive *R (bibliotecas para Spark y Hadoop) *Zeppelin *Cassandra
Me gustaría saber si todos estos pueden "funcionar bien juntos", ya que sé muy poco sobre big data y las búsquedas dan como resultado muchas páginas "x VS y" en lugar de "x AND y". ¿Y existe algún estándar industrial preferido?
¡Gracias de antemano por su consejo!
Respuesta1
Ciertamente pueden coexistir en esos servidores, aunque normalmente se usaría un tipo de servidor para almacenar los datos reales y otro para realizar el trabajo pesado de computación. También es un poco no estándar ejecutar una base de datos Cassandra en los mismos servidores, pero nuevamente puedes hacer todo esto, funcionará, no solo no es exactamente cómo lo haría.
En caso de que los servidores aún no se hayan pedido y usted pueda influir en sus especificaciones, una cosa que intentaría hacer es tener un banco de discos grandes y lentos para datos (normalmente discos de 3,5" y 7,2 krpm de varios TB) y luego algunos SSD o Discos de 10 krpm para bases de datos y trabajo de computación. Ejecutar todo desde un solo tipo de disco no suele tener sentido. Esto también consumirá bastante memoria, no escatime en eso, además probablemente necesite una cantidad razonable de núcleos de CPU. Yo diría que al menos 12 o más por servidor para todo este trabajo.
De todos modos, espero que esto ayude y mire tanto a Cloudera como a Ambari para sus entornos Hadoop, no son gratuitos pero pueden quitarle muchos dolores de cabeza.