Bare metal para Big Data: todos eles podem operar juntos no mesmo cluster?

Bare metal para Big Data: todos eles podem operar juntos no mesmo cluster?

Sou um administrador de sistemas MUITO novo (turma de 16) e fui solicitado a criar um cluster de big data com três servidores PowerEdge bare metal. Tenho a seguinte solicitação para ser colocada no cluster:

*Hadoop2 *YARN *Java 7&8 *Spark *SBT *Maven *Scala *P7zip *Pig *Hive *R (bibliotecas para Spark e Hadoop) *Zeppelin *Cassandra

Gostaria de saber se tudo isso pode 'funcionar bem juntos', já que sei muito pouco sobre big data e as pesquisas resultam em muitas páginas "x VS y" em vez de "x AND y". E existe um padrão preferencial da indústria?

Agradecemos antecipadamente o seu conselho!

Responder1

Certamente eles podem coexistir nesses servidores, embora normalmente você use um tipo de servidor para armazenar os dados reais e outro para fazer o trabalho pesado de computação. Também é um pouco fora do padrão executar um banco de dados Cassandra nos mesmos servidores, mas, novamente, você pode fazer tudo isso, vai funcionar, não é exatamente como eu faria.

Caso os servidores ainda não tenham sido encomendados e você possa influenciar suas especificações, uma coisa que eu tentaria fazer é ter um banco de discos grandes e lentos para dados (normalmente discos multi-TB de 7,2 krpm e 3,5 ") e, em seguida, alguns SSD ou Discos de 10krpm para banco de dados e trabalho de computação. Executar tudo em um tipo de disco geralmente não faz sentido. Isso também consumirá bastante memória, não economize nisso, você provavelmente também precisará de um número razoável de núcleos de CPU. Eu diria pelo menos 12 ou mais por servidor para todo esse trabalho.

De qualquer forma, espero que isso ajude e observe tanto Cloudera quanto Ambari para seus ambientes Hadoop, eles não são gratuitos, mas podem tirar muita dor de cabeça de você.

informação relacionada