Infraestrutura Apache Spark – combinando nós de computação e armazenamento

Question

Responderei à minha própria pergunta, pois encontrei alguns recursos; no entanto, também marcarei todas as respostas de qualidade que surgirem como respostas, então sinta-se à vontade para contribuir. Comentários sobre meus pensamentos aqui também são mais que bem-vindos.

Esselink tem algumas informações sobre o provisionamento de hardware para o Spark e, pelo que entendi, você pode basicamente tratar o Spark como a camada de aplicativo em uma pilha de três camadas. Portanto, você pode executar (por exemplo) Cassandra ou HBase em seus nós de armazenamento e manter o Spark em nós de "aplicativos" com CPUs e memória mais fortes, mas com menos armazenamento disponível. Ethernet de 10 Gbps entre os nós parece ser importante nesses casos de uso.

Suponho que isso levante a questão de como processar um conjunto de dados muito grande, considerando que, em última análise, você ainda pode estar transmitindo dados de um banco de dados Hbase para fazer o processamento, mas acho que isso se resume à arquitetura do aplicativo, então será estão fora do escopo deste site.

Answer 1

Responderei à minha própria pergunta, pois encontrei alguns recursos; no entanto, também marcarei todas as respostas de qualidade que surgirem como respostas, então sinta-se à vontade para contribuir. Comentários sobre meus pensamentos aqui também são mais que bem-vindos.

Esselink tem algumas informações sobre o provisionamento de hardware para o Spark e, pelo que entendi, você pode basicamente tratar o Spark como a camada de aplicativo em uma pilha de três camadas. Portanto, você pode executar (por exemplo) Cassandra ou HBase em seus nós de armazenamento e manter o Spark em nós de "aplicativos" com CPUs e memória mais fortes, mas com menos armazenamento disponível. Ethernet de 10 Gbps entre os nós parece ser importante nesses casos de uso.

Suponho que isso levante a questão de como processar um conjunto de dados muito grande, considerando que, em última análise, você ainda pode estar transmitindo dados de um banco de dados Hbase para fazer o processamento, mas acho que isso se resume à arquitetura do aplicativo, então será estão fora do escopo deste site.

Infraestrutura Apache Spark – combinando nós de computação e armazenamento

Responder1

informação relacionada