裸機到大數據:所有這些可以在同一個叢集上一起運作嗎?

裸機到大數據:所有這些可以在同一個叢集上一起運作嗎?

我是一名非常新的系統管理員(16 屆),我被要求建立一個包含 3 台裸機 PowerEdge 伺服器的大數據叢集。我有以下請求要放在叢集上:

*Hadoop2 *YARN *Java 7&8 *Spark *SBT *Maven *Scala *P7zip *Pig *Hive *R(Spark 與 Hadoop 函式庫) *Zeppelin *Cassandra

我想知道這些是否可以“很好地協同工作”,因為我對大數據知之甚少,搜尋結果是很多“x VS y”頁面,而不是“x AND y”。是否有首選的業界標準?

預先感謝您的建議!

答案1

當然,它們可以在這些伺服器上共存,但通常您會使用一種伺服器來保存實際數據,而使用另一種伺服器來執行計算量大的工作。在同一台伺服器上運行 Cassandra DB 也有點不標準,但你可以做所有這些,它會起作用,這不僅僅是不完全是我的做法。

如果伺服器尚未訂購,並且您可以影響其規格,我會嘗試做的一件事是擁有一組大而慢的資料磁碟(通常是多 TB 7.2krpm 3.5 吋磁碟),然後將一些 SSD 或用於資料庫和計算工作的10krpm 磁碟通常沒有意義,這也將是相當內存密集型的,不要吝惜這一點,而且您可能需要合理數量的CPU 核心,我想說每台伺服器至少需要12 個或更多才能完成所有這些工作。

不管怎樣,我希望這對你有幫助,看看 Cloudera 和 Ambari 的 Hadoop 環境,它們不是免費的,但可以幫你解決很多麻煩。

相關內容