ベアメタルからビッグデータまで: これらすべてを同じクラスター上で一緒に動作させることはできますか?

ベアメタルからビッグデータまで: これらすべてを同じクラスター上で一緒に動作させることはできますか?

私は非常に新米のシステム管理者 (2016 年卒業) ですが、3 台のベアメタル PowerEdge サーバーでビッグ データ クラスターを作成するように依頼されました。クラスターに配置する要求は次のとおりです。

*Hadoop2 *YARN *Java 7&8 *Spark *SBT *Maven *Scala *P7zip *Pig *Hive *R (SparkおよびHadoop用ライブラリ) *Zeppelin *Cassandra

ビッグ データについてはほとんど知識がなく、検索すると「x AND y」ではなく「x VS y」のページが多数表示されるため、これらすべてが「うまく連携」できるかどうかを知りたいです。また、推奨される業界標準はありますか?

アドバイスをよろしくお願いします!

答え1

確かに、それらのサーバー上で共存することは可能ですが、通常は、実際のデータを保持するために 1 種類のサーバーを使用し、計算負荷の高い作業を行うために別のサーバーを使用します。また、同じサーバー上で Cassandra DB を実行することも少し非標準ですが、繰り返しになりますが、これらすべてを実行でき、機能します。これは、私が実行する方法とまったく同じというわけではありません。

サーバーがまだ注文されておらず、仕様に影響を与えることができる場合、私が試す 1 つの方法は、データ用に大容量の低速ディスク (通常は数 TB の 7.2krpm 3.5 インチ ディスク) を用意し、DB とコンピューティング作業用に SSD または 10krpm ディスクを用意することです。すべてを 1 種類のディスクで実行することは、多くの場合意味がありません。また、これはメモリを大量に消費するため、メモリを節約しないでください。また、このすべての作業を行うには、適切な数の CPU コア (少なくともサーバーあたり 12 個以上) が必要になるでしょう。

とにかく、これがお役に立てば幸いです。Hadoop 環境については、Cloudera と Ambari の両方を検討してください。無料ではありませんが、多くの悩みを解消できます。

関連情報