Apache Spark インフラストラクチャ - コンピューティングノードとストレージノードを組み合わせる

Question

いくつかのリソースを見つけたので、自分の質問に自分で答えるつもりですが、寄せられた質の高い回答も回答としてマークしますので、遠慮なくご協力ください。私の考えに対するコメントも大歓迎です。

これリンクには Spark 用のハードウェアのプロビジョニングに関する情報がいくつかあり、私が理解している限りでは、基本的に Spark を 3 層スタックのアプリケーション層として扱うことができます。つまり、(たとえば) Cassandra または HBase をストレージノードで実行し、Spark を CPU とメモリがより強力で、使用可能なストレージが少ない「アプリケーション」ノードに保持することができます。ノード間の 10 Gbps イーサネットは、これらのユースケースでは重要になると思われます。

最終的には Hbase データベースからデータをストリーミングして処理する可能性があることを考慮すると、非常に大規模なデータセットをどのように処理するかという疑問が生じると思いますが、これは結局のところアプリケーションアーキテクチャの問題であるため、このサイトの範囲外になります。

Answer 1

いくつかのリソースを見つけたので、自分の質問に自分で答えるつもりですが、寄せられた質の高い回答も回答としてマークしますので、遠慮なくご協力ください。私の考えに対するコメントも大歓迎です。

これリンクには Spark 用のハードウェアのプロビジョニングに関する情報がいくつかあり、私が理解している限りでは、基本的に Spark を 3 層スタックのアプリケーション層として扱うことができます。つまり、(たとえば) Cassandra または HBase をストレージノードで実行し、Spark を CPU とメモリがより強力で、使用可能なストレージが少ない「アプリケーション」ノードに保持することができます。ノード間の 10 Gbps イーサネットは、これらのユースケースでは重要になると思われます。

最終的には Hbase データベースからデータをストリーミングして処理する可能性があることを考慮すると、非常に大規模なデータセットをどのように処理するかという疑問が生じると思いますが、これは結局のところアプリケーションアーキテクチャの問題であるため、このサイトの範囲外になります。

Apache Spark インフラストラクチャ - コンピューティングノードとストレージノードを組み合わせる

答え1

関連情報