Apache Spark 基礎架構 - 結合運算與儲存節點

Question

我將回答我自己的問題，因為我已經找到了一些資源，但是我也會標記任何高品質的答案，這些答案也將作為答案，所以請隨意貢獻。也非常歡迎對我的想法發表評論。

這連結有一些關於為 Spark 配置硬體的信息，據我所知，您基本上可以將 Spark 視為三層堆疊中的應用程式層。因此，您可以在儲存節點上執行（例如）Cassandra 或 HBase，並將 Spark 保留在具有更強 CPU 和記憶體但可用儲存較少的「應用程式」節點上。節點之間的 10 Gbps 乙太網路聽起來在這些用例中很重要。

我想這提出了一個問題，即考慮到您最終可能仍然從 Hbase 資料庫中串流傳輸資料來進行處理，如何對非常大的資料集進行處理，但我認為這可以歸結為應用程式架構，因此它將不屬於本網站的範圍。

Answer 1

我將回答我自己的問題，因為我已經找到了一些資源，但是我也會標記任何高品質的答案，這些答案也將作為答案，所以請隨意貢獻。也非常歡迎對我的想法發表評論。

這連結有一些關於為 Spark 配置硬體的信息，據我所知，您基本上可以將 Spark 視為三層堆疊中的應用程式層。因此，您可以在儲存節點上執行（例如）Cassandra 或 HBase，並將 Spark 保留在具有更強 CPU 和記憶體但可用儲存較少的「應用程式」節點上。節點之間的 10 Gbps 乙太網路聽起來在這些用例中很重要。

我想這提出了一個問題，即考慮到您最終可能仍然從 Hbase 資料庫中串流傳輸資料來進行處理，如何對非常大的資料集進行處理，但我認為這可以歸結為應用程式架構，因此它將不屬於本網站的範圍。

Apache Spark 基礎架構 - 結合運算與儲存節點

答案1

相關內容