Apache Spark-Infrastruktur – Kombination von Rechen- und Speicherknoten

Question

Ich werde meine Frage selbst beantworten, da ich einige Quellen gefunden habe. Ich werde jedoch auch alle hochwertigen Antworten, die eingehen, als solche kennzeichnen, also können Sie gerne etwas beitragen. Kommentare zu meinen Gedanken sind hier ebenfalls mehr als willkommen.

DasDer Link enthält einige Informationen zur Bereitstellung von Hardware für Spark. Soweit ich weiß, können Sie Spark grundsätzlich als Anwendungsschicht in einem dreistufigen Stapel behandeln. Sie können also (zum Beispiel) Cassandra oder HBase auf Ihren Speicherknoten ausführen und Spark auf „Anwendungs“-Knoten mit stärkeren CPUs und Speicher, aber weniger verfügbarem Speicher belassen. 10-Gbit/s-Ethernet zwischen den Knoten scheint in diesen Anwendungsfällen wichtig zu sein.

Dies wirft vermutlich die Frage auf, wie man die Verarbeitung eines sehr großen Datensatzes bewerkstelligt, wenn man bedenkt, dass man für die Verarbeitung letztlich möglicherweise immer noch Daten aus einer Hbase-Datenbank streamt. Ich denke jedoch, dass es sich hier um eine Frage der Anwendungsarchitektur handelt und daher nicht in den Rahmen dieser Site fällt.

Answer 1

Ich werde meine Frage selbst beantworten, da ich einige Quellen gefunden habe. Ich werde jedoch auch alle hochwertigen Antworten, die eingehen, als solche kennzeichnen, also können Sie gerne etwas beitragen. Kommentare zu meinen Gedanken sind hier ebenfalls mehr als willkommen.

DasDer Link enthält einige Informationen zur Bereitstellung von Hardware für Spark. Soweit ich weiß, können Sie Spark grundsätzlich als Anwendungsschicht in einem dreistufigen Stapel behandeln. Sie können also (zum Beispiel) Cassandra oder HBase auf Ihren Speicherknoten ausführen und Spark auf „Anwendungs“-Knoten mit stärkeren CPUs und Speicher, aber weniger verfügbarem Speicher belassen. 10-Gbit/s-Ethernet zwischen den Knoten scheint in diesen Anwendungsfällen wichtig zu sein.

Dies wirft vermutlich die Frage auf, wie man die Verarbeitung eines sehr großen Datensatzes bewerkstelligt, wenn man bedenkt, dass man für die Verarbeitung letztlich möglicherweise immer noch Daten aus einer Hbase-Datenbank streamt. Ich denke jedoch, dass es sich hier um eine Frage der Anwendungsarchitektur handelt und daher nicht in den Rahmen dieser Site fällt.

Apache Spark-Infrastruktur – Kombination von Rechen- und Speicherknoten

Antwort1

verwandte Informationen