Инфраструктура Apache Spark — объединение вычислительных узлов и узлов хранения

Question

Я собираюсь ответить на свой собственный вопрос, поскольку я нашел некоторые ресурсы, однако я также отмечу любые качественные ответы, которые придут, как ответы, так что не стесняйтесь вносить свой вклад. Комментарии по моим мыслям здесь также более чем приветствуются.

Этотссылка содержит некоторую информацию о предоставлении оборудования для Spark, и насколько я понимаю, вы можете в основном рассматривать Spark как уровень приложения в трехуровневом стеке. Таким образом, вы можете запустить (например) Cassandra или HBase на своих узлах хранения и оставить Spark на узлах «приложения» с более мощными процессорами и памятью, но меньшим объемом доступного хранилища. Ethernet 10 Гбит/с между узлами, похоже, будет важен в этих вариантах использования.

Полагаю, это поднимает вопрос о том, как выполнять обработку очень большого набора данных, учитывая, что в конечном итоге вам все равно придется передавать данные из базы данных Hbase для выполнения обработки, но я думаю, что это сводится к архитектуре приложения, поэтому это выходит за рамки этого сайта.

Answer 1

Я собираюсь ответить на свой собственный вопрос, поскольку я нашел некоторые ресурсы, однако я также отмечу любые качественные ответы, которые придут, как ответы, так что не стесняйтесь вносить свой вклад. Комментарии по моим мыслям здесь также более чем приветствуются.

Этотссылка содержит некоторую информацию о предоставлении оборудования для Spark, и насколько я понимаю, вы можете в основном рассматривать Spark как уровень приложения в трехуровневом стеке. Таким образом, вы можете запустить (например) Cassandra или HBase на своих узлах хранения и оставить Spark на узлах «приложения» с более мощными процессорами и памятью, но меньшим объемом доступного хранилища. Ethernet 10 Гбит/с между узлами, похоже, будет важен в этих вариантах использования.

Полагаю, это поднимает вопрос о том, как выполнять обработку очень большого набора данных, учитывая, что в конечном итоге вам все равно придется передавать данные из базы данных Hbase для выполнения обработки, но я думаю, что это сводится к архитектуре приложения, поэтому это выходит за рамки этого сайта.

Инфраструктура Apache Spark — объединение вычислительных узлов и узлов хранения

решение1

Связанный контент