Apache Spark 인프라 - 컴퓨팅 및 스토리지 노드 결합

Question

나는 몇 가지 리소스를 찾았으므로 내 질문에 답할 것입니다. 그러나 답변으로 제공되는 품질 답변도 표시할 것이므로 자유롭게 기여해 주시기 바랍니다. 여기에 내 생각에 대한 의견도 환영합니다.

이것링크에는 Spark용 하드웨어 프로비저닝에 대한 정보가 있으며, 제가 이해한 바로는 기본적으로 Spark를 3계층 스택의 애플리케이션 계층으로 취급할 수 있습니다. 따라서 예를 들어 스토리지 노드에서 Cassandra 또는 HBase를 실행하고 CPU와 메모리는 더 강력하지만 사용 가능한 스토리지는 적은 "애플리케이션" 노드에 Spark를 유지할 수 있습니다. 노드 사이의 10Gbps 이더넷은 이러한 사용 사례에서 중요할 것 같습니다.

처리를 수행하기 위해 궁극적으로 Hbase 데이터베이스에서 데이터를 스트리밍할 수 있다는 점을 고려하면 매우 큰 데이터 세트를 처리하는 방법에 대한 질문이 제기된다고 생각합니다. 그러나 이는 결국 애플리케이션 아키텍처로 귀결될 것이라고 생각합니다. 이 사이트의 범위를 벗어납니다.

Answer 1

나는 몇 가지 리소스를 찾았으므로 내 질문에 답할 것입니다. 그러나 답변으로 제공되는 품질 답변도 표시할 것이므로 자유롭게 기여해 주시기 바랍니다. 여기에 내 생각에 대한 의견도 환영합니다.

이것링크에는 Spark용 하드웨어 프로비저닝에 대한 정보가 있으며, 제가 이해한 바로는 기본적으로 Spark를 3계층 스택의 애플리케이션 계층으로 취급할 수 있습니다. 따라서 예를 들어 스토리지 노드에서 Cassandra 또는 HBase를 실행하고 CPU와 메모리는 더 강력하지만 사용 가능한 스토리지는 적은 "애플리케이션" 노드에 Spark를 유지할 수 있습니다. 노드 사이의 10Gbps 이더넷은 이러한 사용 사례에서 중요할 것 같습니다.

처리를 수행하기 위해 궁극적으로 Hbase 데이터베이스에서 데이터를 스트리밍할 수 있다는 점을 고려하면 매우 큰 데이터 세트를 처리하는 방법에 대한 질문이 제기된다고 생각합니다. 그러나 이는 결국 애플리케이션 아키텍처로 귀결될 것이라고 생각합니다. 이 사이트의 범위를 벗어납니다.

Apache Spark 인프라 - 컴퓨팅 및 스토리지 노드 결합

답변1

관련 정보