저는 아주 새로운 시스템 관리자('16학번)이며 3개의 베어 메탈 PowerEdge 서버로 빅 데이터 클러스터를 생성하라는 요청을 받았습니다. 클러스터에 다음 요청을 넣어야 합니다.
*Hadoop2 *YARN *Java 7&8 *Spark *SBT *Maven *Scala *P7zip *Pig *Hive *R(Spark 및 Hadoop용 라이브러리) *Zeppelin *Cassandra
나는 빅 데이터에 대해 거의 알지 못하고 검색 결과 "x AND y"보다는 "x VS y" 페이지가 많이 나오기 때문에 이것들이 모두 '함께 잘 작동'할 수 있는지 알고 싶습니다. 그리고 선호하는 업계 표준이 있나요?
귀하의 조언에 미리 감사드립니다!
답변1
확실히 해당 서버에 공존할 수는 있지만 일반적으로 한 종류의 서버를 사용하여 실제 데이터를 보관하고 다른 종류의 서버를 사용하여 계산량이 많은 작업을 수행합니다. 동일한 서버에서 Cassandra DB를 실행하는 것도 약간 비표준이지만 다시 이 모든 작업을 수행할 수 있습니다. 작동할 것입니다. 정확히 제가 수행하는 방식은 아닙니다.
서버가 아직 주문되지 않았고 사양에 영향을 미칠 수 있는 경우 제가 시도할 한 가지는 크고 느린 데이터용 디스크(일반적으로 다중 TB 7.2krpm 3.5" 디스크)와 SSD 또는 일부를 확보하는 것입니다. DB 및 컴퓨팅 작업을 위한 10krpm 디스크. 한 가지 유형의 디스크에서 전체 작업을 실행하는 것은 종종 의미가 없습니다. 이는 메모리 집약적이므로 인색하지 마십시오. 또한 적절한 수의 CPU 코어가 필요할 수도 있습니다. 이 모든 작업을 위해서는 서버당 12개 이상이 필요하다고 말하고 싶습니다.
어쨌든, 이것이 도움이 되기를 바라며 Cloudera와 Ambari의 Hadoop 환경을 살펴보겠습니다. 그들은 무료는 아니지만 많은 골치 아픈 일을 덜어줄 수 있습니다.