Spark 작업을 위한 S3 및 EMR(EMRFS 포함)을 사용하는 광택을 위한 AWS FSx

Spark 작업을 위한 S3 및 EMR(EMRFS 포함)을 사용하는 광택을 위한 AWS FSx

우리는 현재 Spark 작업에 대한 쉬운 작업 제출을 위해 EMR을 사용하고 있습니다. 최근에 저는 HPC 상황에 이상적이라고 광고되는 "FSx Luster + S3" 솔루션을 발견했습니다. 그러나 EMRFS는 이 특정 시나리오에 최적화되어 S3를 로컬 hadoop 파일 시스템처럼 보이게 만든다고 합니다.

그렇다면 비용과 성능 측면에서 왜 이 2가지 중 하나를 선택하는지 궁금합니다.

이 질문은 후속 조치가 될 수 있습니다.AWS EMR이 사용하는 경우의 AWS S3 비용하지만 불행하게도 나는 거기에 댓글을 달 만큼 평판이 좋지 않습니다.

도움을 주셔서 미리 감사드립니다.

답변1

AS 컴퓨팅 작업에는 EMR을 사용하고 스토리지에는 S3를 사용하고 있습니다.

FSX를 s3에 통합하면 높은 IOPS로 인해 작업에서 높은 처리량을 제공할 것입니다. 이는 실제로 실행 일정에 도움이 될 것입니다. 그러나 다시 말하면 더 높은 비용이 발생합니다.

https://www.youtube.com/watch?v=ZADHiZa3Hjo&list=WL&index=21&t=2752s

위에서 언급한 것은 최고의 Reinvent 링크 중 하나입니다.

관련 정보