S3 を使用した AWS FSx for Lustre と Spark ジョブ用の EMR (EMRFS を使用) の比較

S3 を使用した AWS FSx for Lustre と Spark ジョブ用の EMR (EMRFS を使用) の比較

現在、Spark ジョブのジョブ送信を簡単にするために EMR を使用しています。最近、HPC 状況に最適であると宣伝されている「FSx lustre + S3」ソリューションに出会いました。ただし、EMRFS もこの特定のシナリオに最適化されており、S3 をローカルの Hadoop ファイルシステムのように見せていると言われています。

そこで疑問に思うのですが、コストとパフォーマンスの観点から、なぜこの 2 つのうちどちらかを選択するのでしょうか?

この質問は、AWS EMR が AWS S3 を使用する場合のコストしかし残念ながら、私はそこにコメントを投稿するほどの評判を持っていません。

ご協力ありがとうございます。

答え1

コンピューティング操作には EMR を使用し、ストレージには S3 を使用しています。

FSX を s3 に統合すると、IOPS が高いため、ジョブのスループットが高くなります。これは、実行タイムラインにとって確かに役立ちます。ただし、この場合もコストが高くなります。

https://www.youtube.com/watch?v=ZADHiZa3Hjo&list=WL&index=21&t=2752s

上記は、最も優れたReinventリンクの1つです

関連情報