%20%E3%81%AE%E6%AF%94%E8%BC%83.png)
現在、Spark ジョブのジョブ送信を簡単にするために EMR を使用しています。最近、HPC 状況に最適であると宣伝されている「FSx lustre + S3」ソリューションに出会いました。ただし、EMRFS もこの特定のシナリオに最適化されており、S3 をローカルの Hadoop ファイルシステムのように見せていると言われています。
そこで疑問に思うのですが、コストとパフォーマンスの観点から、なぜこの 2 つのうちどちらかを選択するのでしょうか?
この質問は、AWS EMR が AWS S3 を使用する場合のコストしかし残念ながら、私はそこにコメントを投稿するほどの評判を持っていません。
ご協力ありがとうございます。
答え1
コンピューティング操作には EMR を使用し、ストレージには S3 を使用しています。
FSX を s3 に統合すると、IOPS が高いため、ジョブのスループットが高くなります。これは、実行タイムラインにとって確かに役立ちます。ただし、この場合もコストが高くなります。
https://www.youtube.com/watch?v=ZADHiZa3Hjo&list=WL&index=21&t=2752s
上記は、最も優れたReinventリンクの1つです