%20%D0%B4%D0%BB%D1%8F%20%D0%B7%D0%B0%D0%B4%D0%B0%D0%BD%D0%B8%D0%B9%20Spark.png)
В настоящее время мы используем EMR для легкой отправки заданий для наших заданий Spark. Недавно я наткнулся на решение "FSx lustre + S3", которое рекламируется как идеальное для ситуаций HPC. Однако EMRFS также считается оптимизированным для этого конкретного сценария, делая S3 похожим на локальную файловую систему hadoop.
Поэтому мне интересно, почему кто-то выбирает один из этих двух вариантов с точки зрения стоимости и производительности?
Этот вопрос может быть продолжениемРасходы AWS S3 при использовании AWS EMRно, к сожалению, у меня нет репутации, чтобы разместить там комментарий.
Заранее спасибо за помощь.
решение1
AS Вы используете EMR для вычислительных операций и S3 для хранения.
Интеграция FSX с s3 обеспечит высокую пропускную способность ваших задач благодаря высокому показателю IOPS... Это действительно будет полезно для сроков выполнения... Но, опять же, это повлечет за собой более высокие затраты.
https://www.youtube.com/watch?v=ZADHiZa3Hjo&list=WL&index=21&t=2752s
Выше упомянута одна из лучших ссылок Reinvent