AWS FSx для Lustre с S3 против EMR (с EMRFS) для заданий Spark

AWS FSx для Lustre с S3 против EMR (с EMRFS) для заданий Spark

В настоящее время мы используем EMR для легкой отправки заданий для наших заданий Spark. Недавно я наткнулся на решение "FSx lustre + S3", которое рекламируется как идеальное для ситуаций HPC. Однако EMRFS также считается оптимизированным для этого конкретного сценария, делая S3 похожим на локальную файловую систему hadoop.

Поэтому мне интересно, почему кто-то выбирает один из этих двух вариантов с точки зрения стоимости и производительности?

Этот вопрос может быть продолжениемРасходы AWS S3 при использовании AWS EMRно, к сожалению, у меня нет репутации, чтобы разместить там комментарий.

Заранее спасибо за помощь.

решение1

AS Вы используете EMR для вычислительных операций и S3 для хранения.

Интеграция FSX с s3 обеспечит высокую пропускную способность ваших задач благодаря высокому показателю IOPS... Это действительно будет полезно для сроков выполнения... Но, опять же, это повлечет за собой более высокие затраты.

https://www.youtube.com/watch?v=ZADHiZa3Hjo&list=WL&index=21&t=2752s

Выше упомянута одна из лучших ссылок Reinvent

Связанный контент