%20para%20trabalhos%20spark.png)
No momento, estamos usando o EMR para facilitar o envio de trabalhos para nossos trabalhos spark. Recentemente me deparei com a solução "FSx luster + S3" que está sendo anunciada como ideal para situações de HPC. No entanto, o EMRFS também é otimizado para esse cenário específico, fazendo com que o S3 pareça um sistema de arquivos hadoop local.
Então, estou me perguntando: por que alguém escolheria um desses dois em termos de custo e desempenho?
Esta pergunta pode ser uma continuaçãoCustos do AWS S3 para quando o AWS EMR o utilizamas infelizmente não tenho reputação de postar um comentário lá.
Obrigado antecipadamente pela ajuda.
Responder1
AS Você está usando EMR para suas operações de computação e S3 para armazenamento.
O FSX, quando integrado ao s3, forneceria um alto rendimento em seus trabalhos devido ao seu alto IOPS... Isso seria realmente útil para seus cronogramas de execução.
https://www.youtube.com/watch?v=ZADHiZa3Hjo&list=WL&index=21&t=2752s
Mencionado acima é um dos melhores links do Reinvent