AWS FSx para brilho com S3 vs EMR (com EMRFS) para trabalhos spark

AWS FSx para brilho com S3 vs EMR (com EMRFS) para trabalhos spark

No momento, estamos usando o EMR para facilitar o envio de trabalhos para nossos trabalhos spark. Recentemente me deparei com a solução "FSx luster + S3" que está sendo anunciada como ideal para situações de HPC. No entanto, o EMRFS também é otimizado para esse cenário específico, fazendo com que o S3 pareça um sistema de arquivos hadoop local.

Então, estou me perguntando: por que alguém escolheria um desses dois em termos de custo e desempenho?

Esta pergunta pode ser uma continuaçãoCustos do AWS S3 para quando o AWS EMR o utilizamas infelizmente não tenho reputação de postar um comentário lá.

Obrigado antecipadamente pela ajuda.

Responder1

AS Você está usando EMR para suas operações de computação e S3 para armazenamento.

O FSX, quando integrado ao s3, forneceria um alto rendimento em seus trabalhos devido ao seu alto IOPS... Isso seria realmente útil para seus cronogramas de execução.

https://www.youtube.com/watch?v=ZADHiZa3Hjo&list=WL&index=21&t=2752s

Mencionado acima é um dos melhores links do Reinvent

informação relacionada