AWS FSx für Lustre mit S3 vs. EMR (mit EMRFS) für Spark-Jobs

AWS FSx für Lustre mit S3 vs. EMR (mit EMRFS) für Spark-Jobs

Wir verwenden derzeit EMR für die einfache Auftragsübermittlung unserer Spark-Jobs. Kürzlich bin ich auf die Lösung „FSx Lustre + S3“ gestoßen, die als ideal für HPC-Situationen beworben wird. EMRFS soll jedoch auch für dieses spezielle Szenario optimiert sein, wodurch S3 wie ein lokales Hadoop-Dateisystem aussieht.

Daher frage ich mich, warum sich jemand im Hinblick auf Kosten und Leistung für einen dieser beiden entscheiden würde?

Diese Frage könnte eine Fortsetzung sein zuAWS S3-Kosten bei Nutzung durch AWS EMRaber leider habe ich nicht den Ruf, dort einen Kommentar zu hinterlassen.

Vielen Dank im Voraus für die Hilfe.

Antwort1

AS: Sie verwenden EMR für Ihre Rechenvorgänge und S3 zur Speicherung.

Bei einer Integration mit S3 würde FSX aufgrund seiner hohen IOPS einen hohen Durchsatz für Ihre Jobs bieten. Dies wäre in der Tat hilfreich für Ihre Ausführungszeitpläne, würde aber wiederum höhere Kosten verursachen.

https://www.youtube.com/watch?v=ZADHiZa3Hjo&list=WL&index=21&t=2752s

Oben erwähnt ist einer der besten Reinvent Link

verwandte Informationen