Amazon Redshift Spectrum を使用すると、Amazon S3 に保存されているデータに対して直接クエリを実行できます。これは、新しい Amazon S3 Select サービスの目的でもあるようです。これら 2 つのサービスの主な違いは何ですか? どちらか一方を選択する必要があるのはなぜですか?
答え1
S3 Select は、SQL を使用して S3 からデータを取得することに重点を置いています。
S3 Select を使用すると、アプリケーションは単純な SQL 式を使用してオブジェクトからデータのサブセットのみを取得できます。S3 Select を使用してアプリケーションに必要なデータのみを取得することで、パフォーマンスが大幅に向上します。多くの場合、従来の S3 取得と比較して 400% もの向上が得られます。
Redshift Spectrum を使用すると、AWS Redshift クラスターから直接 S3 データをクエリできます。
Amazon Redshift Spectrum を使用すると、Amazon S3 のエクサバイト単位のデータに対して Amazon Redshift SQL クエリを実行できます。Redshift Spectrum を使用すると、データウェアハウスのローカルディスクに保存されているデータを超えて、Amazon S3「データレイク」内の膨大な量の非構造化データをクエリするために Amazon Redshift の分析能力を拡張できます。
Athena は S3 からのデータの抽出、変換、ロード (ETL) に重点を置いており、AWS Glue との優れた統合を実現しています。
Athena は簡単に使用できます。Amazon S3 のデータを指定してスキーマを定義し、標準 SQL を使用してクエリを開始するだけです。ほとんどの結果は数秒以内に提供されます。Athena を使用すると、分析用にデータを準備するための複雑な ETL ジョブは必要ありません。これにより、SQL スキルを持つ人なら誰でも大規模なデータセットをすばやく簡単に分析できます。