こんにちは、中途入社1年目 松田です!
最近、AWS Glueや、Amazon Datazoneに関するAWS Updateが頻繁に登場していますね!
データ分析に興味がありつつも、サービスの種類が多く戸惑う方も多いと思います。
各サービスの役割や構成がイメージできていないと、AWS Updateによる恩恵を理解することができませんので、 今回の記事では、まずはざっくり全体像を把握しよう!ということを目的としております。
目次
- 目次
- こんな方向け
- AWS Datazoneとは?
- なぜこの記事を書こうと思ったか
- AWSデータ分析サービスの整理
- データ分析サービスの特徴
- これらのサービスを、どのように使い分ける?
- まとめ
- 参考記事 (Amazon DataZone)
- 参考資料 (AWS Glue、Amazon Redshift、Amazon SageMakerの概念)
こんな方向け
- AWSのデータ分析サービス(AWS Glue、AWS Redshift、Amazon SageMaker、AWS Datazone)の関係性を整理したい
- Datazoneのユースケースを把握したい
AWS Datazoneとは?
組織内においてデータを共有し活用したいものの、個別のセクションにおいてどのようなデータが管理されているかを把握することは容易ではありません。 他の部署でどんなデータが存在するか、把握しきれませんよね??(もちろん私もです!)
データを組織内で管理しようとすると、
- 個別のセクションでデータの管理方式を取り決めする
- データに対するアクセスルールを管理、運用する
- データを抽出するための手順を準備し共有する
といった手間暇がどうしても発生します。
AWS DataZoneは、これらの課題を解決するためのサービスです!
なぜこの記事を書こうと思ったか
Datazoneは2022年に事前発表され、2023年3月にプレビュー版が公開、2023年10月に一般公開されました。
とはいえ、これまで提供されているAWSデータ分析サービスとの違いがよくわからなかったので、今回整理してみました。
比較対象は、以下3つのデータ分析サービスとしています。
- AWS Glue
- AWS Redshift
- AWS SageMaker
AWSデータ分析サービスの整理
DataZoneは、以下3つの要素から構成されています。
- ドメインとして、プロジェクトや人を管理し、DataZoneから1つのポータルサイトが割り当てられます。(データを扱う組織全体のようなイメージ)
- プロジェクトとして、同じ仕事をする人と、そのためのデータを管理します。(部署やチームなどのイメージ)
- 環境として、データを登録、取得、分析などを行うためのツールおよびデータストレージを管理します。(データにアクセスする端末のようなイメージ)
データ利用者は意識することはありませんが、システム内部ではDataZoneがLakeFormationの仕組みを利用して、S3データストレージやIAM権限の管理を行う仕組みになっています。
データ分析サービスの特徴
DataZoneは、3種類(AWS Glue、Amazon Redshift、Amazon SageMaker)のAWSサービスを統合管理することができます。
簡単に、これら3つのサービスの特徴をお伝えしたいと思います。
AWS Glue
S3やRDSなどのストレージに格納されている実データに対して抽出、変換、ロード(ETL)を行い、自動的に列名、データ型の定義などのメタデータを構成し管理するサービスです。
Amazon Redshift
大規模データに対して、高速にデータ分析処理が可能となるサービスです。 ProvisionedとServerlessの2つの種類があり、 いずれも分析クエリに対して分散コンピューティングを行うことで高速に分析処理を行いますが、Serverlessの方はオートスケールかつ利用時のみの課金というメリットがあります。
Provisioned
Serverless
Amazon SageMaker
機械学習を実施するうえで必要なトレーニングデータの前処理や作成・機械学習(ML)モデルの構築・学習・学習モデルのデプロイといった、一連のプロセスを行うサービスです。
これらのサービスを、どのように使い分ける?
前述の構成を取れることは理解しましたが、今後ビジネスでデータ分析基盤を構築するとなった場合に、 各サービスの採用基準がわかっておりません。
次回以降の記事では、DataZoneとそれぞれのデータ分析サービスを連携させるにあたり、以下の観点で比較をしてみたいと思います!
- 環境構築の手軽さ検証
- 分析結果の加工検証
- 費用比較
まとめ
結構いろいろなサイトでDataZoneの構築手順は確認することができるのですが、
それぞれのサービスをどのような基準で採用するか、なかなか難しい点だと感じましたので、
引き続き調査を進めたいと思います。
参考記事 (Amazon DataZone)
- https://docs.aws.amazon.com/ja_jp/datazone/latest/userguide/datazone-concepts.html
- https://docs.aws.amazon.com/ja_jp/datazone/latest/userguide/quickstart-glue.html
- https://docs.aws.amazon.com/ja_jp/datazone/latest/userguide/quickstart-rs.html
- https://docs.aws.amazon.com/ja_jp/datazone/latest/userguide/quickstart-apis.html
参考資料 (AWS Glue、Amazon Redshift、Amazon SageMakerの概念)
- https://docs.aws.amazon.com/ja_jp/glue/latest/dg/components-key-concepts.html
- https://docs.aws.amazon.com/ja_jp/redshift/latest/gsg/getting-started.html
- https://pages.awscloud.com/rs/112-TZM-766/images/AWS-Black-Belt_2023_Amazon-Redshift-Overview_v1.pdf
- https://pages.awscloud.com/rs/112-TZM-766/images/2_Amazon%20SageMaker%20%E3%81%AE%E5%9F%BA%E7%A4%8E_SU_jireifes.pdf