AWS DataZoneを使ってデータ分析基盤を理解しよう

記事タイトルとURLをコピーする

こんにちは、中途入社1年目 松田です!

最近、AWS Glueや、Amazon Datazoneに関するAWS Updateが頻繁に登場していますね!
データ分析に興味がありつつも、サービスの種類が多く戸惑う方も多いと思います。

各サービスの役割や構成がイメージできていないと、AWS Updateによる恩恵を理解することができませんので、 今回の記事では、まずはざっくり全体像を把握しよう!ということを目的としております。

目次

こんな方向け

  • AWSのデータ分析サービス(AWS Glue、AWS Redshift、Amazon SageMaker、AWS Datazone)の関係性を整理したい
  • Datazoneのユースケースを把握したい

AWS Datazoneとは?

aws.amazon.com

組織内においてデータを共有し活用したいものの、個別のセクションにおいてどのようなデータが管理されているかを把握することは容易ではありません。 他の部署でどんなデータが存在するか、把握しきれませんよね??(もちろん私もです!)

データを組織内で管理しようとすると、

  • 個別のセクションでデータの管理方式を取り決めする
  • データに対するアクセスルールを管理、運用する
  • データを抽出するための手順を準備し共有する

といった手間暇がどうしても発生します。

AWS DataZoneは、これらの課題を解決するためのサービスです!

なぜこの記事を書こうと思ったか

Datazoneは2022年に事前発表され、2023年3月にプレビュー版が公開、2023年10月に一般公開されました。
とはいえ、これまで提供されているAWSデータ分析サービスとの違いがよくわからなかったので、今回整理してみました。
比較対象は、以下3つのデータ分析サービスとしています。

  • AWS Glue
  • AWS Redshift
  • AWS SageMaker

AWSデータ分析サービスの整理

DataZoneは、以下3つの要素から構成されています。

  • ドメインとして、プロジェクトや人を管理し、DataZoneから1つのポータルサイトが割り当てられます。(データを扱う組織全体のようなイメージ)
  • プロジェクトとして、同じ仕事をする人と、そのためのデータを管理します。(部署やチームなどのイメージ)
  • 環境として、データを登録、取得、分析などを行うためのツールおよびデータストレージを管理します。(データにアクセスする端末のようなイメージ)

データ利用者は意識することはありませんが、システム内部ではDataZoneがLakeFormationの仕組みを利用して、S3データストレージやIAM権限の管理を行う仕組みになっています。

データ分析サービスの特徴

DataZoneは、3種類(AWS Glue、Amazon Redshift、Amazon SageMaker)のAWSサービスを統合管理することができます。

簡単に、これら3つのサービスの特徴をお伝えしたいと思います。

AWS Glue

S3やRDSなどのストレージに格納されている実データに対して抽出、変換、ロード(ETL)を行い、自動的に列名、データ型の定義などのメタデータを構成し管理するサービスです。

Amazon Redshift

大規模データに対して、高速にデータ分析処理が可能となるサービスです。 ProvisionedとServerlessの2つの種類があり、 いずれも分析クエリに対して分散コンピューティングを行うことで高速に分析処理を行いますが、Serverlessの方はオートスケールかつ利用時のみの課金というメリットがあります。

Provisioned

Serverless

Amazon SageMaker

機械学習を実施するうえで必要なトレーニングデータの前処理や作成・機械学習(ML)モデルの構築・学習・学習モデルのデプロイといった、一連のプロセスを行うサービスです。

これらのサービスを、どのように使い分ける?

前述の構成を取れることは理解しましたが、今後ビジネスでデータ分析基盤を構築するとなった場合に、 各サービスの採用基準がわかっておりません。

次回以降の記事では、DataZoneとそれぞれのデータ分析サービスを連携させるにあたり、以下の観点で比較をしてみたいと思います!

  • 環境構築の手軽さ検証
  • 分析結果の加工検証
  • 費用比較

まとめ

結構いろいろなサイトでDataZoneの構築手順は確認することができるのですが、
それぞれのサービスをどのような基準で採用するか、なかなか難しい点だと感じましたので、
引き続き調査を進めたいと思います。

参考記事 (Amazon DataZone)

参考資料 (AWS Glue、Amazon Redshift、Amazon SageMakerの概念)