zero-ETL関連アップデートまとめ(2023/12/7時点)

記事タイトルとURLをコピーする

こんにちは。アプリケーションサービス部の柳田です。
先日開催された AWS re:Invent 2023 では『zero-ETL』と名の付くアップデートが印象的でした。
そこで現時点(2023/12/7)で発表されている zero-ETL 関連のアップデートについて整理してみようと思います。

zero-ETL とは

zero-ETL の前に ETL とは何かをまず振り返ります。
ETL は、Extract(抽出)Transform(変換)Load(格納)の頭文字をとったもので、様々なデータソースからのデータを抽出および加工してデータレイクやデータウェアハウスに格納する一連のプロセスを指します。データレイクやデータウェアハウスに格納されたデータは可視化、分析、機械学習に活用されます。
AWS 上で ETL を実現する際には AWS Glue を利用することが多いですが、開発やその後の運用にどうしてもコストがかかってしまいます。
例えば、開発を行うとETL処理の実装だけでなく、適切なログの出力やエラー処理、処理終了やエラー発生時の通知設定等を検討する必要があります。また運用ではエラー時の対応をしたり、データ量が増えて処理時間がかかってきた場合の対応を行う等の必要が出てきます。

ここで本題に入りますが、zero-ETL はユーザー側での ETL パイプラインの構築なしに(もしくは最小限で)データの移動や参照ができるものと認識しています。
zero-ETL の機能で実現できない要件がある場合は Glue 等のサービスを利用し、そうでない場合は zero-ETL を活用することでデータ連携にかかる労力を省力化していければと考えています。

aws.amazon.com

aws.amazon.com

zero-ETL 関連アップデートまとめ(AWSサービス別)

AWS re:Invent 2023 で発表されたものを中心に AWS サービス別に zero-ETL 機能をまとめてみました。
※ [プレビュー] と記載しているものは、現時点(2023/12/7)でプレビュー段階の機能です。

Amazon Redshift

AWS の各種データベースサービス

以下のデータベースサービスとの zero-ETL が発表されています。

これまでは AWS Glue や AWS Database Migration Service (DMS) を利用して各種 DB のデータ取り込みをしていたと思いますが、ユーザー側でそれらのサービスなしでデータ連携を実現できるのはとても便利だと思います。

こちらのブログを見るに、 RDBのトランザクションログを利用してニアリアルタイムで Redshift に連携する仕組みのようです。 DMS でも同様のことは実現できますが、より簡単に設定できるのは嬉しいですね。

その他

zero-ETL と明示されていないですが、以下もサービス間のデータ統合を楽にしてくれる機能です。

OpenSearch Service

Amazon OpenSearch Ingestion

Amazon OpenSearch Ingestion は様々なデータソースと OpenSearch Service 間でデータを同期できるパイプラインを構築する機能です。 直近では、OpenSearch Ingestion を利用した DynamoDB との zero-ETL が発表されました。

aws.amazon.com aws.amazon.com

S3への直接クエリ [プレビュー]

OpenSearch Service へのデータロードなしに S3 のデータに対して直接クエリできるようになりました。 クエリ実行時に消費したコンピューティングリソースに応じた従量課金の料金体系です。 頻繁にクエリされないデータを S3 に置いてクエリするといった用途で使用できます。

aws.amazon.com aws.amazon.com

CloudTrail

CloudTrail Lake のデータを Athena からクエリ

Athena でクエリ出来るようになったことで QuickSight 等で可視化できるようになったのは嬉しいポイントだと思います。

aws.amazon.com

Amazon Connect

コンタクトセンターのデータにアクセスするための zero-ETL データレイク [プレビュー]

ユーザー側で複雑なデータパイプラインの構築や管理なしに、レコードの重複排除がなされた状態のデータにクエリができるようになるみたいです。コールセンターの各種メトリクスを Amazon Connect のダッシュボードだけでなく、ユーザー任意の BI ツールで確認できるようになります。

aws.amazon.com

おわりに

AWS re:Invent 2022 や AWS Summit Tokyo 2023 で zero-ETL を目指すといった旨のことを発表しており、その通りに様々なアップデートが出てきたな~と思いました。 ゼロETL、Zero ETL 等の様々な表記があり、どれにするか数秒悩みましたが、直近のアップデートでは zero-ETL で統一されているように見えたので、zero-ETL にしました。