本稿は、AWS re:Invent 2024 にて新サービスアナウンス後の Breakout Session の共有致します。
実は AWS re:Invent 2024 Day1 から口の周りが荒れてて痛い。
内村でございます。
Day2 Keynote にて、新サービス・新機能が数多くアナウンスされました。
そのうちの一つ、Amazon S3 Metadata の Breakout Session に参加してきましたので、共有致します。
受講セッション
このページでは本日受講してきた、こちらの Breakout Session を共有致します。
STG366-NEW | [NEW LAUNCH] Unlock the power of your data with Amazon S3 Metadata
Breakout Session とはいわゆる座学です。
登壇者が聴講者向けにお伝えする形式となります。
Amazon S3 Tables と Metadata
2024年12月3日火曜の Matt Garman 氏の Keynote で発表された新サービスは、「Amazon S3 Tables」になります。 こちらはすでに GA されている状態です。
一方、このセッションでご説明された新サービスは「Amazon S3 Metadata」になります。 こちらは preview の状態です。
少し分解してみます。
Amazon S3 Tables
Up to 3x faster query performance and up to 10x higher transactions per second for Apache Icdberg tables
AWS re:Invent 2024, Matt Garman 氏の Keynote より抜粋
Amazon S3 Tables とは、Apache Iceberg のテーブルをサポートする、オブジェクトストレージです。
そして、Apache Iceberg とは?
Apache Spark、Apache Flink、Apache Hive、Presto などのデータ処理フレームワークと統合できるデータテーブル形式です。
一般的にデータ処理基盤で利用されます。
AWS の公式サイトでは、2023年4月ごろから以下のページが公開されています。 aws.amazon.com
Apache Iceberg を利用する際には一般的に、Amazon EC2 などのコンピューティングサービスを構築、利用者がプロビジョニングを行う必要がありました。
しかし今回のリリースで、Apache Iceberg をマネージドなクラウドサービスとして利用することができるようになりました。
今まで AWS で Apache Iceberg をご自身で構築されていた方は、移行ご検討をされてみてはいかがでしょうか。
Amazon S3 Metadata
一方 Amazon S3 Metadata は、S3 バケットに保管するオブジェクトに、メタデータを付与し、検索性の向上が期待できるサービスです。
ユースケースとしては、データ分析、生成 AI のデータとしてが検討に上がります。
当セッションでは、S3 Metadata Tables として紹介されました。
使い方はいたってシンプルです。
ご利用の S3 バケットの設定で S3 Metadata Tables で有効化し、S3 バケットにオブジェクトをアップロードします。
別途 テーブルバケットができますので、そちらに対してクエリーを実行できる流れになります。
参照できるメタデータは豊富で、写真の一覧が参照できます。
テーブルをクエリーできますので、一般的に論じられるデータ分析(収集・加工・保存)ができます。
更に S3 バケットに格納する、すなわちデータが大量に保存されるデータレイクに対して検索ができますため、生成 AI の参照データ元としても活用に期待できます。
その後はデモンストレーションをご紹介されました。
後日 YouTube に公開されるかと思いますので、ご参照ください。
追記
YouTube でセッション内容が公開されました。
デモンストレーションは、13:45 あたりから開始されます。
価格
2024年12月7日土曜現在、英語版の公式ページで Amazon S3 Tables の価格が公開されています。
aws.amazon.com
ただし現時点で利用できるリージョンは以下に限られています。
利用を検討される場合は、リージョンにご注意ください。
- US East (N. Virginia)
- US East (Ohio)
- US West (Oregon)
まとめ
Amazon S3 、そしてそれに対して Apache Iceberg を利用されている場合は、伸長性、可用性の観点からもマイグレーション検討の俎上にあがるサービスになるかと思われます。
Amazon S3 Tables はすでに GA されていますので、お試しになれれることをおすすめします。
内村 和博 (Kazuhiro Uchimura) エンジニアブログの記事一覧
EC サイトなど提供する企業で18年 Web インフラで従事。
2020年からサーバーワークスにJoin。
アプリケーションサービス部所属。
技術営業、プロジェクトマネージャーなどに従事。
生まれも育ちも福岡。
好きなAWSサービスは、AWS IoT Core, AWS Glue, Amazon Athena。
好きなふくやの明太子は、あえもの明太子「いか」。