こんにちは。AWS CLI が好きな福島です。
はじめに
今回は、 re:Invent 2024で発表のあった Amazon Kendra GenAI Index に関するブログを執筆します。
Amazon Kendra GenAI Index とは?
Amazon Kendra GenAI Index とは、生成 AI における RAG(retrieval augmented generation) に最適なインデックスとなります。
検索サービスである Amazon Kendra には今まで、Developer edition と Enterprise edition の2種類が存在しておりましたが、 新たなに GenAI edition が追加された形になります。
所感
- Amazon Kendra GenAI Index は、英語のみのサポートですが、日本語サポートされた際には AWS で RAG を構築する際に有力な選択肢になりそうと感じました。
- 理由は以下の3点です。
- ネイティブに連携できるデータソースの種類(43 種類)が多いこと
- ハイブリッド検索 (キーワードとベクター)、セマンティック埋め込み、再ランク付けモデルなどの最新の情報検索テクノロジーを搭載していること
- AWSの他のサービスより相対的にコストが安価(月額$230.4~(※))に始められること ※ 1ドル150円換算で34,560円になります。
- KnowledeBase + ベクトルデータベース(Aurora や OpenSearch Serverless など)に比べると、以下の点は気になるため今後のアップデートに期待です。
- データソース内の画像を解析する機能がない(KnowledeBase でいう Advanced Paring のような機能)
- データソースの同期時間
- 私が確認した際は、1ファイルだけ同期するために5分以上かかりました
利用可能なリージョン
米国東部 (バージニア北部) および米国西部 (オレゴン)
あえてサポートしていない日本語コンテンツで試してみる
AWS さんがブログを書いているため、作成方法などの詳細は以下をご確認いただければと思います。
まずは、 GenAI Edition のインデックスを作成します。
その後、S3 データソースとして追加します。
英語のコンテンツのみサポートですが、今回はあえて日本語のコンテンツである弊社の決算説明資料を入れてみます。
データの同期は6分で終わりました。
Serverworksの売上高を聞いてみたところ、一応正しい回答を得ることができました。
ちなみに Amazon Kendra GenAI Index と KnowledeBase を連携した場合、以下のメタデータが付与されるようです。 x-amz-kendra-score-confidence は検索結果の信頼度を表し VERY_HIGH, HIGH, MEDIUM, LOW, and NOT_AVAILABLE の4段階 + 1の表現があるようです。
もうちょっと資料入れようと思い、追加で AWS Black Belt Online Seminar 2024 の資料も追加しました。
https://pages.awscloud.com/rs/112-TZM-766/images/AWS-Black-Belt_2024_AWS-reInvent_1206_v1.pdf
以下に関する質問をしてみます。
日本語だけの質問として、「新たなスペシャライゼーションプログラムって何?」と聞きましたが、正しく回答(検索)できていそうです。
意外にも使えちゃうかも?と思いましたが安心して利用するため、日本語のサポートが待ち遠しいですね。
終わりに
今回は、Amazon Kendra GenAI Index について、ご紹介いたしました。 どなたかのお役に立てれば幸いです。