【Amazon Bedrock】新たな基盤モデルである Amazon Nova について

AWS re:Invent 2024

記事タイトルとURLをコピーする

こんにちは。AWS CLI が好きな福島です。

はじめに
追加された基盤モデル
追加予定の基盤モデル
所感
利用できるリージョン
対応可能な入出力
利用料
ベンチマーク結果
- Text intelligence
Visual intelligence
Agentic workflows
コンテキストウィンドウ
終わりに
- Amazon Nova Canvas
- Amazon Nova Reel

はじめに

本日は、AWS re:Invent 2024 にてリリースされた Amazon Bedrock から利用できる新たな基盤モデルである Amazon Nova について記事を執筆します。

追加された基盤モデル

追加された基盤モデルは以下の通りです。

テキスト生成モデル
- Amazon Nova Micro
- Amazon Nova Lite
- Amazon Nova Pro
画像生成モデル
- Amazon Nova Canvas
動画生成モデル
- Amazon Nova Reel

追加予定の基盤モデル

テキスト生成モデル
- Amazon Nova Premier(テキスト生成の最上位モデル)
音声生成モデル
- Amazon Nova Sppech-to-Sppech
次世代のマルチモーダルモデル(※)
- Amazon Nova Any-to-Any

※ 便宜上、名前をつけたのですが、正式な名前ではありません。テキスト、音声、画像、動画の入力と出力が可能なモデルのようです。今後は、 Amazon Nova Any-to-Any のようなモデルが一般的になるのかもしれないと思うと、生成 AI の進化は凄まじいですね。

Keynoteでの紹介

所感

現在、Amazon Bedrock で利用するテキスト生成モデルとしては Anthropic の Claude 3.5 Sonnet v2 が最有力だと思いますが、 Amazon Nova Pro も以下の点から同様に注目すべきモデルになると感じました。（料金はClaude 3.5 Hiku、性能はClaude 3.5 Sonnetのイメージです）
- Amazon Nova Pro は、ベンチマークの結果、Anthropic の Claude 3.5 Sonnect v2 には劣るものの、同等の性能が記録されている
- Amazon Nova Pro は、Anthropic の Claude 3.5 Sonnect v2 よりコストは約21% 〜 26%安価
Amazon Nova Pro より高性能なモデルである Amazon Nova Premier のリリースは期待
画像生成モデルである Amazon Nova Canvas は、既存で利用できた Stability AI のモデルと価格はほぼ同等のため、生成される画像の品質に注目です。
Amazon Nova Reel は、Amazon Bedrock で初めて利用できるようになった動画生成モデルのため、注目です。

利用できるリージョン

米国東部 (バージニア北部) リージョン
- 全てのモデルが利用可能
米国西部 (オレゴン) および米国東部 (オハイオ) リージョン
- テキスト生成モデルのみ利用可能

対応可能な入出力

それぞれのモデルが対応している入力と出力は以下の通りです。

テキスト生成モデルの Amazon Nova Lite, Pro は、(Amazon Bedrock のモデルの中で初となる)入力に動画を扱えるようです。
動画生成モデルである Amazon Nova Reel は、テキストだけでは画像も扱えるようです。

Model	Input1	Input2	Input3	Output1
amazon.nova-micro-v1:0	TEXT	None	None	TEXT
amazon.nova-lite-v1:0	TEXT	IMAGE	VIDEO	TEXT
amazon.nova-pro-v1:0	TEXT	IMAGE	VIDEO	TEXT
amazon.nova-canvas-v1:0	TEXT	IMAGE	None	IMAGE
amazon.nova-reel-v1:0	TEXT	IMAGE	None	VIDEO

引用：https://assets.amazon.science/b0/2b/e74dd4f84f188701fd06792670e7/the-amazon-nova-family-of-models-technical-report-and-model-card.pdf

利用料

テキスト生成モデル

Amazon Nova モデル	1,000入力トークンあたりの価格	1,000出力トークンあたりの価格
Amazon Nova Micro	$0.000035	$0.00014
Amazon Nova Lite	$0.00006	$0.00024
Amazon Nova Pro	$0.0008	$0.0032

参考として、Anthropic のモデルの利用料は以下の通りです。

Claude モデル	1,000入力トークンあたりの価格	1,000出力トークンあたりの価格
Claude 3.5 Haiku	$0.0008	$0.004
Claude 3.5 Sonnet v1/v2	$0.003	$0.015

画像生成モデル

Amazon Nova モデル	画像解像度	標準品質で生成された画像1枚あたりの価格	プレミアム品質で生成された画像1枚あたりの価格
Amazon Nova Canvas	最大1024 x 1024	0.04ドル	0.06ドル
Amazon Nova Canvas	最大2048 x 2048	0.06ドル	0.08ドル

動画生成モデル

Amazon Nova モデル	ビデオ解像度	生成されたビデオの1秒あたりの価格
Amazon Nova Reel	720p, 24 fps	0.08ドル

ベンチマーク結果

Amazon Nova Pro にフォーカスしたベンチマーク結果は以下の通りです。

詳細は以下のURLをご覧ください。 aws.amazon.com

Text intelligence

Text intelligence の項目は、 Claude に劣る項目が多いものの、個人的にはそこまで大差はないのかなと感じます。

Visual intelligence

下2つの Visual question answering や User Interface grounding は、Claude によりも高いスコアが出ているため、画像を使った QA は得意なのかもしれません。

Agentic workflows

よく利用する RAG は、Claude と比べ2.3%低いですが、個人的にはそこまで差は出ないのかなと感じます。

コンテキストウィンドウ

生成 AI に1度にインプットできる情報量がコンテキストウィンドウです。

Claude 3.5 Sonnet のコンテキストウィンドウは、最大 20万でしたが、Amazon Nova Lite および Pro は、最大30万になります。

あまりピンとこないかもしれませんが、それぞれ以下のデータ量を処理できるようです。

最大20万
- 約 150,000 語、または 500 ページを超える資料に相当します。
最大30万
- 最大 30 分のビデオを分析や15,000 行を超えるコードベースを処理できます。

終わりに

新たな基盤モデルである Amazon Nova について、ご紹介しました。どなたかのお役に立てれば幸いです。

また、Amazon Nova Reel や Amazon Nova Canvas を触ってみたブログを弊社メンバーがブログを執筆しているため、ご興味がある方は、ぜひご覧ください。

Amazon Nova Canvas

blog.serverworks.co.jp

Amazon Nova Reel

blog.serverworks.co.jp blog.serverworks.co.jp