こんにちは。AWS CLI が好きな福島です。
- はじめに
- 追加された基盤モデル
- 追加予定の基盤モデル
- 所感
- 利用できるリージョン
- 対応可能な入出力
- 利用料
- ベンチマーク結果
- Visual intelligence
- Agentic workflows
- コンテキストウィンドウ
- 終わりに
はじめに
本日は、AWS re:Invent 2024 にてリリースされた Amazon Bedrock から利用できる新たな基盤モデルである Amazon Nova について記事を執筆します。
追加された基盤モデル
追加された基盤モデルは以下の通りです。
テキスト生成モデル
- Amazon Nova Micro
- Amazon Nova Lite
- Amazon Nova Pro
画像生成モデル
- Amazon Nova Canvas
動画生成モデル
- Amazon Nova Reel
追加予定の基盤モデル
- テキスト生成モデル
- Amazon Nova Premier(テキスト生成の最上位モデル)
- 音声生成モデル
- Amazon Nova Sppech-to-Sppech
- 次世代のマルチモーダルモデル(※)
- Amazon Nova Any-to-Any
※ 便宜上、名前をつけたのですが、正式な名前ではありません。テキスト、音声、画像、動画の入力と出力が可能なモデルのようです。 今後は、 Amazon Nova Any-to-Any のようなモデルが一般的になるのかもしれないと思うと、生成 AI の進化は凄まじいですね。
所感
- 現在、Amazon Bedrock で利用するテキスト生成モデルとしては Anthropic の Claude 3.5 Sonnet v2 が最有力だと思いますが、
Amazon Nova Pro も以下の点から同様に注目すべきモデルになると感じました。(料金はClaude 3.5 Hiku、性能はClaude 3.5 Sonnetのイメージです)
- Amazon Nova Pro は、ベンチマークの結果、Anthropic の Claude 3.5 Sonnect v2 には劣るものの、同等の性能が記録されている
- Amazon Nova Pro は、Anthropic の Claude 3.5 Sonnect v2 よりコストは約21% 〜 26%安価
- Amazon Nova Pro より高性能なモデルである Amazon Nova Premier のリリースは期待
- 画像生成モデルである Amazon Nova Canvas は、既存で利用できた Stability AI のモデルと価格はほぼ同等のため、生成される画像の品質に注目です。
- Amazon Nova Reel は、Amazon Bedrock で初めて利用できるようになった動画生成モデルのため、注目です。
利用できるリージョン
- 米国東部 (バージニア北部) リージョン
- 全てのモデルが利用可能
- 米国西部 (オレゴン) および米国東部 (オハイオ) リージョン
- テキスト生成モデルのみ利用可能
対応可能な入出力
それぞれのモデルが対応している入力と出力は以下の通りです。
- テキスト生成モデルの Amazon Nova Lite, Pro は、(Amazon Bedrock のモデルの中で初となる)入力に動画を扱えるようです。
- 動画生成モデルである Amazon Nova Reel は、テキストだけでは画像も扱えるようです。
Model | Input1 | Input2 | Input3 | Output1 |
---|---|---|---|---|
amazon.nova-micro-v1:0 | TEXT | None | None | TEXT |
amazon.nova-lite-v1:0 | TEXT | IMAGE | VIDEO | TEXT |
amazon.nova-pro-v1:0 | TEXT | IMAGE | VIDEO | TEXT |
amazon.nova-canvas-v1:0 | TEXT | IMAGE | None | IMAGE |
amazon.nova-reel-v1:0 | TEXT | IMAGE | None | VIDEO |
利用料
テキスト生成モデル
Amazon Nova モデル | 1,000入力トークンあたりの価格 | 1,000出力トークンあたりの価格 |
---|---|---|
Amazon Nova Micro | $0.000035 | $0.00014 |
Amazon Nova Lite | $0.00006 | $0.00024 |
Amazon Nova Pro | $0.0008 | $0.0032 |
参考として、Anthropic のモデルの利用料は以下の通りです。
Claude モデル | 1,000入力トークンあたりの価格 | 1,000出力トークンあたりの価格 |
---|---|---|
Claude 3.5 Haiku | $0.0008 | $0.004 |
Claude 3.5 Sonnet v1/v2 | $0.003 | $0.015 |
画像生成モデル
Amazon Nova モデル | 画像解像度 | 標準品質で生成された画像1枚あたりの価格 | プレミアム品質で生成された画像1枚あたりの価格 |
---|---|---|---|
Amazon Nova Canvas | 最大1024 x 1024 | 0.04ドル | 0.06ドル |
Amazon Nova Canvas | 最大2048 x 2048 | 0.06ドル | 0.08ドル |
動画生成モデル
Amazon Nova モデル | ビデオ解像度 | 生成されたビデオの1秒あたりの価格 |
---|---|---|
Amazon Nova Reel | 720p, 24 fps | 0.08ドル |
ベンチマーク結果
Amazon Nova Pro にフォーカスしたベンチマーク結果は以下の通りです。
詳細は以下のURLをご覧ください。 aws.amazon.com
Text intelligence
Text intelligence の項目は、 Claude に劣る項目が多いものの、個人的にはそこまで大差はないのかなと感じます。
Visual intelligence
下2つの Visual question answering や User Interface grounding は、Claude によりも高いスコアが出ているため、 画像を使った QA は得意なのかもしれません。
Agentic workflows
よく利用する RAG は、Claude と比べ2.3%低いですが、個人的にはそこまで差は出ないのかなと感じます。
コンテキストウィンドウ
生成 AI に1度にインプットできる情報量がコンテキストウィンドウです。
Claude 3.5 Sonnet のコンテキストウィンドウは、最大 20万でしたが、Amazon Nova Lite および Pro は、最大30万になります。
あまりピンとこないかもしれませんが、それぞれ以下のデータ量を処理できるようです。
- 最大20万
- 約 150,000 語、または 500 ページを超える資料に相当します。
- 最大30万
- 最大 30 分のビデオを分析や15,000 行を超えるコードベースを処理できます。
終わりに
新たな基盤モデルである Amazon Nova について、ご紹介しました。 どなたかのお役に立てれば幸いです。
また、Amazon Nova Reel や Amazon Nova Canvas を触ってみたブログを弊社メンバーがブログを執筆しているため、ご興味がある方は、ぜひご覧ください。
Amazon Nova Canvas
Amazon Nova Reel
blog.serverworks.co.jp blog.serverworks.co.jp