
Nova 2 Lite の発表から少し時間が経ってしまいましたが、以前の Nova Liteと比較して、どれだけ進化したのかを確認してみました。
Novaファミリーのアップデート情報は、弊社ブログにもまとめられていますので、詳細はこちらをご覧ください。
文字認識の性能で比較
Nova 2 Liteは、画像・ビデオ・テキスト変換などマルチモーダルに対応したモデルとなりますが、今回試したのは「画像の中の文字情報を読み取る」という、OCR的な文字認識の性能で新旧モデルの比較をしてみました。(生成機能での比較は優劣の判定が難しいので、分かりやすい文字認識の精度で比較しました)
方法1: プレイグラウンドで試す
手っ取り早く比較するなら、AWSマネージメントコンソールの、プレイグラウンドを使うのが良いと思います。
- マネージメントコンソールで
Amazon Bedrockのサービスを選択 - サイドメニューから
モデルカタログのメニューをクリック - モデルカタログの中から
Nova 2 Liteを選択 - Nova 2 Liteのページ上部の
プレイグラウンドで開くボタンをクリック - プレイグラウンド画面を表示


方法2: AWS CLIから試す
今回はローカルマシンで動かして試したかったので、AWS CLI と Bedrock Client SDK は Python を使いました。肝となるプロンプトはこの部分です。
"この画像に写っている文字を、可能な限り正確に抽出してください。"
"推測は行わず、読み取れた文字のみを、改行区切りで返してください。"
Nova 2 Lite をバージニア北部リージョンで使う場合のサンプルコード
import boto3 import base64 import json # 画像ファイルパス image_path = "sample.jpg" # Bedrock Runtime クライアント client = boto3.client( "bedrock-runtime", region_name="us-east-1", ) # Nova モデル指定 # Nova Lite: "us.amazon.nova-lite-v1:0" # Nova 2 Lite: "global.amazon.nova-2-lite-v1:0" MODEL_ID = "global.amazon.nova-2-lite-v1:0" # 画像を Base64 エンコード with open(image_path, "rb") as f: img_bytes = f.read() img_b64 = base64.b64encode(img_bytes).decode("utf-8") # 拡張子からフォーマット判定 fmt = "png" if image_path.lower().endswith("png") else "jpeg" response = client.converse( modelId=MODEL_ID, messages=[ { "role": "user", "content": [ { "image": { "format": fmt, "source": {"bytes": img_bytes} } }, { "text": ( "この画像に写っている文字を、可能な限り正確に抽出してください。" "推測は行わず、読み取れた文字のみを、改行区切りで返してください。" ) } ] } ], inferenceConfig={ "maxTokens": 5000 } ) # 文字認識結果の出力 message = response["output"]["message"] texts = [] for part in message["content"]: if "text" in part: texts.append(part["text"]) print("=== OCR 結果 ===") print("\n".join(texts))
比較検証1: バナー画像を使った場合の比較
まず、こちらの架空のバナー画像を使って比較してみました。(以前にNano Banana Pro を色々試した際に生成したもの)

Nova Lite の認識結果
もう、どこからツッコんでいいのか分からないレベルです。英語部分は安定しているのですが、日本語については実務利用が絶対的に厳しいことが分かります。
=== OCR 結果 === Cloud Automator Amazon ECS コスト管理、自動スケーリング。 自動運用で安心・安全。 運用コスト削減 クラウドネイティブな運用 サービスのパフォーマンス向上 自動化を学びたい!始めてみる
Nova 2 Lite の認識結果
これがNova 2 Lite になると、見違えるように精度がアップしているのが分かります。
ですが、よく見ると「オフピーク」が「オフロード」となっていたり、「タスク数、自由自在」が丸ごと認識されていなかったり、まだ実務利用は慎重に考えたほうが良いかもしれません。英語なら安定しているのは前回と同様でした。
=== OCR 結果 === Cloud Automator Amazon ECS スケール、自動配置。 指定の時間に、必要な数だけ。 無駄なくてスマートな運用を。 夜間はゼロで完全停止 オフロードは最小限に 業務時間は最適化 新機能リリース!詳細はこちら
Claude Sonnet 4.5 の認識結果
念の為、Claude Sonnet 4.5でも確認してみた結果はこちらです。素敵です。
=== OCR 結果 === Cloud Automator Amazon ECS タスク数、自由自在。 指定の時間に、必要な数だけ。 無駄をなくしてスマートな運用を。 夜間はゼロで完全停止 オフピークは最小限に 業務時間は最適化 新機能リリース!詳細はこちら
比較検証2: 名刺画像を使った場合の比較
自分の名刺を写真に撮って確認してみました。(個人情報になるため画像の掲載が出来ずすみません)
プロンプトは以下のようにしました。
"名刺の文字を読み取って、会社名、住所、電話番号、氏名、メールアドレス、所属部署、役職をJSON形式で返してください。"
結果から言うと、バナー画像の時は Nova Lite と Nova 2 Lite に明確な精度の差を感じたのですが、名刺のような画像だと大差がなく、実務利用はまだ厳しいという状況でした。
おそらくですが、名刺のような画像は前後の文脈が無いですし、「人名」や「住所」は、常用漢字以外の旧字体などが含まれることも珍しくないため、文字認識のハードルがグッと高くなるのだろうと思いました。
さいごに
OCR的な利用用途だと、英語については安定感はあるのですが、日本語はまだ不安定さが目立つ結果になりました。ですが、Nova Liteからの比較でいえば、大いなる進化を遂げていると言って良いと思います。
もし次のバージョンが出ましたら、また同じ方法で検証した結果を報告したいと思います。