【AWS re:Invent 2025】Nova 2 Lite がどれだけ進化したのか確認してみた

記事タイトルとURLをコピーする

Nova 2 Lite の発表から少し時間が経ってしまいましたが、以前の Nova Liteと比較して、どれだけ進化したのかを確認してみました。

Novaファミリーのアップデート情報は、弊社ブログにもまとめられていますので、詳細はこちらをご覧ください。

blog.serverworks.co.jp

文字認識の性能で比較

Nova 2 Liteは、画像・ビデオ・テキスト変換などマルチモーダルに対応したモデルとなりますが、今回試したのは「画像の中の文字情報を読み取る」という、OCR的な文字認識の性能で新旧モデルの比較をしてみました。(生成機能での比較は優劣の判定が難しいので、分かりやすい文字認識の精度で比較しました)

方法1: プレイグラウンドで試す

手っ取り早く比較するなら、AWSマネージメントコンソールの、プレイグラウンドを使うのが良いと思います。

  1. マネージメントコンソールで Amazon Bedrock のサービスを選択
  2. サイドメニューから モデルカタログ のメニューをクリック
  3. モデルカタログの中から Nova 2 Lite を選択
  4. Nova 2 Liteのページ上部の プレイグラウンドで開く ボタンをクリック
  5. プレイグラウンド画面を表示

方法2: AWS CLIから試す

今回はローカルマシンで動かして試したかったので、AWS CLI と Bedrock Client SDK は Python を使いました。肝となるプロンプトはこの部分です。

"この画像に写っている文字を、可能な限り正確に抽出してください。"

"推測は行わず、読み取れた文字のみを、改行区切りで返してください。"

Nova 2 Lite をバージニア北部リージョンで使う場合のサンプルコード

import boto3
import base64
import json
  
# 画像ファイルパス
image_path = "sample.jpg"
  
# Bedrock Runtime クライアント
client = boto3.client(
  "bedrock-runtime",
  region_name="us-east-1",
)
  
# Nova モデル指定
# Nova Lite: "us.amazon.nova-lite-v1:0"
# Nova 2 Lite: "global.amazon.nova-2-lite-v1:0"
MODEL_ID = "global.amazon.nova-2-lite-v1:0"
  
# 画像を Base64 エンコード
with open(image_path, "rb") as f:
  img_bytes = f.read()
img_b64 = base64.b64encode(img_bytes).decode("utf-8")
  
# 拡張子からフォーマット判定
fmt = "png" if image_path.lower().endswith("png") else "jpeg"
  
response = client.converse(
  modelId=MODEL_ID,
  messages=[
    {
      "role": "user",
      "content": [
        {
          "image": {
            "format": fmt,
            "source": {"bytes": img_bytes}
          }
        },
        {
          "text": (
            "この画像に写っている文字を、可能な限り正確に抽出してください。"
            "推測は行わず、読み取れた文字のみを、改行区切りで返してください。"
          )
        }
      ]
    }
  ],
  inferenceConfig={
    "maxTokens": 5000
  }
)
  
# 文字認識結果の出力
message = response["output"]["message"]
texts = []
for part in message["content"]:
  if "text" in part:
    texts.append(part["text"])

print("=== OCR 結果 ===")
print("\n".join(texts))

比較検証1: バナー画像を使った場合の比較

まず、こちらの架空のバナー画像を使って比較してみました。(以前にNano Banana Pro を色々試した際に生成したもの)

Nova Lite の認識結果

もう、どこからツッコんでいいのか分からないレベルです。英語部分は安定しているのですが、日本語については実務利用が絶対的に厳しいことが分かります。

=== OCR 結果 ===
Cloud Automator 
Amazon ECS 
コスト管理、自動スケーリング。 
自動運用で安心・安全。 
運用コスト削減 
クラウドネイティブな運用 
サービスのパフォーマンス向上 
自動化を学びたい!始めてみる

Nova 2 Lite の認識結果

これがNova 2 Lite になると、見違えるように精度がアップしているのが分かります。

ですが、よく見ると「オフピーク」が「オフロード」となっていたり、「タスク数、自由自在」が丸ごと認識されていなかったり、まだ実務利用は慎重に考えたほうが良いかもしれません。英語なら安定しているのは前回と同様でした。

=== OCR 結果 ===
Cloud Automator
Amazon ECS
スケール、自動配置。
指定の時間に、必要な数だけ。
無駄なくてスマートな運用を。
夜間はゼロで完全停止
オフロードは最小限に
業務時間は最適化
新機能リリース!詳細はこちら

Claude Sonnet 4.5 の認識結果

念の為、Claude Sonnet 4.5でも確認してみた結果はこちらです。素敵です。

=== OCR 結果 ===
Cloud Automator

Amazon ECS
タスク数、自由自在。

指定の時間に、必要な数だけ。
無駄をなくしてスマートな運用を。

夜間はゼロで完全停止
オフピークは最小限に
業務時間は最適化

新機能リリース!詳細はこちら

比較検証2: 名刺画像を使った場合の比較

自分の名刺を写真に撮って確認してみました。(個人情報になるため画像の掲載が出来ずすみません)

プロンプトは以下のようにしました。

"名刺の文字を読み取って、会社名、住所、電話番号、氏名、メールアドレス、所属部署、役職をJSON形式で返してください。"

結果から言うと、バナー画像の時は Nova Lite と Nova 2 Lite に明確な精度の差を感じたのですが、名刺のような画像だと大差がなく、実務利用はまだ厳しいという状況でした。

おそらくですが、名刺のような画像は前後の文脈が無いですし、「人名」や「住所」は、常用漢字以外の旧字体などが含まれることも珍しくないため、文字認識のハードルがグッと高くなるのだろうと思いました。

さいごに

OCR的な利用用途だと、英語については安定感はあるのですが、日本語はまだ不安定さが目立つ結果になりました。ですが、Nova Liteからの比較でいえば、大いなる進化を遂げていると言って良いと思います。

もし次のバージョンが出ましたら、また同じ方法で検証した結果を報告したいと思います。