こんにちは、こけしが趣味の坂本(@t_sakam)です。Claude 3 の最上位 モデルである Opus が Amazon Bedrock で利用できるようになりました。以前のブログで Claude 3 Sonnet が Amazon Bedrock で利用できるようになった際に Amazon Bedrock のチャットのプレイグラウンドで検証をおこないましたが、今回も チャットのプレイグラウンドで、簡単に実力を確かめてみたいと思います。
まずは、以前のブログと同じ 5 体の「こけし」の画像で確認し、その後、今回新しく 5 枚の「こけし」の画像を使って確認していきます。背景があるもの/ないもの、背景に文字があるもの/ないもの等、少し違いがある画像で確認してみます。
また、最後の 2 枚は Sonnet、Haiku でも試すことで、最上位モデルである Opus との違いを確認したいと思います。結論として、Sonnet、Haiku とは一線を画す最上位モデルとしての王者の貫禄を見せつけてくれる結果が得られたと思います!
- 確認の準備
- 文章と画像(マルチモーダル)で確認
- 画像を選択、質問を入力し実行する
- Opus、Sonnet、Haiku のそれぞれの結果(1 つ目)
- Opus、Sonnet、Haiku のそれぞれの結果(2 つ目)
- Opus、Sonnet、Haiku のそれぞれの結果(3 つ目)
- まとめ
確認の準備
モデルアクセスを追加
まずは、AWS のマネジメントコンソールの Bedrock のページで、Claude 3 Opus を使えるようにしていきます。現時点(2024 年 4 月 18 日)では、Bedrock のオレゴンリージョンのみで利用が可能です。
マネジメントコンソールの配色に少し変更があったようですが、このあとの手順は、以前のブログとほぼ同じですので、前より少し手順を省いています。詳細な手順は、以前のブログをご確認いただけますと幸いです。今回はモデルアクセスの手順の途中で「Claude 3 Opus」 の左のチェックボックスにチェックを入れたあと、ページ左下の「変更を保存」ボタンを押して待ちます。
文章と画像(マルチモーダル)で確認
チャットのプレイグラウンドでモデルを選択
左メニューの「プレイグラウンド」>「チャット」を選択し、画面左上の「モデルを選択」ボタンを押します。今回も「設定」の「ランダム性と多様性」のパラメータの値はデフォルトのままで確認しています。
モデルを選択
カテゴリ、「Anthropic」、モデル「Claude 3 Opus」を選択し、「適用」ボタンを押します。
画像を選択、質問を入力し実行する
このあと、6 枚の画像について、それぞれ「この画像には何が写っていますか。」と同じ質問していきます。
1. 5 体のこけしの画像
まずは、今回も以前のブログの際に使用した 5 体のこけし画像について同じ質問をしてみます。
画面中央下辺りに「イメージ」ボタンがあるので、押して、ローカルにある画像を選択します。その後、以下の質問を入力して「実行」ボタンを押します。
この画像には何が写っていますか。
この画像には、伝統的な日本の木製こけしが5体写っています。それぞれのこけしは独特の明るい色使いと装飾が施されており、左から黄色と紫、青と赤のストライプ模様、赤と白の花柄模様、青と白のストライプ模様、そして茶色地にダイヤ型の模様が描かれています。こけしの表情はシンプルですが、それぞれ個性的な雰囲気を持っています。日本の伝統工芸品であるこけしの多様性と美しさが表現された興味深い写真だと思います。
この画像の場合、Sonnet でもかなりいい回答が返ってきていましたが、今回も素晴らしい回答が返ってきました。今回は、5 体のこけしの一つ一つの模様についても言及されています。また「こけしの多様性と美しさが表現された興味深い写真」という画像全体に対しての感想も加えてくれました。
2. こけし in ラスベガスの空港(背景に文字)
次は、ラスベガスの空港で撮ったこけしの画像です。かなり前の re: Invent での写真です。背景にぼやけた Welcome to の文字や、途中見えない部分もありますが LAS VEGAS という文字が写っています。空港の名前は、現在はハリー・リード国際空港と名前が変更されていますが、当時はマッカラン国際空港でした。
この画像には何が写っていますか。
この画像は、日本の空港ターミナルの風景のようです。ターミナルの中央に大きな「Welcome」の文字が見え、その下には伝統的な日本の模様が描かれた赤い着物を着たこけしのようなオブジェクトが飾られています。背景には多くの人が歩いているのが見えます。こけしのオブジェクトは日本らしさを感じさせるインテリアとして、訪れた人々を温かく出迎えているようです。
ラスベガスの空港だとはわからなかったようですが、空港ということは認識できたようです。背景にスーツケースを引いている人がいるからでしょうか。また、かなりぼやけている Welcome の文字を読み取っているのが、すごいですね。こけしも認識しています。こけしが写っているので日本の空港でこけしが「温かく出迎えている」状況だと思ったようです。
また、画像名でヒントを与えたらどうだろうと思い「LasVegas.png」という画像名で、もう一度同じように質問してみましたが、画像名はみていないようで、ラスベガスとは認識されず、以下の結果となりました。(これ以外の画像の画像名は数字の番号にしています。)
この画像には、日本の伝統的な玩具である「こけし」が写っています。こけしは手描きで装飾された木製の人形で、この画像のこけしは赤と白の縞模様が施されています。背景には百貨店のような建物の中の明るい照明が写っており、こけしは百貨店の中に飾られているようです。こけしの後ろには「Welcome」という文字が見えることから、おそらくこの場所は外国人観光客も多く訪れるスポットなのだろうと推測できます。
こけしや「Welcome」は認識できましたが、背景は「百貨店のような建物」となっており、今回は空港だとは認識できなかったようです。
3. こけし単体
やはり背景にいろいろ写っていると難しい面があるようなので、白背景にこけし単体で写っている画像でも確認してみます。結論としてまったく問題無く「こけし」と認識してくれました。
この画像には何が写っていますか。
この画像には伝統的な日本のこけしが写っています。
こけしは木でできた人形で、頭と胴体から成ります。この画像のこけしは丸い形をした顔をしており、頬に赤い色が塗られ、笑顔を浮かべているように見えます。胴体部分は赤、黄色、緑、紫の鮮やかな色使いで幾何学的な模様が描かれています。
こけしは東北地方の伝統工芸品として知られ、各地域によって独特のデザインや彩色が施されます。おみやげや飾り物としても人気があります。この愛らしい表情のこけしからは、日本の伝統美と職人の技が感じられます。
4. こけし単体(木地山系)
今度もこけし単体の画像ですが、一番有名な鳴子系や先ほどの津軽系のこけしよりややマイナーと思われる、木地山系のこけしの画像で確認してみます。他の系統のこけしより表現がやや写実的なこけしです。
この画像は日本の伝統的な木製こけしの人形が写っています。こけしは頭部が大きく、胴体に縞模様や花柄などの装飾が施されているのが特徴的です。顔は目と口がシンプルに描かれ、髪の毛は黒く塗られています。この人形は着物のような縞模様と花柄の装飾が施され、日本らしいカラフルなデザインとなっています。背景は白で、人形に焦点が当てられた構図になっています。
マイナーな系統のこけしだとわからないかもしれないと思ったのですが、心配しすぎでしたね。何の問題もなくこけしだとわかったようです。着物が縞で帯が花柄ですので、模様もあっています。
5. こけし in re: Invent(背景に Big Amazon Echo)
こけし単体の画像は問題なさそうでしたので、今度は背景に何が写っているのかわからない難しめの画像で確認したいと思います。re: Invent の会場で背景に 巨大な Amazon Echo が置かれている画像です。
Opus、Sonnet、Haiku を比較モードで確認
難しめの画像とはいったものの、Opus で確認したところ、次の 6 の画像もですが、かなりいい結果が得られたため、Sonnet、Haiku との結果の違いを確認してみたいと思います。
画面右上の「比較モード」をオンにし、それぞれモデルを選択します。今回は、左から順に Opus、Sonnet、Haiku を選択します。比較するモデルを増やしたい場合は、画面右中央の「+」リンクを押して追加します。
ただ、また Sonnet が英語で回答してしまうことがあることがわかりました。以前のブログでも起こりましたが、Sonnet は何故か日本語で質問しても英語で回答してしまうことがあるようなので、いままでと同じ「この画像には何が写っていますか。」という質問に「日本語で回答してください。」を加えます。
この画像には何が写っていますか。日本語で回答してください。
Haiku の結果
予想どおり、最初に Haiku の結果が返ってきました。「こけし」が「コケシ」とカタカナになってしまっていますが、こけしが写っていると認識できたようです。また、何度か確認していますが、Haiku は「だるま」であると判断することが何度かありました。こちらの場合も何故か「ダルマ」とカタカナになってしまっていました。「達磨」と漢字で記載されることもあるので、ひらがなで回答するかカタカナで回答するか等の判断が難しいのかもしれませんね。
この画像には日本の伝統的な人形のコケシが写されています。コケシは丸い体に大きな目と微笑む表情が特徴的な民芸品で、日本の文化を象徴する重要な存在です。画像のコケシは青と赤の鮮やかな色使いで、背景の青い光の中で明るく輝いています。このようなオーナメンタルな装飾性の高い作品は、日本の伝統的な美意識を感じさせる魅力的な作品といえます。
Sonnet の結果
順当に次は Sonnet の回答が返ってきました。ただ、残念ながら「マトリョーシカ」だと思ってしまったようです。こけしの上半身しか写っていないので、無理もないですね。
何度か試す中で、Haiku、Sonnet 共に「マトリョーシカ」と判断することがありましたが(たまたまだと思いますが)Haiku は「だるま」、Sonnet は「マトリョーシカ」が多かったです。他にこの後の結果にも出現しますが、「木目込人形」という回答もよくありました。Sonnet、Haiku 共に「こけし」と正解することも多く、結果の揺れは仕方がない部分かと思います。以前のブログでも記載していますが「ランダム性と多様性」のパラメータの値を調整することで、精度を上げることはできるのではないかと思います。
この画像には、ロシア人形のマトリョーシカが写っています。青い背景にぼやけた光が見え、その前面に大きなマトリョーシカの人形が置かれています。人形は伝統的な民族衣装を着た女性の姿で、微笑んだ表情が特徴的です。マトリョーシカは、ロシアを代表する民芸品の一つで、人形の中に同じ形の人形が入れ子状に入っている遊び心あるデザインが魅力的です。
Opus の結果「NetworkError when attempting to fetch resource.」
さて本来は、Opus の結果ですが「NetworkError when attempting to fetch resource.」となってしまいました。おそらく時間がかかり過ぎたためだと思われます。わかっていたことではありますが、Opus の場合、比較モードでない場合も上記のエラーがでることはありましたので、正確度が高まる分、時間はかかります。
Opus の結果(再確認)
今度は、Opus でも問題無く結果が返ってきました。写っているのがこけしであることもわかっており、背景の状況ついても「ブルーのライトアップされた空間」等、詳しく説明してくれています。また、こけしについての説明もあります。更に最後には、写真全体の感想まであり、素晴らしい回答ですね。
この画像には、日本の伝統的な人形「こけし」が写っています。
こけしは木でできた人形で、丸い頭と円筒形の胴体が特徴的です。頭には黒い髪が描かれており、顔は目と口が単純化されたデザインになっています。胴体には赤い模様が描かれています。
背景はブルーのライトアップされた空間で、ぼやけた光が見えます。おそらくイルミネーションのような装飾が施された場所で撮影されたのだと思われます。
こけしは東北地方の伝統工芸品として知られており、お土産やインテリアとしても人気があります。この写真は、現代的な雰囲気の中に日本の伝統的なモチーフを組み合わせた、印象的な一枚だと感じました。
また、この結果の画像を見ていただくとわかるとおり、Haiku は「こけし」と判断してくれています。Sonnet は「伝統的な日本人形」という表現止まりとなり「こけし」とまでは判断していませんね。今回のブログに記載している内容のみだとたまたま Sonnet の分が悪く見えますが、もちろん、Sonnet も「こけし」と判断してくれることはありましたので、Sonnet が Haiku より劣っているということではないと思います。
モデルメトリクスでレイテンシーを確認
Opus でも結果は得られましたが、Sonnet、Haiku に比べやはり時間はかかっていました。実際にどのくらい差があるものなのは、画面下の「モデルメトリクス」で確認することができます。
- Opus: 17930 ms
- Sonnet: 6990 ms
- Haiku: 2960 ms
それぞれ、上記の結果でした。かなり差がありますね。Opus は、18 秒近くかかっています。
6. こけし in re: Invent(背景に文字)
最後に、背景に文字もあって、背景とこけしのトーンにあまり差がない、先ほどの 5 の画像より判断が難しそうな画像で試してみます。こちらも re: Invent の会場の画像です。こちらの画像では特に画像内の文字の認識で、Opus とそれ以外の Sonnet、Haiku でかなり差を感じる結果となりました。
それでは、いつもの質問をしてみます。6 の画像の回答はそれぞれ、結果の文字が多いため、ポイントの単語を一部抜粋する形にしていますので、全体の回答を確認されたい場合は、適宜画像をクリックして大きくして文字を確認していただけますと幸いです。
Opus、Sonnet、Haiku のそれぞれの結果(1 つ目)
まず、明確に文字認識においていは Opus が群を抜いていると感じる結果となりました。「AmaWebse」と小文字が大文字になってしまっているものの、読めている感じがします。他の 2 つのモデルは残念ながら、読めなかったようです。
また、今回はこけしを認識できているかにも差がでました。Opus が「こけし」だと認識できているのに対し、Sonnet はまたしても「伝統的な日本人形」、Haiku に至っては「ニャンコ先生(!?)」という結果でした。 Wikipedia を確認したところ、曖昧さ回避で 5 個も出てきたので、どの「ニャンコ先生」と間違えたのかは不明です。
Opus、Sonnet、Haiku のそれぞれの背景の文字認識結果
- Opus: AmaWebse
- Sonnet: Luanawebse
- Haiku: Aura webs
こけしが認識できているか
- Opus: こけし
- Sonnet: 伝統的な日本人形
- Haiku: ニャンコ先生
Opus、Sonnet、Haiku のそれぞれの結果(2 つ目)
Opus の文字認識がよさそうなことがわかったので、今度は最初から背景の文字についても以下の指示を追加し、見切れている文字を推測できるか試してみます。
また、画像の背景の文字は、右側部分が写っていませんが、何が書かれていたか推測できますか。
さて、結果はいかに!
Opus は今度は「ama web se」と回答していて、大文字小文字があっています。そして、なんとそこから「Amazon Web Services」であることを推測しました!
背景には「ama web se」と書かれていますが、これは「Amazon Web Services」の略称である可能性が高いと推測されます。Amazon Web Servicesは、クラウドコンピューティングサービスを提供する世界的な企業であり、IT業界では広く知られています。
ただ、文字認識に力を入れすぎてしまったのでしょうか。今回の場合は、こけしを「木目込人形」だと思ってしまいました。ただ、今度は Sonnet、Haiku はこけしだとちゃんと認識できました。Opus も完璧ではないということで、その結果も入れておきます。
Opus、Sonnet、Haiku のそれぞれの背景の文字認識結果
- Opus: ama web se から Amazon Web Services と推測
- Sonnet: hanawebse から Hanawebsite と推測
- Haiku: kawaii webse から 可愛いウェブサイト(を意味している)と推測
こけしが認識できているか
- Opus: 木目込み人形
- Sonnet: こけし
- Haiku: こけし
Opus、Sonnet、Haiku のそれぞれの結果(3 つ目)
もちろん、Opus が背景の文字もこけしも両方共正解した結果がありますので、最後にそちらを共有しておしまいにしたいと思います。Opus はこの結果以外でも何度も背景の文字もこけしも 正解しています。さすが、最上位モデルです。
Opus、Sonnet、Haiku のそれぞれの背景の文字認識結果
- Opus: ama web se から Amazon Web Services と推測
- Sonnet: Luanawebセ から Luana Website と推測
- Haiku: Amawedge と読んだが推測できない(文字の一部が隠れているため正確な表記は不明です)
こけしが認識できているか
- Opus: こけし
- Sonnet: 伝統的な日本人形
- Haiku: 木製の人形
Opus の回答文
この画像は、こけしの人形が写っています。こけしは日本の伝統的な木製の人形で、東北地方が発祥とされています。
こけしの顔は目が閉じているように見え、頬は赤く、口元には微笑みを浮かべているようです。頭部は黒っぽい色をしており、赤い飾りがついています。胴体部分は赤と白の模様で装飾されています。
背景にある文字は「ama web se」と書かれていますが、「ama」の後ろの部分が途切れているため、正確な単語は分かりません。おそらく「Amazon Web Services」などのIT関連の言葉が書かれていたのではないかと推測されます。
まとめ
今回は、Amazon Bedrock のチャットのプレイグラウンドで、Claude 3 の実力を Opus を中心に確かめてみました。
Claude 3 Opus を今回自分で実際に確かめた結果、特に画像の文字認識力が Claude の他のモデルと比べ、群を抜いているという印象でした。見切れている文字から「Amazon Web Services」を推測できることには、大変驚きました。
また、評判の日本語での表現力の高さも実感することができました。既に真ん中のモデルの Sonnet でも日本語での表現力は高いという印象でしたが、Opus は画像全体の印象や感想まで言ってくれることが多く、更に表現力が高い印象でした。
今後も引き続き、日本独自の「こけし」を理解しているかを確認することで、日本語力が高いモデルかどうかを確認できると思いますので、Claude に限らず、新モデルが発表された際は、引き続き「こけし」の質問でテストをしてみたいと思います!
Claude 3 Opus、上記の通り進化を感じることができるモデルとなっていましたので、ぜひみなさまも Amazon Bedrock のチャットのプレイグラウンドで試してみていただくことをお勧めします!
いや〜、Amazon Bedrock と Claude 3 Opus って本当にいいものですね!