こんにちは、こけしが趣味の坂本(@t_sakam)です。今回は、2024 年 3 月 4 日に発表された Claude 3 の実力を Amazon Bedrock のチャットのプレイグラウンドで、簡単に確かめてみたいと思います。
Claude 3 では、マルチモーダル機能が追加され、文章と合わせて画像も認識できるようになりました。また、日本語力も向上しているということですので、早速「こけし」の画像で確認をしていきたいと思います。
また、11 月に公開した Alexa スキル「AI 基盤くん」で利用している、Claude の軽量モデル Claude Instant 1.2 と 今回発表された Claude 3 に同じ「こけし」の質問をすることで、回答内容がどのくらい進化しているかも確認していきます。
確認の準備
モデルアクセスを追加
まずは、AWS のマネジメントコンソールの Bedrock のページで、Claude 3 を使えるようにしていきます。現時点(2024 年 3 月 7 日)では、Claude 3 の 3 つのサイズのうち、 Sonnet という、Claude 3 の真ん中のサイズのみ、Bedrock のオレゴンリージョンとバージニア北部リージョンで利用が可能です。
左メニューの「モデルアクセス」を選択し、画面右上の「モデルアクセスを管理」ボタンを押します。
「Claude 3 Sonnet」 の左のチェックボックスにチェックを入れたあと、ページ左下の「変更を保存」ボタンを押して待ちます。
ページを更新して「アクセスが付与されました」と表示されれば、準備完了です。
文章と画像(マルチモーダル)で確認
チャットのプレイグラウンド
左メニューの「プレイグラウンド」>「チャット」を選択し、画面左上の「モデルを選択」ボタンを押します。
モデルを選択
カテゴリ、「Anthropic」、モデル「Claude 3 Sonnet」を選択し、「適用」ボタンを押します。
画像を選択
画面中央下辺りに「Image」ボタンがあるので、押して、ローカルにある画像を選択します。
今回は、以前のこけしチェックの Alexa スキルのブログの際に使用した 5 体のこけし画像について次の質問をしてみます。
この画像には何が写っていますか。
日本語で質問しましたが、初回の回答が英語でした(翻訳したところ、内容はあっていました)。
再度、以下に直して質問をしてみます。
この画像には何が写っていますか。日本語で回答してください。
この画像には、伝統的な日本の木製人形である「こけし」が5体並んで写っています。それぞれ異なる色合いやデザインで装飾されており、江戸時代から続く民芸品の代表的なものです。こけしは主に東北地方で作られ、その地域の伝統的な色使いや柄が特徴的です。無垢な表情と洗練された形状が人気で、日本の伝統工芸品として親しまれています。
数が 5 つであることは当たり前のようにわかっているようです。また、画像に写っているのは、こけしの分類としては、伝統こけしなのですが、江戸時代、東北地方、伝統的な色使いや柄が特徴等の伝統こけしに関するキーワードが入っており、Claude 3 は画像に写っているこけしが伝統こけしであることを認識できていると思われます。
伝統こけしに対して、形や模様等に決まりのないフリースタイルの新型こけしもあるので、その違いを認識できるというのはかなりすごいことだと思います。画像認識力も高いですが、日本語力が格段にアップしているのではないでしょうか。
以前のブログ「Knowledge base for Amazon Bedrock で「こけし」に関する回答を正確に! の時点では、こけしに関する質問でハルシネーションが発生して、正確な回答を得られない/AI が日本独自のものであるこけしを知らなそう。」という状態でした。
その問題の解消のために「Knowledge base for Amazon Bedrock」を利用することにしたのですが、既に「こけし」に関しては、Claude 3 は存在をかなり理解しているように思われました。
また、上記のブログの際は、こけしの Wikipedia のページの PDF 情報を元に回答を作成してくれていたので、正に Wikipedia の情報を抜き出しているという感じがする回答でした。
今回は、もっと自然な感じがする回答となっています。文章の雰囲気に関しても、何か柔らかいというか、人間味がある印象です。
ただ、同じ質問を何度かおこなうと、少し間違いが入ったり、表現が変わったりすることもあり、回答内容に揺れはありそうです。そのため、やはり確実に回答の正確性を上げたい場合には、カスタマイズが必要であることには、変わりはないとは思います。ですが、モデルそのままの状態でも、想像以上に正確性が高まっていることを感じることができました。
Claude Instant 1.2 からの進化を確認
次は、Claude Instant 1.2 と同じ質問をしてみることで、どのくらい進化しているのかを確認してみたいと思います。本来は、画面右側の「設定」の「ランダム性と多様性」のパラメータの値を変更することで、Claude Instant 1.2、Claude 3 Sonnet 共に正確性を高めることは可能だと思いますが、今回は、単純に進化を実感したいので、デフォルトの値のままで確認してみます。
Claude 3 Sonnet
まずは、Claude 3 Sonnet から確認していきます。比較する Claude Instant 1.2 は、マルチモーダル機能がないため、文章のみの質問となります。
こけしとは何でしょうか。
こけしは、日本の伝統的な木製の人形です。主に東北地方で作られ、一つ一つが手作業で制作されています。
こけしの特徴は、シンプルな円筒形の体と微笑んだような顔が特徴的です。顔の表情は簡素化されていますが、髪の毛や着物のデザインなどに地域性や作家の個性が反映されています。
元々は、遊び道具として子供たちに作られていましたが、現在ではコレクターの間で人気があり、東北を代表する民芸品の一つとなっています。
木地の種類や塗装の模様、着物のデザインなどさまざまなバリエーションがあり、一つ一つが手作りならではの温かみと愛着を感じられる逸品です。伝統工芸品としての価値だけではなく、日本の郷土玩具文化を体現するユニークな存在といえます。
間違いもなく、全体的に素晴らしい回答と言えるのではないでしょうか。先ほどの画像の際の結果と同じように、自然で人間味を感じる文章です。特に最後の方の文章は「こけし」のポジティブな面を端的に表現してくれている文章になっており、日本語での表現力の高さも実感できました。
こちらの場合も、何度か同じ質問をすると回答の内容が変わり、やはり間違いが入ることもありましたが、この辺りは先ほど触れた「ランダム性と多様性」のパラメータの値を変更することで対応が可能な部分かもしれません。
Claude Instant 1.2
Claude Instant 1.2 でも同じ質問をしてみます。画面中央部分左上辺りの「モデルの変更」リンクを押して、次の画面で、Claude Instant 1.2 を選択し、同じ質問をしてみます。
こけしとは何でしょうか。
こけしとは、日本の伝統工芸品の一つで、土偶(つちぐつ)の一種です。
主な特徴は以下の通りです:
- 形状は球体に近い丸みを帯びた人間や動物を模した形態が一般的
- 材料は主に粘土が使用されますが、岩石や木から作られる場合もある
- 体全体や部分が動くようになっている取り外し可能な部分を持つことが多い
- 色と模様のデザインが施され、看板役員や年応の表現手法となっている
- 本来は農業儀式での祭事に使用される祭具として作られてきた歴史が長い
- 現在では土産物やアートオブジェクトとして人気があり、各地で作られている
つまり、こけしとは形状の丸みをおびた土偶の1つで、農業
いろいろと突っ込みどころ満載の結果となりました。
まず、こけしは「土偶(どぐう)」ではないです。また、土偶にふりがなをつけてくれているものの、何故かそれは「つちぐつ」となってしまっています。
人間を模した形は一般的ですが、動物を模したものは、新型こけしにはあるものの、伝統こけしでは一般的ではないため、こちらの内容も違います。
また「材料は主に粘土」との記述があり、土偶よりの回答となっています。
頭と胴体を別々に制作するパターンが多いですが、基本的に後から取り外しはできないので「取り外し可能な部分を持つことが多い」というのも間違いです。
「看板役員や年応の表現手法となっている」の辺りは、ちょっと何を言っているのかわかりませんでした。
あと、何故か途中で回答が止まってしまいました。
パラメータの値を変更することで、正確性を高めることは、Claude Instant 1.2 でも可能かとは思いますが、デフォルトの状態ですと、Claude 3 との差は大きそうです。こちらの結果でも、Claude 3 の進化の大きさを実感することができました。
まとめ
今回は、Amazon Bedrock のチャットのプレイグラウンドで、Claude 3 の実力を確かめてみました。
Sonnet より上位のサイズの Opus はベンチマークテストで GPT-4 を超えている、ということでしたが、今回自分で実際に確かめた結果、Sonnet でもかなりの進化を実感することができました。Opus も数週間以内に Bedrock で利用できるようになる予定とのことですので、楽しみですね!
また、今回 Claude 3 の画像認識力の高さもさることながら、日本独自の「こけし」のことも既によく理解していることがわかり、日本語力がアップしている、という点の方も実感することができました。
今回の結果から、今後は日本独自の「こけし」を理解しているかを確認することで、日本語力が高いモデルかどうかを確かめられる可能性がでてきました(?)ので、新モデルが発表された際は、引き続き「こけし」の質問でテストをしてみたいと思います!
Claude 3、上記の通り進化を感じることができるモデルとなっていましたので、ぜひみなさまも Amazon Bedrock のチャットのプレイグラウンドで試してみていただくことをお勧めします!
いや〜、Amazon Bedrock と Claude 3 って本当にいいものですね!