サーバーワークスの村上です。
このブログでは、AWS re:Invent 2025 で発表された Amazon Bedrock の Reinforcement Fine-tuning(RFT)について紹介します。
前提(時間がない方は読み飛ばしてください)
まずは前提知識について、簡単に記載します。
LLMの一般的な学習プロセス
まずはLLM全体の学習フローを整理しておきます。一般的な LLM は次の3ステップでトレーニングされます。
事前学習(Pre-training)
Web や書籍など、大量のテキストを使い「次のトークンを当てる」自己教師あり学習をひたすら行います。
この段階で、言語の文法や一般常識などを身につけた「ベースモデル」ができます。
教師ありファインチューニング(SFT / Supervised Fine-Tuning)
ベースモデルの状態では、プロンプトの続きのトークンを出力する振る舞いとなります。
そこでQAのような入力と出力がペアになったデータを使い、指示に従うあるいは会話するように、振る舞いに微調整します。
フィードバックにもとづく強化学習(RFT)
教師ありファインチューニングが済んだモデルに様々なプロンプトを入力して、「どの応答が好ましいか」をフィードバックしてLLMを最適化する工程です。
人間がフィードバックする場合を指して、RLHF(Reinforcement Learning from Human Feedback)とも呼びます。
今回AWSに登場したRFTには、
- Reinforcement Learning with Verifiable Rewards (RLVR, 検証可能な報酬を用いた強化学習)
- Reinforcement Learning from AI Feedback(RLAIF, AIからのフィードバックによる強化学習)
これら2つの用語が登場しますので、押さえておきたいところです。**
いずれもLLMからの出力に報酬を与え、報酬を最大化するようにLLMを学習していくというものです。ここで初めて「推論の質はどうか?」といった結果重視の学習が入ってきます。
この「LLMは報酬を最大化するように学習していく」ためのアルゴリズムとして、後述するPPOやGRPOがあります。
RFTが注目される背景
2024-2025年にかけて、OpenAIのo1やDeepSeek-R1などのReasoningモデルが登場しました。この技術を支えているのがRFTでした。
LLMを最適化するアルゴリズムとして、OpenAIのo1ではPPOが、DeepSeek-R1ではGRPOがそれぞれ採用されています。
Amazon Bedrockに登場したRFTにはGRPOが採用されています。
Amazon Bedrock uses the prompt-response pairs with scores to train the actor model through policy-based learning using Group Relative Policy Optimization (GRPO).
Amazon Bedrock は、プロンプトとレスポンスのペアとスコアを用いて、Group Relative Policy Optimization (GRPO) を用いたポリシーベース学習を通じてアクターモデルをトレーニングします。
Customize a model with reinforcement fine-tuning in Amazon Bedrock - Amazon Bedrock
PPO(Proximal Policy Optimization)とGRPO(Group Relative Policy Optimization)
下図のPolicy Modelが学習したいLLMに該当します。
PPOには学習対象のモデル(黄色く塗られた部分)が2つあり、Policy Modelの他にValue Model(価値関数モデル)があります。2つのモデルを同時に学習するActor-Critic構成と呼ばれ、その分の計算リソースが必要であることからPPOの欠点として挙げられます。
PPOでは、LLMがトークン出力中にValue Modelが見込みの報酬vを計算します。最終的にReward Model(報酬関数モデル)が出す報酬rも加味し、思ったよりも報酬が良かった(図中のアドバンテージAが正)場合は、その振る舞いを強化します。

これに対し、GRPOはPPOの学習対象モデルであるValue Model(価値関数モデル)を排除しています。これにより、計算コストを多く要するというPPOの欠点に対応しています。
LLMの出力の良し悪しを評価するCriticがいなくなった代わりに、LLMからの出力が複数あることが分かります(図中のo1~oG)
このようにLLMからの複数の出力を相対評価して、より好ましいトークンが出力されるようにLLMを最適化していきます。
報酬ハッキングについて
さきほど登場した報酬関数ですが、報酬関数の設計によっては報酬ハッキングと呼ばれる良くない現象が起きる可能性があります。
報酬ハッキングとは、LLMが設計者の本来の意図とは異なる「近道」を見つけ、高い報酬を得ようとする現象です。
例えば、以前私がQwen2-0.5B-InstructにRFTを実施し、数学の問題を出したところ、出力が<think> reasoning process here </think><answer> 25 </answer>のように、思考過程<think></think>にreasoning process hereと常に出力するようになってしまいました。
これはシステムプロンプトで以下のように指示し、報酬関数では<think>xxx</think>が出力に含まれるか?をチェックしており、フォーマットを順守していれば報酬を与える設計にしていたためでした。
The reasoning process and answer are enclosed within
<think></think>and<answer></answer>tags, respectively, i.e.,<think> reasoning process here </think><answer> answer here </answer>
推論プロセスと回答はそれぞれ<think> </think>タグと<answer> </answer>タグで囲まれます。つまり、<think>ここに推論プロセス</think><answer>ここに回答</answer>となります。
このように強化学習に関する課題がある点も留意が必要です。
この報酬ハッキングを抑制するために、本体の目的に沿ったハックされにくい報酬関数を用いることはもちろん、2025年3月に登場したDAPOというアルゴリズムも用いられます。
GRPOでは、モデルが報酬を稼ぐため(あるいはペナルティを軽減させるため)長い回答を出力してしまう問題がありますが、DAPOでは長い出力そのものにペナルティを与える仕組みがあるため、この問題を軽減します。
本機能の目玉
ここは個人的な感想なので、あらかじめご了承ください。
本機能の目玉は、簡易にモデルカスタマイズができるようになったというより、Amazon Nova 2 Liteをカスタマイズできるようになった点だと思います。
Amazon Nova 2 Lite はベンチマークでもClaude 4.5 Haikuと同等以上であるなど、優れたコストパフォーマンスを実現するモデルです。このようなモデルはプロプライエタリ(非公開)であることが多かったです。
しかし、re:Invent 2025 ではOpen Training Modelと称して、Amazon Nova 2 Lite を独自のデータでカスタマイズする機能が複数発表されています。背景には今後、特定の業界や用途に特化したモデル開発が盛んになると見込まれる点があるかと思います。

「モデルカスタマイズが民主化された(やりやすくなった)ことも大きなアップデートじゃないか」という意見もあると思いますが、たしかに強化学習のコードを書く必要がない点はあるものの、
- データセットを自分で用意する必要がある
- 報酬関数を自分で用意する必要がある
- ハイパーパラメータを自分で指定する必要がある
以上3点の要素があり、当然テクニカルな部分を完全に排除することはできません。
というわけで、たまに「モデルカスタマイズがやりやすくなった」という趣旨の声を聞きますが、本機能の目玉はAmazon Nova 2 Lite というコストパフォーマンスに優れたモデルが、オープンウェイトではないものの、完全にプロプライエタリでもない「Open Training Model」として爆誕したことだと捉えています。
新登場したAmzon BedrockのRFTの概要
利用可能リージョン / モデル
us-east-1のAmazon Nova 2 Lite のみです。
トレーニング/ 検証データの要件
形式
次のようなOpenAIのChat Completion形式をサポートしています。reference_answerの部分のkey / valueは任意でOKで、報酬関数でrewardを算出する等に利用します。
{ "messages": [ {"role": "system", "content": "You are a helpful assistant"}, {"role": "user", "content": "What is machine learning?"} ], "reference_answer": "Machine learning is a subset of artificial intelligence that enables computers to learn and make decisions from data without being explicitly programmed." }
またはAmazon Bedrockの呼び出しログをそのまま利用することもできるので、用途に応じて使い分けることが可能です。
データ件数
トレーニングデータは最低100件用意する必要があります。
検証データはオプションなので準備しなくても進めることは可能ですが、準備する場合は最低8件用意する必要があります。8件未満の検証データをセットすると、Data validation Error Validation data must have at minimum 8 valid prompts. For information about dataset constraints and limits, see the Amazon Bedrock User Guide.というエラーが出ます。
報酬関数について
「前提」に記載したとおり、報酬関数はLLMの出力を評価するものです。さらに報酬ハッキングという課題があることも紹介させていただきました。
Amazon Bedrock における RFT では報酬ハッキングに対する対策が施されています。
Amazon Bedrock automatically handles parallel reward computation, training pipeline optimization, and implements safeguards against common reinforcement learning challenges like reward hacking and policy collapse.
Amazon Bedrockは、報酬の並列計算やトレーニングパイプラインの最適化を自動的に処理し、報酬ハッキングやポリシー崩壊といった強化学習における一般的な課題に対する安全対策を実施します。
Customize a model with reinforcement fine-tuning in Amazon Bedrock - Amazon Bedrockより引用
詳細な実装については記載がありませんが、「前提」に記載したような対策が施されているのではないかと推測します(Amazon Bedrockの設定画面に、GRPO Trainerのloss_type=gapoやbetaに該当する項目がなく、おそらく裏側で固定の設定がなされていると予想)。
ハイパーパラメータの意味
ユーザー側で指定できるハイパーパラメータには次のようなものがあります。
| ハイパーパラメータ | 説明 |
|---|---|
| Maximum number of epochs | 学習データ全体を何周するか(エポック数)。大きいほど学習ステップが増えるが、過学習リスクも増える。 |
| Batch Size | 一度に学習に使うプロンプトの数 |
| Learning Rate | 学習率 |
| Maximum prompt length | プロンプトの最大長 |
| Number of completions generated per prompt | 1 つのプロンプトから生成する出力の個数。「前提」に記載したo1~oGに該当 |
| Max output tokens | 出力の最大トークン長 |
| Reasoning effort level | モデルにどのくらい思考させるか |
| Evaluation interval (steps) | 何ステップごとに評価するか |
実際にやってみた
データセットや報酬関数はこちらの記事で紹介されているものと同様のものを使いました。
ただし、今回は学習コスト(1時間あたり80USD)を考慮してトレーニングデータは100件とし、学習ステップ数を最小限に留めました。そのためトレーニングは収束まで至っておらず、最終的なtrain_reward_meanは 0.316でした。今回の報酬関数は2点満点のため、まだ学習の初期段階と言えます。
それでも、トレーニングには1時間以上を要しました(creationTimeとendTimeの差分が1時間8分でした)。Lambdaの実行時間は平均で約3秒、最大で約6秒程度でしたので、この辺りも影響していると考えます。
とある問題を出題した際の挙動の差は以下のとおりでした。元々モデルが賢いので正答していますが、<think></think>などのフォーマットにもまだ準拠していません。

所感
以上、コストパフォーマンスに優れたAmazon Nova 2 Lite が「Open Training Model」として爆誕し、カスタマイズできるようになりました。
ただし、料金面も考慮する必要があるため、ご利用は計画的にする必要があるかと思います。