
はじめに
サーバーワークスの池田です。
2026年5月28日、Anthropic が Claude Opus シリーズの最新版 Claude Opus 4.8 をリリースしました。前モデルの Opus 4.7 から2か月足らずでの登場で、価格は据え置きのまま全ベンチマークで 4.7 を上回る主力アップデートです。
本記事では、Anthropic の公式発表と移行ガイドをもとに、Opus 4.8 が「モデルとして何が変わったのか」を読み解きます。コーディング性能の伸び、自己検証能力の向上、そして同時に発表された Claude Code の並列ワークフロー機能までを、4.7 との比較を交えてまとめます。
この記事で分かること
- Opus 4.7・GPT-5.5・Gemini 3.1 Pro と比較した Opus 4.8 のベンチマーク数値と、唯一負けている項目
- 「自分が書いたコードの欠陥を見逃す確率が約4分の1に減った」という自己検証能力の向上の中身
- 長時間エージェント作業での品質改善(compaction 回数の削減・ツール呼び忘れの減少)
- Claude Code の並列ワークフロー(dynamic workflows)と
ultracodeモードの使い方 - effort レベルのトークン配分が 4.7 から再調整された点と、移行時に確認すべきこと
- Fast mode の高速化・mid-conversation system messages など、その他の変更点
主要ポイント一覧
| 項目 | 内容 | 参照 |
|---|---|---|
| リリース日 | 2026年5月28日 | Anthropic 公式発表 |
| API モデル ID | claude-opus-4-8 |
What's new in Claude Opus 4.8 |
| コーディング性能 | SWE-Bench Pro 69.2%(Opus 4.7 比 +4.9pt) | Anthropic 公式発表 |
| 自己検証 | コードの欠陥を見逃す確率が 4.7 比で約 1/4 | Anthropic 公式発表 |
| 並列ワークフロー | dynamic workflows(研究プレビュー、Claude Code v2.1.154 以降) | Claude Code ドキュメント |
| effort デフォルト | 全サーフェスで high(コーディングは xhigh 推奨) |
移行ガイド |
| コンテキスト | 1M トークンが標準(Microsoft Foundry は 200k) | What's new in Claude Opus 4.8 |
| 価格 | 入力 $5 / 出力 $25 per Mトークン(Opus 4.7 と同額) | Anthropic 公式発表 |
ベンチマークで見る 4.7 から 4.8 への実力
全項目で Opus 4.7 を上回る
Anthropic の公式発表では、Opus 4.8 を Opus 4.7・GPT-5.5・Gemini 3.1 Pro と比較したベンチマーク表が公開されています。掲載された7指標すべてで、Opus 4.8 が Opus 4.7 を上回りました。
公式発表の数値を抜き出すと以下の通りです。コーディング・推論・コンピュータ操作・ナレッジワークと、幅広い領域で底上げされています。
| ベンチマーク | Opus 4.8 | Opus 4.7 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Agentic coding(SWE-Bench Pro) | 69.2% | 64.3% | 58.6% | 54.2% |
| Agentic terminal coding(Terminal-Bench 2.1) | 74.6% | 66.1% | 78.2% | 70.3% |
| 多分野推論(Humanity's Last Exam, ツールなし) | 49.8% | 46.9% | 41.4% | 44.4% |
| 多分野推論(Humanity's Last Exam, ツールあり) | 57.9% | 54.7% | 52.2% | 51.4% |
| Agentic computer use(OSWorld-Verified) | 83.4% | 82.8% | 78.7% | 76.2% |
| ナレッジワーク(GDPval-AA) | 1890 | 1753 | 1769 | 1314 |
| Agentic financial analysis(Finance Agent v2) | 53.9% | 51.5% | 51.8% | 43.0% |
出典: Introducing Claude Opus 4.8(Anthropic 公式発表)
唯一負けているのは Terminal-Bench 2.1
7指標のうち、Opus 4.8 が首位を取れなかったのは Agentic terminal coding(Terminal-Bench 2.1)の1項目だけです。ここでは GPT-5.5 が 78.2% で、Opus 4.8 の 74.6% を上回っています。
ただし Opus 4.8 の 74.6% は、Opus 4.7 の 66.1% から 8.5pt の大幅な伸びです。ターミナル操作を伴う開発作業でも、世代間では明確に改善していると考えられます。
SWE-Bench Pro と GDPval-AA での首位
コーディングの中核指標である SWE-Bench Pro では 69.2% を記録し、GPT-5.5(58.6%)に 10pt 以上の差を付けています。ナレッジワークを測る GDPval-AA でも 1890 と、比較した4モデルで最高スコアでした。
正直さと自己検証能力の向上
自分のコードの欠陥を見逃す確率が約4分の1に
Opus 4.8 で Anthropic が特に強調しているのが、自己検証能力の向上です。公式発表では、Opus 4.8 は 「自分が書いたコードの欠陥を見逃したまま素通りさせる確率が、前モデルの約4分の1」 と説明されています。
around four times less likely than its predecessor to allow flaws in code it has written to pass unremarked — Introducing Claude Opus 4.8(Anthropic 公式発表)
不確実性を申告し、根拠のない主張を減らす
Opus 4.8 は、作業の進捗について不確実な点があれば自分から申告する傾向が強まっています。根拠の薄い断定を避けるようになった、という報告もあります。
エージェントに長い作業を任せる場面では、誤りを「できました」と報告されるのが最も困ります。自分のミスを見逃しにくくなった点は、自動化の信頼性に直結する改善と考えられます。
長時間エージェント作業での品質改善
長く走らせても脱線しにくくなった
Anthropic の開発者向けドキュメントでは、Opus 4.8 が Opus 4.7 と比べて改善した領域として、長時間のエージェント的コーディング(long-horizon agentic coding)が挙げられています。具体的には、長いコンテキストの扱いが向上し、compaction(文脈圧縮)の発生回数が減り、圧縮後の復帰も改善したと説明されています。
長い作業ログでも、compaction を挟んだあとに脱線しにくくなったとされています。数時間単位でエージェントを走らせる用途では、この安定性が効いてくると考えられます。
ツールの呼び忘れが減った
もう一つの改善が、ツール呼び出しの確実性です。Opus 4.7 では「タスクに必要なツール呼び出しをスキップしてしまう」という指摘が一部ユーザーからありました。Opus 4.8 ではこのケースが減ったとされています。
加えて adaptive thinking(タスクの複雑さに応じて思考量を自動調整する仕組み)の効率も上がっています。単純な照会では思考を省き、複雑な問題でのみ深く考えるため、同じ effort レベルでも無駄な思考トークンが減ります。
Claude Code の並列ワークフローと ultracode
Claude Code を最新版に更新すると、起動時に「Opus 4.8 is here!」と表示され、デフォルトが high effort になります
dynamic workflows とは何か
Opus 4.8 と同時に、Claude Code で dynamic workflows(動的ワークフロー) が研究プレビューとして公開されました。これは Claude が記述する JavaScript スクリプトで、多数のサブエージェントを大規模にオーケストレーションする仕組みです。
スクリプトはバックグラウンドの専用ランタイムで実行され、その間もセッションは応答可能なままです。Claude はプロンプトから計画を立て、サブタスクに分解し、数十〜数百のサブエージェントを並列に展開します。各結果は取り込む前に検証され、最終的に1つにまとめた答えが返ってきます。
/workflows を実行すると、各フェーズのエージェント数・トークン総量・経過時間を確認できます
サブエージェント・スキルとの違い
Claude Code には従来からサブエージェントやスキルがあります。ワークフローとの違いは「計画を誰が持つか」です。公式ドキュメントの整理を抜粋します。
| 観点 | サブエージェント | スキル | ワークフロー |
|---|---|---|---|
| 実体 | Claude が起動する worker | Claude が従う指示 | ランタイムが実行するスクリプト |
| 次の処理を決めるのは | Claude(ターンごと) | Claude(指示に従う) | スクリプト |
| 中間結果の置き場所 | Claude のコンテキスト | Claude のコンテキスト | スクリプト変数 |
| スケール | 1ターンに数件 | サブエージェントと同等 | 1実行あたり数十〜数百 |
| 中断時 | ターンをやり直す | ターンをやり直す | 同一セッション内で再開可能 |
出典: Orchestrate subagents at scale with dynamic workflows(Claude Code ドキュメント)
中間結果がスクリプト変数に保持されるため、Claude のコンテキストには最終的な答えだけが残ります。独立したエージェント同士が互いの結果を批判的にレビューしてから報告する、といった品質パターンを組み込める点も特徴です。
2つの起動方法
ワークフローを起動する方法は2つあります。
- プロンプトに
workflowという語を含める — その1タスクだけをワークフローとして実行します。セッションの effort レベルは変わりません。 /effort ultracodeを設定する — Claude がタスクごとに自動でワークフローを使うか判断します。
プロンプトでの起動は、例えば次のように書きます。
ワークフローを使って2体のエージェントに漫才をさせて
ultracode モードの挙動
ultracode は、xhigh の推論 effort と自動ワークフローオーケストレーションを組み合わせた Claude Code の設定です。/effort ultracode をオンにすると、Claude は依頼ごとに「ワークフローを使うべきか」を自分で判断し、必要なら計画を立ててサブエージェントを展開します。
/effort ultracode を設定すると、xhigh effort と自動ワークフローが同時に有効になります
1つの依頼が複数のワークフローに分かれることもあります。例えば「コードを理解する」「変更を加える」「検証する」の3つを連続したワークフローとして走らせる、といった動きです。
注意: ultracode は毎タスクでワークフローを検討するため、通常より多くのトークンを消費し、処理時間も長くなります。ultracode は現在のセッション限りで、新しいセッションを開始するとリセットされます。通常作業に戻るときは
/effort highに下げます。
想定ユースケースと実例
公式ドキュメントは、ワークフローの用途としてコードベース全体のバグ調査、500ファイル規模の移行、複数ソースを相互検証するリサーチなどを挙げています。1つの会話では調整しきれない数のエージェントが必要なとき、あるいはオーケストレーション自体をスクリプトとして再利用したいときに向いています。
実例として、Bun の開発者 Jarred Sumner 氏が dynamic workflows を使い、Bun を Zig から Rust へ移植した事例が紹介されています。既存テストスイートの 99.8% が通過し、約75万行の Rust コードを、初コミットからマージまで 11日間で完了させたとされています。
手元で動かす最小例:エージェント2体で漫才
これだけ大規模だとイメージしづらいので、ごく小さな例も載せておきます。先ほどの「ワークフローを使って2体のエージェントに漫才をさせて」というプロンプトから、Claude が実際に生成したスクリプトの要点が次です。
export const meta = { name: 'manzai', description: '2体のエージェント(ボケ役・ツッコミ役)に交互に漫才をさせる', phases: [{ title: '漫才', detail: 'ボケとツッコミが掛け合いを重ねてオチまでいく' }], } phase('漫才') const transcript = [] // 中間結果はスクリプト変数に溜める const TOTAL = 10 for (let i = 0; i < TOTAL; i++) { const role = i % 2 === 0 ? 'ツッコミ' : 'ボケ' // 何ターン目かで指示文を出し分ける(=次に何をするかを決めるのはスクリプト) let instruction if (i === 0) instruction = '「どうも〜」のつかみから入って、と促す' else if (i === TOTAL - 1) instruction = 'オチに大きくツッコんで締める' // … 中盤はボケ/ツッコミをターンごとに出し分け else instruction = role === 'ボケ' ? '天然でズレたボケを重ねる' : 'テンポよくツッコむ' const line = await agent( `あなたは漫才コンビの${role}担当。これまでの掛け合い:\n` + `${transcript.join('\n')}\n\n${instruction}`, { label: `${role}#${i + 1}`, phase: '漫才' } ) transcript.push(`${role}:${String(line).trim()}`) // 結果を次ターンの入力に回す log(`${role}:${line}`) } return { script: transcript }
注目したいのは、これが直列である点です。数百体を並列に展開できるのがワークフローの売りですが、漫才は掛け合いの順番が命なので、ここではあえて1体ずつ await で呼んでいます。前のセリフを溜めた transcript が次のターンの入力になり、何ターン目かで指示(つかみ・ボケ・オチ)を出し分ける——この「次に何をするかを決めるのはスクリプト自身」という形が、先ほどの比較表で挙げたサブエージェントやスキルとの最大の違いです。並列で一気に処理することも、この漫才のように順番を守って直列で回すことも、どちらもスクリプト側で書ける、というのがワークフローの柔軟さだと言えます。
利用条件と制約
dynamic workflows は研究プレビューで、Claude Code v2.1.154 以降が必要です。全有料プランで利用でき、Pro では /config の「Dynamic workflows」からオンにします。Claude API・Amazon Bedrock・Google Vertex AI・Microsoft Foundry でも利用可能です。
ランタイム側には次の制約があります。
| 制約 | 内容 |
|---|---|
| 同時実行エージェント数 | 最大16(CPU コアが少ない環境ではより少ない) |
| 1実行あたりの総エージェント数 | 最大1,000(暴走ループ防止) |
| 実行中のユーザー入力 | 不可(段階ごとの承認が必要なら各段階を別ワークフローにする) |
| ファイル・シェルアクセス | スクリプト自体からは不可(エージェントが実行し、スクリプトは調整役) |
出典: Orchestrate subagents at scale with dynamic workflows(Claude Code ドキュメント)
なお、ワークフローを無効化したい場合は /config のトグル、settings.json の "disableWorkflows": true、または環境変数 CLAUDE_CODE_DISABLE_WORKFLOWS=1 で切れます。無効化すると ultracode も /effort メニューから消えます。
effort の使い分けが 4.7 から変わった
デフォルトは high、コーディングは xhigh 推奨
Opus 4.8 の effort デフォルトは、Claude API・Claude Code のいずれも high です。移行ガイドでは、コーディングや高自律のタスクには xhigh を明示的に指定することが推奨されています。
レベルごとのトークン配分が再調整された
移行時に注意したいのが、各 effort レベルの裏側にあるトークン配分が Opus 4.7 から変わっている点です。
| effort レベル | Opus 4.7 からの変化 |
|---|---|
medium |
思考量がやや増加 |
high |
思考量がやや減少 |
xhigh |
思考量が大幅に増加 |
出典: 移行ガイド — Migrating from Claude Opus 4.7
Opus 4.7 でコストやレイテンシを基準にチューニングしていた場合、同じレベルでも挙動が変わります。調整に入る前に、まず同じレベルでベースラインを取り直すことが推奨されています。
使い始めと移行チェック
Claude Code から使う場合は claude update で最新版に更新します。Opus 4.7 から API コードを移すときは、モデル ID を claude-opus-4-7 から claude-opus-4-8 に変えるだけで動作し、破壊的な API 変更はありません。
Claude Code を最新版に更新すると Opus 4.8 を選択できます
移行ガイドでは、effort 設定の再評価、コンテキストウィンドウの beta ヘッダー削除、stop_details の確認などがチェックリストとして挙げられています。Opus 4.6 以前から移行する場合は、先に Opus 4.7 への移行手順(サンプリングパラメータや手動 thinking の扱い)を適用する必要があります。
その他の変更点
| 変更点 | 内容 | 参照 |
|---|---|---|
| Fast mode | 同一モデルで出力速度 2.5倍。前世代の Fast mode より3倍安くなり、料金は入力 $10 / 出力 $50 per Mトークン | Anthropic 公式発表 |
| mid-conversation system messages | role: "system" を会話途中に挿入可能。プロンプトキャッシュを壊さず指示を更新できる |
What's new in Claude Opus 4.8 |
| 1M コンテキストが標準 | beta ヘッダー不要・長文プレミアムなしで 1M を提供(Foundry は 200k) | 移行ガイド |
| プロンプトキャッシュ最小長 | 1,024 トークンに低下(4.7 より短い) | What's new in Claude Opus 4.8 |
| refusal stop details | 拒否レスポンスの stop_details が正式にドキュメント化 |
What's new in Claude Opus 4.8 |
| サンプリングパラメータ | temperature / top_p / top_k は非対応のまま(4.7 同様、設定すると 400 エラー) |
移行ガイド |
| 最大出力トークン | 128k(4.7 と同じ) | What's new in Claude Opus 4.8 |
まとめ
Claude Opus 4.8 は、価格据え置きのまま全ベンチマークで Opus 4.7 を上回る、堅実な世代更新です。SWE-Bench Pro 69.2%・GDPval-AA 1890 と首位を取る一方、Terminal-Bench 2.1 では GPT-5.5 に及ばないなど、得意領域もはっきりしています。
モデルとして最も実務に効くのは、自己検証能力の向上と長時間作業での安定性と考えられます。自分のコードの欠陥を見逃す確率が約4分の1に減り、compaction 後の脱線やツールの呼び忘れも減ったことで、長い作業を任せやすくなりました。
同時公開された dynamic workflows と ultracode は、数十〜数百のサブエージェントを並列に動かす新しい使い方を開きます。Bun の Zig から Rust への移植のような、これまで数週間かかった規模の作業を現実的な選択肢にする機能で、今後の検証が楽しみなアップデートです。