blog
AIブログ
GPT-5.5 Claude エージェント ベンチマーク選定——日本企業が問い直すべき評価軸

GPT-5.5がClaude Fable 5を上回った——「Agents’ Last Exam」とは何か
2026年6月、AIエージェント評価の文脈に新しい指標が加わった。カリフォルニア大学バークレー校のCenter for Responsible, Decentralized Intelligence(RDI)が主導し、300名を超える各分野の専門家が参画して構築した「Agents’ Last Exam(ALE)」である。VentureBeat(2026年6月10日付)が報じたところによれば、このリーダーボードでOpenAIのGPT-5.5(2026年4月版、Codexハーネス経由)が合格率24.0%で首位を獲得し、AnthropicのClaude Fable 5(Claude Codeハーネス経由)が合格率22.0%で3位に入った。
業界では「予想外のアップセット」として受け止められているが、この結果を「GPT-5.5が総合的にClaudeより優れている」という単純な結論に直結させることには慎重であるべきだ。たとえば、実世界のGitHubイシュー解決能力を測るSWE-Bench Proでは、Claude Opus 4.7が64.3%を記録し、GPT-5.5の58.6%を上回る局面が存在する(hexabase.com、2026年)。1つのベンチマーク結果から優劣を断定することには根本的な限界がある。重要なのは、ALEという評価設計が何を測り、何を測っていないかを理解した上で、自社の判断材料として正しく位置づけることだ。
ALEの設計思想——何を測り、何を測っていないか
AIエージェントの選定において、「ベンチマーク首位」という言葉を適切に解釈するには、その評価設計の中身を理解することが不可欠だ。ALEが従来の評価指標と一線を画す点は、孤立したコーディングタスクや一問一答の精度ではなく、経済的に価値のある長時間(long-horizon)の実務ワークフローをAIエージェントが自律的に遂行できるかを測定対象にしていることにある。
タスク設計はO*NET/SOC 2018の職業分類を参照しており、複数の産業分野にまたがる1,000件以上の課題で構成される。公式サイト(agents-last-exam.org)では「5,000件目標のうち1,500件超を収集済み」と記載されている。具体的な評価課題には、Siemens NXでの3Dモデル作成、Unreal Engineでのシーン構築、FSLeyesを用いた神経画像解析、Adobe After EffectsでのVFXコンポジットといった、専門職が実際に行う作業が含まれる。論文筆頭著者はYiyou Sun(UC Berkeley RDI)で、約308名が連名で発表している(arXiv: 2606.05405)。
この設計が示唆するのは、「一発の問いに答える正確さ」よりも「複数のツールやアプリケーションを横断しながら工程全体を自律的に完了できるか」という能力軸で評価が行われるという点だ。ただし同時に、ALEは特定のハーネス(実行環境)との組み合わせで計測されており、GPT-5.5のスコア24.0%はCodexハーネス経由、Claude Fable 5の22.0%はClaude Codeハーネス経由という前提がある。つまりこれはモデル単体の性能比較ではなく、「モデル+実行環境」の組み合わせ評価であることに留意しなければならない。
また、最難関の「Last-Exam」ティアでは、Anthropicの旧世代モデルClaude Opus 4.8やGoogle Gemini CLIを含む多くの構成が合格率0.0%を記録した。最難関サブセット全体の平均フル合格率は2.6%にとどまる。この事実は、現在のAIエージェントが実務の長時間ワークフローに対してどの程度の完遂能力を持つかについて、過度な楽観を戒める重要なデータ点だ。
AIの基礎技術の理解については、ディープラーニングの基礎解説や強化学習の基礎と応用も参照されたい。エージェントの判断能力を支える技術的文脈の把握が、選定判断の精度を高める。
日本企業のAIエージェント選定で問い直すべき3つの論点
ALEという新評価軸の登場は、日本の企業・組織がAIエージェントを検討・導入する際に改めて問い直すべきいくつかの実務的論点を浮き彫りにしている。
論点1:自社の「長時間ワークフロー」を特定できているか
ALEの優れた点は、断片的なQAではなく業務の「工程全体」を評価軸にしていることだ。にもかかわらず、多くの導入検討の現場では「このタスクをAIに投げたら何秒で回答するか」という即応性評価に偏りがちである。設計・法務・医療・製造といった専門職ワークフローの自動化を志向するなら、評価設計そのものを「一問一答の精度」から「工程完遂率」に切り替える必要がある。
NICTの「生成AIに関する国内外動向等の調査報告書」(2024年)は、AIの産業応用における評価指標の多様性と、タスク依存性の高さを指摘している(www2.nict.go.jp)。ベンチマーク上位の数値を自社用途に直接照合する前に、自社タスクに最も近い評価設計が何かを問うことが先決だ。この観点から、業務テキスト処理にAIを活用する場合はテキストマイニングの基礎やBERTと自然言語処理の解説も実務文脈の確認として有用だ。
論点2:ハーネス(実行環境)の差異と自社システムとの適合性
前述のとおり、ALEのスコアは「モデル+実行環境の組み合わせ」で計測されている。日本企業がエージェントを導入する際も、モデルの選択だけでなく、そのモデルをどのエージェントフレームワーク上で動かすかによって実効性能は大きく変動する可能性がある。
加えて、自社の基幹システムやデータインフラとのAPI連携の容易性、セキュリティ要件(特に機密情報・個人情報の処理範囲)、データ所在(国内サーバーか海外サーバーか)といった要素は、ベンチマーク数値には一切反映されない。これらの実装面の制約が、理論上の性能差を大幅に縮める、あるいは逆転させることは十分ありうる。マルチモーダルな統合処理の観点については、マルチモーダルAIの解説が実装の下地として参考になる。
論点3:コストと不完全性のトレードオフ
GPT-5.5の利用は、個人向けのChatGPT Plusプラン(月額$20、約3,000円)から、上位のProプラン(月額$200、約30,000円)、法人向けBusinessプラン(月額$25/ユーザー)まで幅がある(OpenAI公式 https://chatgpt.com/pricing/)。エージェント性能をフルに活用するには上位プランへの集中投資が生じやすく、ユーザー数・タスク量に応じたコスト試算が稟議の前提となる。
より根本的な問いは、24.0%という合格率の裏側にある。これは言い換えれば、上位モデルでも約76%のタスクは完遂できていないという事実だ。完全自律運用を前提にしたROI計算は、現時点では楽観的すぎる可能性が高い。JST・SPAPの「アジア・太平洋主要国における人工知能(AI)の政策と研究開発動向」(2024年)は、高性能モデルの産業利用における透明性・信頼性の担保が各国の重要課題として浮上しつつあることを指摘している(spap.jst.go.jp)。日本企業が海外ベンチマーク結果を参照する際も、国内の規制動向やガバナンス要件との整合を確認するプロセスが不可欠だ。
ベンチマーク結果を実務に落とし込む——選定フレームワークの整理
以下に、ALEをはじめとするベンチマーク数値を意思決定に正しく組み込むための実務的な評価視点を整理する。
| 評価軸 | ベンチマーク(ALE等)が示すもの | 実務導入時に別途確認すべきこと |
|---|---|---|
| 性能水準 | 特定ハーネス・タスクセット上での合格率(例: GPT-5.5: 24.0%) | 自社タスクに近い評価セットでのPoC実測スコア |
| コスト | 非考慮(性能のみ測定) | プランコスト($20〜$200/月)×利用ユーザー数・タスク量・API呼び出し頻度 |
| 実行環境 | モデル+ハーネスの組み合わせスコア | 自社システムとの統合容易性・API制約・セキュリティ要件 |
| ガバナンス | 非考慮 | データ所在(国内/海外)・利用規約・個人情報保護法対応・社内規程 |
| 継続性・更新リスク | 特定バージョン・時点での計測値 | モデルの更新・廃止スケジュール(例: GPT-5.1は2026年3月にChatGPTから提供終了) |
| 不完全性への対処 | 平均合格率(最難関平均2.6%、首位24.0%) | 人間レビューを前提とした「コパイロット型」ワークフロー設計の有無 |
ALEの合格率24.0%という数値は、裏を返せば現時点の最上位モデルでも約76%のタスクを完遂できていないことを意味する。この事実を前提にした場合、AIエージェントの現実解は完全自律ではなく、人間のレビューを前提とした「コパイロット型」ワークフロー設計にある。長時間ワークフローの中でもROIが最も見込みやすい部分的工程を切り出し、最小規模のPoCで自社タスクに対する完遂率とエラーパターンを計測する。その結果を受けて、ハーネスの選択、コストプランの段階設定、セキュリティ要件の順に検討を深めることが、現実的な導入アプローチだ。
モデルの廃止リスクも見落とせない。たとえばGPT-5.1はすでに2026年3月にChatGPTから提供終了となっており(OpenAI公式リリースノート)、特定バージョンへの依存設計はシステム全体の見直しコストを生む可能性がある。ベンチマーク評価の段階から「このモデルの継続提供期間は妥当か」という問いを稟議の評価項目に加えることが重要だ。
機械学習の導入判断の全体枠組みについては、機械学習の導入・活用ガイドも参考になる。AIエージェントの最新動向については、ブログトップで継続的に更新している。
参考文献
- VentureBeat「Surprise upset: GPT-5.5 beats Claude Fable 5 on brutal new Agents’ Last Exam benchmark」(2026年6月10日)
https://venturebeat.com/technology/surprise-upset-gpt-5-5-beats-claude-fable-5-on-brutal-new-agents-last-exam-benchmark - arXiv論文 2606.05405「Agents’ Last Exam」(Yiyou Sun他、UC Berkeley RDI)
https://arxiv.org/abs/2606.05405 - Agents’ Last Exam 公式サイト
https://agents-last-exam.org - OpenAI「Introducing GPT-5.5」
https://openai.com/index/introducing-gpt-5-5/ - OpenAI 公式料金ページ
https://chatgpt.com/pricing/ - OpenAI モデルリリースノート
https://help.openai.com/en/articles/9624314-model-release-notes - NICT「生成AIに関する国内外動向等の調査報告書」(2024年)
https://www2.nict.go.jp/idi/common/pdf/2024-s-genAI.pdf - JST・SPAP「アジア・太平洋主要国における人工知能(AI)の政策と研究開発動向」(2024年)
https://spap.jst.go.jp/investigation/downloads/2024_rr_06.pdf - hexabase.com「エージェント型コーディングで82.7%。GPT-5.5が示す、AIモデル選択の新標準2026」
https://www.hexabase.com/column/gpt-5-5-ai-model-selection-new-standard-2026
監修
河合 継(クリスタルメソッド株式会社 代表取締役)
AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について | 編集方針
Study about AI
AIについて学ぶ
-
GPT-5.5 Claude エージェント ベンチマーク選定——日本企業が問い直すべき評価軸
GPT-5.5がClaude Fable 5を上回った——「Agents’ Last Exam」とは何か 2026年6月、AIエージェント評価の文脈...
-
米上院 金融AI 規制 公聴会——日本の銀行・証券への実務的示唆
上院 金融AI 規制 公聴会の要点——何が、なぜ今議題に上ったか 2026年6月11日午前10時(米東部夏時間)、米上院銀行・住宅・都市問題委員会(U.S. S...
-
Cerebras NvidiaのGPUに対抗——SuperAI Singaporeデモが日本のAIインフラ調達に示す論点
CerebrasがSuperAI SingaporeでNvidiaのGPUに対抗——デモの概要と報道の背景 2026年6月10〜11日、シンガポールのMarin...