前回の比較記事(2026年4月)からわずか2か月で、フロンティアLLMは世代交代しました。OpenAI が GPT-5.5(4月23日)、Google が Gemini 3.5 Flash(5月19日)、そして Anthropic が Claude Fable 5 / Mythos 5(6月9日)をリリースし、SWE-bench Pro は前世代の 53〜58% から一気に 80% へ、GDPval-AA Elo は 1672 から 1932 へと跳ね上がっています。
本記事では前回同様、「誰が測定したか」によってスコアが変わることを前提に、「自社公表」「他社の公式資料への記載」「第三者評価」を明確に区別して 3 モデルの得意・不得意を読み解きます。さらに今回は、安全フォールバックがベンチマークスコアに影響するという新世代特有の論点(Fable 5 と Mythos 5 の二重構成)も解説します。
比較対象モデル
| 項目 | Claude Fable 5 | GPT-5.5 | Gemini 3.5 Flash |
|---|---|---|---|
| 開発元 | Anthropic | OpenAI | Google DeepMind |
| リリース | 2026年6月9日 | 2026年4月23日 | 2026年5月19日 |
| 位置づけ | 制限版 Mythos 5 と同一モデルの一般公開版。サイバー・生物分野は Opus 4.8 へ自動フォールバック | Thinking / Pro / Instant の3展開。コーディングと実務作業を前面に | Flash 系の最新。フラッグシップの 3.5 Pro は未リリース(「来月提供」とのみ予告) |
| コンテキスト長 / 最大出力 | 1M / 128K | 1.05M / 128K | 1M / 65K |
| 価格(入力/出力 per MTok) | $10 / $50 | $5 / $30 | $1.50 / $9 |
※ 各社公式ドキュメント(Anthropic Models overview / OpenAI API docs / Gemini API pricing)より。2026年6月10日時点。
本記事のデータソースについて
前回記事と同じく、スコアの「測定者」を以下の記号で区別します。新世代では各社が競合モデルの公表値を自社資料に引用するケースが増えたため、今回は 4 区分です。
| 記号 | 意味 | 注意点 |
|---|---|---|
| ✅ | 自社公表(ブログ・システムカード・モデルカード) | 自社に有利なベンチマーク・条件を選びやすい |
| ◆ | 競合他社の公式資料に記載(自社からは未公表) | 引用元の測定条件に依存する |
| ◇ | 独立第三者の測定(Artificial Analysis・Vals AI・Cursor・Zapier 等) | 公式と評価条件が異なる場合がある |
| ⚠ | Mythos 5 の値(Fable 5 単体の値は未公表) | 下記「Fable 5 と Mythos 5 の二重構成」を参照 |
新論点:Fable 5 と Mythos 5 の二重構成
Anthropic は今回、同一モデルを 2 つの形態で提供しています。一般公開版の Fable 5 は、サイバーセキュリティ・生物学関連のリクエストを分類器が検知すると Opus 4.8 に自動フォールバックします。制限版の Mythos 5 はこの安全装置を外した形態で、少数の承認済みパートナーのみ利用できます。
このためシステムカードでは両者のスコアが分離して報告されており、安全分類器が反応しやすいベンチマーク(HLE・医療・サイバー系)では Fable 5 単体の値が未公表です。Anthropic は「両者の差は通常 1〜3pt 以内、ただし該当分野では Fable 5 は Opus 4.8 寄りに低下する」と説明しています。本記事の ⚠ 印はこの注意が必要な値です。「安全装置の有無がベンチマークスコアの報告に影響する」初の世代と言えます。
① 3社の数値が揃うベンチマーク(11本)
まず、3 モデルすべてに何らかのソースの数値が存在するベンチマークです。
| ベンチマーク(分野) | Claude Fable 5 | GPT-5.5 | Gemini 3.5 Flash |
|---|---|---|---|
| SWE-bench Pro(エージェントコーディング) | 80.0 ✅ | 58.6 ✅ | 55.1 ✅ |
| Terminal-Bench 2.1(CLIコーディング)※条件差注意 | 84.3 ✅ | 83.4 ◆ / 81 ◇ | 76.2 ✅ |
| OSWorld-Verified(PC操作) | 85.0 ✅ | 78.7 ✅ | 78.4 ✅ |
| Humanity's Last Exam ツールなし(学術推論) | 59.0 ⚠ | 43.1 ✅(Pro) | 40.2 ✅ |
| GDPval-AA Elo(企業実務タスク) | 1932 ◇ | 1769 ◇ | 1656 ✅ |
| Blueprint-Bench 2(空間推論) | 38.6 ✅ | 36.2 ◆ | 33.6 ✅ |
| AutomationBench(業務自動化) | 17.4 ◇ | 12.9 ◇ | 14.5 ◇ |
| Toolathlon(ツール使用)※Anthropic は内部ハーネス(約+3pt) | 61.7 ✅ | 55.6 ◆ | 56.5 ✅ |
| Finance Agent v2(金融エージェント) | 56.3 ◇ | 51.8 ◇ | 57.9 ✅ |
| MCP Atlas(MCPツール連携)※ハーネス差あり | 83.3 ✅ | 75.3 ◆ | 83.6 ✅ |
| Legal Agent Benchmark(法務・Harvey held-out) | 13.3 ◇ | 2.1 ◆ | 0.8 ◆ |
※ GDPval-AA は Artificial Analysis 測定(2026年6月6日時点、Gemini 値は Google ブログにも掲載)。AutomationBench は Zapier の非公開保持セット、Finance Agent v2 は Vals AI、Legal Agent Benchmark は Harvey の held-out セット。GPT-5.5 系は Pro 値が公表されているベンチでは Pro 値を採用した(HLE 無印は 41.4。Pro 値は OpenAI 発表表に掲載され、Anthropic システムカードの図でも引用されている)。Gemini の HLE は 3.1 Pro だと 44.4 ✅。太字青色が各行の最高スコア。
集計:Claude が 9 勝(うち HLE は ⚠ Mythos 5 値での勝利。Fable 5 確定値に限ると 8 勝)、Gemini 3.5 Flash が 2 勝(金融・MCP)、GPT-5.5 は 0 勝。エージェントコーディング(SWE-bench Pro で +21.4pt 差)と実務タスクで Fable 5 の独走が目立ちます。一方 MCP Atlas は 0.3pt 差の接戦、金融エージェントは Gemini 3.5 Flash が首位です。
①′ Claude が未公表のためGPT vs Geminiの比較になる行
| ベンチマーク(分野) | Claude Fable 5 | GPT-5.5 | Gemini 3.5 Flash |
|---|---|---|---|
| ARC-AGI-2(抽象推論) | 未公表 | 85.0 ✅ | 72.1 ✅ |
| MRCR v2 128K(ロングコンテキスト) | 未公表 | 94.8 ◆ | 77.3 ✅ |
| MMMU-Pro(マルチモーダル推論) | 未公表 | 81.2 ◆ | 83.6 ✅ |
※ ARC-AGI-2 の GPT-5.5 値は OpenAI 発表表で 85.0(Google 公式比較表の測定では 84.6)。MRCR v2・MMMU-Pro の GPT-5.5 値は Google DeepMind 公式比較表より。Gemini 3.1 Pro は ARC-AGI-2 で 77.1。
前回記事で Gemini 3.1 Pro が首位だった ARC-AGI-2(77.1)は、GPT-5.5 が 85.0(Google 測定では 84.6)で奪取しました。Anthropic はこの 3 つを新モデルで公表しておらず、抽象推論・超長文・マルチモーダル推論の定番ベンチが空欄なのは気になるところです。
② Gemini 側が「3.1 Pro」の値になる比較
以下は Gemini 3.5 Flash の数値がなく、Google の現行フラッグシップ Gemini 3.1 Pro(2026年2月)の値で比較する行です。3.5 Pro が未リリースである以上、Google にとってやや不利な比較になる点に留意してください。
| ベンチマーク(分野) | Claude Fable 5 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|
| SWE-bench Verified(コーディング) | 95.0 ✅ | 未公表 | 80.6 ✅ |
| GDP.pdf(文書ビジョン実務) | 29.8 ✅ | 24.9 ◆ | 16.7 ◆ |
| OfficeQA Pro(文書実務・Databricks測定) | 57.9 ◇ | 52.6 ◇(自社測定 54.1 ✅) | 18.1 ◇ |
| Humanity's Last Exam ツールあり | 64.5 ⚠ | 57.2 ✅(Pro) | 51.4 ◆ |
| BrowseComp(ウェブ検索エージェント) | 88.0 ⚠ | 90.1 ✅(Pro) | 85.9 ◆ |
| CritPt(物理研究・Artificial Analysis測定) | 28.6 ⚠ | 27.1 ◇ | 17.7 ◇ |
| ArxivMath(研究数学・MathArena) | 78.5 ⚠ | 71.5 ◇ | 64.8 ◇(Preview) |
| GPQA Diamond(科学推論)※飽和気味 | 94.1 ⚠ | 93.6 ✅ | 94.3 ✅ |
※ SWE-bench Verified は OpenAI が GPT-5.5 の値を公表していない(Anthropic の比較表でも「—」表記)。前回記事では GPT-5.4 が 84 で首位だった項目。CritPt は GPT-5.5 と 1.5pt 差の接戦。HLE・BrowseComp の GPT 値は Pro(無印は 52.2 / 84.4)。BrowseComp は Pro が Mythos 5 のシングルエージェント値(88.0)を上回る数少ない例だが、Mythos 5 のマルチエージェント構成は 93.3 でさらに上。GPQA Diamond は全モデル 94% 前後で飽和しており、Anthropic は今後の報告打ち切りを宣言済み(Gemini 値は 2026年2月の 3.1 Pro モデルカードより)。
③ Claude と GPT-5.5 の2社間でのみ比較可能
| ベンチマーク(分野) | Claude Fable 5 / Mythos 5 | GPT-5.5 |
|---|---|---|
| FrontierCode Diamond(エージェントコーディング・Cognition) | 29.3 ✅◇ | 5.7 ◇ |
| CursorBench(実環境コーディング・Cursor測定) | 72.9 ◇ | 64.3 ◇ |
| GraphWalks BFS 256K(ロングコンテキスト) | 91.1 ⚠ | 73.7 ✅ |
| HealthBench(医療) | 62.7 ⚠ | 56.5 ✅ |
| HealthBench Professional(医療) | 66.0 ⚠ | 51.8 ✅ |
| ExploitBench(攻撃的サイバー) | 78.0 ⚠ | 34.0 ◆ |
※ ExploitBench は Mythos 5 の値。Fable 5 はサイバー分類器により意図的に Opus 4.8 相当へ性能を落としているため、この差は一般ユーザーが体感できるものではない。CharXiv Reasoning(図表理解)は Claude 88.9 ⚠(ツールなし)/GPT-5.5 84.1 ◆/Gemini 3.5 Flash 84.2 ✅ だが、測定条件が異なる可能性が高く参考値扱いとした。
考察:難度の高い実務コーディング(FrontierCode:Cognition 社の実 PR 由来タスク)で GPT-5.5 に 5 倍超の差をつけているのが今世代の Claude の特徴です。一方この表の下 4 行は ⚠ 印、つまり一般公開版 Fable 5 では安全フォールバックにより数値が下がり得る領域です。
④ 1社のみ公表(直接比較不可)のベンチマーク
| 会社 | 単独公表のベンチマークと数値 |
|---|---|
| Anthropic 多くは ⚠ Mythos 5 値 | USAMO 2026 99.8、RiemannBench 55.0、SWE-bench Multilingual 92.2 / Multimodal 54.9、BioMysteryBench Hard 46.1、Vending-Bench 2 $5,680(Fable 5。Opus 4.8 の $5,787 に敗北) |
| OpenAI | FrontierMath Tier1–3 51.7(Pro 52.4)/ Tier4 35.4(Pro 39.6)※次節の注意参照、Tau2-bench Telecom 98.0、GDPval(本家)84.9(Pro 82.3)、FinanceAgent 自社版 60.0、HealthBench Hard 31.5、社内投資銀行モデリング 88.5(Pro 88.6)、GeneBench 33.2(Pro)、BixBench(定性記述のみ) |
| MRCR v2 1M 26.6、出力速度 他社比約4倍、Box エンタープライズ評価 +19.6%、サイバー長期ベンチ +42%(対 Gemini 3 Flash) |
「出していない」ことから見えるもの
- Anthropic:ARC-AGI-2・MMMU-Pro・MRCR・FrontierMath を未公表。GPQA・AIME は「飽和した」として撤退を明言し、USAMO 2026 や RiemannBench などより難しい数学ベンチへ軸足を移した。
- OpenAI:SWE-bench Verified・AIME を未公表。前回 84 で首位だった SWE-bench Verified を出さなくなったのは興味深い変化。また高compute版の GPT-5.5 Pro はコーディング・エージェント系の値を一切公表していない(次節参照)。
- Google:最大の空白は Gemini 3.5 Pro 本体が存在しないこと。3.5 Flash では SWE-bench Verified・HLE ツールあり・医療法務系が未公表。
補足 — GPT-5.5 Pro(高compute版)にすると勝てるのか
GPT-5.5 には、応答時間と引き換えに推論計算量を増やした GPT-5.5 Pro があります。「Pro なら Claude に勝てるのか」を確認するため Pro の公表値を網羅的に調べたところ、OpenAI が発表表で公表している Pro 値は知識・推論系を中心とした 8 項目のみで(システムカードには別途バイオ・サイバー安全評価系の Pro 値がある)、Fable 5 が大差をつけているコーディング・エージェント系の Pro 値は存在しませんでした。
| ベンチマーク | GPT-5.5(無印) | GPT-5.5 Pro | Claude 側との比較 |
|---|---|---|---|
| HLE ツールなし | 41.4 | 43.1 | Mythos 5 の 59.0 に届かず |
| HLE ツールあり | 52.2 | 57.2 | Mythos 5 の 64.5 に届かず(Opus 4.8 の 57.9 とほぼ同等) |
| BrowseComp | 84.4 | 90.1 | Mythos 5 シングルエージェント(88.0)を逆転。マルチ構成(93.3)には届かず |
| GDPval(本家) | 84.9 | 82.3 | Pro の方が低い |
| FrontierMath Tier 1–3 / Tier 4 | 51.7 / 35.4 | 52.4 / 39.6 | Anthropic・Google は新世代値を未公表(旧世代比較では Opus 4.7: 22.9、Gemini 3.1 Pro: 16.7 に大差) |
| 社内投資銀行モデリング | 88.5 | 88.6 | — |
| GeneBench(遺伝学データ解析) | — | 33.2 | — |
※ いずれも OpenAI 発表表(2026年4月23日)より。HLE の Pro 値は Anthropic システムカードの図(Figure 8.14.1.A)にも引用されており相互確認済み。第三者では Epoch AI が Epoch Capabilities Index 159(公開時点の新記録)を付与。Artificial Analysis・ARC Prize・LMArena に Pro の個別値は掲載されていない(2026年6月10日時点)。
ポイントは 4 つです。
- コーディング・エージェント系の Pro 値はゼロ。OpenAI の発表表でも SWE-bench Pro・Terminal-Bench・GPQA・ARC-AGI-2 などの Pro 欄は「—」で、第三者測定も見当たらない。Fable 5 に 21pt 差をつけられた SWE-bench Pro が Pro で縮まるのかは検証不能。
- HLE は Pro でも届かない。しかもツールありでは旧世代の GPT-5.4 Pro(58.7)が GPT-5.5 Pro(57.2)を上回る逆転が起きている。
- 唯一の明確な「Pro での逆転」は BrowseComp。Pro 90.1 は Mythos 5 のシングルエージェント値 88.0 を上回る。一方 GDPval は Pro の方が低く(82.3 < 84.9)、高計算量が実務タスクで常に有利とは限らない。
- 数学(FrontierMath)は Pro の独壇場だが注意付き。Tier 4 の 39.6 は旧世代の Opus 4.7(22.9)・Gemini 3.1 Pro(16.7)に大差。ただし新世代の Claude・Gemini の値が存在しないうえ、運営元の Epoch AI が 2026年5月11日に「問題の約 3 分の 1 に致命的エラー」を発見しレビュー中のため、このベンチマーク自体の数値が今後改訂される可能性がある。
同じベンチでも数値が割れる — Terminal-Bench の例
「誰が測定したか」の重要性を示す典型例が Terminal-Bench です。GPT-5.5 という同一モデルに対して、現在 4 つの公表値が並存しています。
| 測定者 | バージョン / ハーネス | GPT-5.5 のスコア |
|---|---|---|
| OpenAI(自社) | Terminal-Bench 2.0 | 82.7 |
| Google(公式比較表) | Terminal-Bench 2.1 | 78.2 |
| Anthropic(公式比較表) | 2.1 + Codex CLI ハーネス | 83.4 |
| リーダーボード公式再現(Harbor) | 2.1 + mini-SWE-agent | 81 |
※ バージョン(2.0/2.1)と実行ハーネスの違いで最大 5pt 以上変動する。本記事の①表では Anthropic がシステムカードで併記した条件(2.1)の値を採用した。
各社の公開姿勢の比較
| 項目 | Anthropic | OpenAI | |
|---|---|---|---|
| 公式公表のスコア数 | ブログ表 15 行、 システムカード §8 に 25+ | ブログ ~10(コーディング・実務中心)、 SC は安全評価中心 | 14 ベンチ (3.5 Flash、競合比較付き) |
| 競合スコアの併記 | 全行で併記(GPT-5.5・Gemini 3.1 Pro) | 発表時に Opus 4.7 等と比較(数値の網羅性は低い) | 全行で併記(Claude・GPT) |
| 自社が負けた結果の掲載 | OSWorld(Mythos Preview が上)、Vending-Bench(Opus 4.8 が上)等を掲載 | ほぼなし | ARC-AGI-2・MRCR・GDPval-AA 等 GPT-5.5 勝ちの行も正直に掲載 |
| 特記事項 | Fable / Mythos の分離報告はシステムカードのみ。ブログ表は「高い方」表示 | 公式ページが機械取得を遮断しており検証しづらい | フラッグシップ(3.5 Pro)未リリースのため数値が存在しない |
まとめ — 用途別おすすめモデル
- エージェントコーディング・企業実務・法務文書 → Claude Fable 5(SWE-bench Pro 80.0、GDPval-AA 1932、Harvey Legal Agent 13.3 でいずれも首位)
スコア出典: Anthropic 公式 + Artificial Analysis / Harvey(独立測定) - 抽象推論・超長文検索・数学 → GPT-5.5(ARC-AGI-2 85.0、MRCR v2 128K 94.8。FrontierMath を公表する唯一のモデルで Pro なら Tier 4 39.6)
スコア出典: OpenAI 公式(ARC-AGI-2・FrontierMath)+ Google 公式比較表(MRCR) - マルチモーダル・金融エージェント・速度とコスト → Gemini 3.5 Flash(MMMU-Pro 83.6、Finance Agent v2 57.9、$1.50/$9 で出力速度約 4 倍)
スコア出典: Google 公式 + Vals AI(独立測定)
今世代の比較で新しく加わったリテラシーは 2 つです。第一に、安全フォールバックの有無がスコア報告に影響すること(Fable 5 の ⚠ 値)。第二に、リリース時期の非対称性です。各社は「自社発表時点の他社モデル」としか比較しないため、4 月の GPT-5.5・5 月の Gemini 3.5 は 6 月の Fable 5 と公式には比較していません(逆方向の比較のみ存在します)。Gemini 3.5 Pro が登場すれば構図はまた変わるはずで、引き続き「誰が・いつ・どの条件で測ったか」を確認する姿勢が重要です。
出典
- Claude Fable 5 and Claude Mythos 5 — Anthropic(公式発表)
- Claude Fable 5 / Mythos 5 System Card — Anthropic(Table 8.1.A・§8 Capabilities)
- Models overview — Claude Docs(スペック・価格)
- Introducing GPT-5.5 — OpenAI(公式発表)
- GPT-5.5 System Card — OpenAI(HealthBench 系)
- GPT-5.5 — OpenAI API Docs(スペック・価格)
- Gemini 3.5: frontier intelligence with action — Google(公式発表)
- Gemini — Google DeepMind(公式ベンチマーク比較表)
- Gemini API Pricing — Google AI for Developers(価格)
- GPT-5.5 — Wikipedia(OpenAI 公式値の引用確認用)
- FrontierCode — Cognition(第三者測定)
- CursorBench — Cursor(第三者測定)
- Legal Agent Benchmark — Harvey(第三者測定)
- Vending-Bench 2 — Andon Labs(第三者測定)
- Artificial Analysis(GDPval-AA / CritPt の独立測定)
- FrontierMath Tier 4 — Epoch AI(ベンチマーク運営元。問題エラーのレビュー告知・Epoch Capabilities Index)
※ Vals AI(Finance Agent v2)・Zapier(AutomationBench)・Databricks(OfficeQA Pro)・MathArena(ArxivMath)の測定値は Anthropic システムカード §8 の引用による。OpenAI 公式ページは機械的なアクセスを遮断しているため、発表表の数値は検索エンジンのインデックス・Wikipedia・複数の第三者記事(Vellum、Kingy AI 等)の転記を相互照合して確認した(SWE-bench Pro 58.6 など主要値は 3 社の資料で一致することを確認済み)。調査日: 2026年6月10日。