Claude Fable 5 vs GPT-5.5 vs Gemini 3.5 Flash — 3社最新フロンティアLLMベンチマーク徹底比較 | 技術ブログ

前回の比較記事（2026年4月）からわずか2か月で、フロンティアLLMは世代交代しました。OpenAI が GPT-5.5（4月23日）、Google が Gemini 3.5 Flash（5月19日）、そして Anthropic が Claude Fable 5 / Mythos 5（6月9日）をリリースし、SWE-bench Pro は前世代の 53〜58% から一気に 80% へ、GDPval-AA Elo は 1672 から 1932 へと跳ね上がっています。

本記事では前回同様、「誰が測定したか」によってスコアが変わることを前提に、「自社公表」「他社の公式資料への記載」「第三者評価」を明確に区別して 3 モデルの得意・不得意を読み解きます。さらに今回は、安全フォールバックがベンチマークスコアに影響するという新世代特有の論点（Fable 5 と Mythos 5 の二重構成）も解説します。

比較対象モデル

項目	Claude Fable 5	GPT-5.5	Gemini 3.5 Flash
開発元	Anthropic	OpenAI	Google DeepMind
リリース	2026年6月9日	2026年4月23日	2026年5月19日
位置づけ	制限版 Mythos 5 と同一モデルの一般公開版。サイバー・生物分野は Opus 4.8 へ自動フォールバック	Thinking / Pro / Instant の3展開。コーディングと実務作業を前面に	Flash 系の最新。フラッグシップの 3.5 Pro は未リリース（「来月提供」とのみ予告）
コンテキスト長 / 最大出力	1M / 128K	1.05M / 128K	1M / 65K
価格（入力/出力 per MTok）	$10 / $50	$5 / $30	$1.50 / $9

※ 各社公式ドキュメント（Anthropic Models overview / OpenAI API docs / Gemini API pricing）より。2026年6月10日時点。

本記事のデータソースについて

前回記事と同じく、スコアの「測定者」を以下の記号で区別します。新世代では各社が競合モデルの公表値を自社資料に引用するケースが増えたため、今回は 4 区分です。

記号	意味	注意点
✅	自社公表（ブログ・システムカード・モデルカード）	自社に有利なベンチマーク・条件を選びやすい
◆	競合他社の公式資料に記載（自社からは未公表）	引用元の測定条件に依存する
◇	独立第三者の測定（Artificial Analysis・Vals AI・Cursor・Zapier 等）	公式と評価条件が異なる場合がある
⚠	Mythos 5 の値（Fable 5 単体の値は未公表）	下記「Fable 5 と Mythos 5 の二重構成」を参照

新論点：Fable 5 と Mythos 5 の二重構成

Anthropic は今回、同一モデルを 2 つの形態で提供しています。一般公開版の Fable 5 は、サイバーセキュリティ・生物学関連のリクエストを分類器が検知すると Opus 4.8 に自動フォールバックします。制限版の Mythos 5 はこの安全装置を外した形態で、少数の承認済みパートナーのみ利用できます。

このためシステムカードでは両者のスコアが分離して報告されており、安全分類器が反応しやすいベンチマーク（HLE・医療・サイバー系）では Fable 5 単体の値が未公表です。Anthropic は「両者の差は通常 1〜3pt 以内、ただし該当分野では Fable 5 は Opus 4.8 寄りに低下する」と説明しています。本記事の ⚠ 印はこの注意が必要な値です。「安全装置の有無がベンチマークスコアの報告に影響する」初の世代と言えます。

① 3社の数値が揃うベンチマーク（11本）

まず、3 モデルすべてに何らかのソースの数値が存在するベンチマークです。

ベンチマーク（分野）	Claude Fable 5	GPT-5.5	Gemini 3.5 Flash
SWE-bench Pro（エージェントコーディング）	80.0 ✅	58.6 ✅	55.1 ✅
Terminal-Bench 2.1（CLIコーディング）※条件差注意	84.3 ✅	83.4 ◆ / 81 ◇	76.2 ✅
OSWorld-Verified（PC操作）	85.0 ✅	78.7 ✅	78.4 ✅
Humanity's Last Exam ツールなし（学術推論）	59.0 ⚠	43.1 ✅（Pro）	40.2 ✅
GDPval-AA Elo（企業実務タスク）	1932 ◇	1769 ◇	1656 ✅
Blueprint-Bench 2（空間推論）	38.6 ✅	36.2 ◆	33.6 ✅
AutomationBench（業務自動化）	17.4 ◇	12.9 ◇	14.5 ◇
Toolathlon（ツール使用）※Anthropic は内部ハーネス（約+3pt）	61.7 ✅	55.6 ◆	56.5 ✅
Finance Agent v2（金融エージェント）	56.3 ◇	51.8 ◇	57.9 ✅
MCP Atlas（MCPツール連携）※ハーネス差あり	83.3 ✅	75.3 ◆	83.6 ✅
Legal Agent Benchmark（法務・Harvey held-out）	13.3 ◇	2.1 ◆	0.8 ◆

※ GDPval-AA は Artificial Analysis 測定（2026年6月6日時点、Gemini 値は Google ブログにも掲載）。AutomationBench は Zapier の非公開保持セット、Finance Agent v2 は Vals AI、Legal Agent Benchmark は Harvey の held-out セット。GPT-5.5 系は Pro 値が公表されているベンチでは Pro 値を採用した（HLE 無印は 41.4。Pro 値は OpenAI 発表表に掲載され、Anthropic システムカードの図でも引用されている）。Gemini の HLE は 3.1 Pro だと 44.4 ✅。太字青色が各行の最高スコア。

集計：Claude が 9 勝（うち HLE は ⚠ Mythos 5 値での勝利。Fable 5 確定値に限ると 8 勝）、Gemini 3.5 Flash が 2 勝（金融・MCP）、GPT-5.5 は 0 勝。エージェントコーディング（SWE-bench Pro で +21.4pt 差）と実務タスクで Fable 5 の独走が目立ちます。一方 MCP Atlas は 0.3pt 差の接戦、金融エージェントは Gemini 3.5 Flash が首位です。

①′ Claude が未公表のためGPT vs Geminiの比較になる行

ベンチマーク（分野）	Claude Fable 5	GPT-5.5	Gemini 3.5 Flash
ARC-AGI-2（抽象推論）	未公表	85.0 ✅	72.1 ✅
MRCR v2 128K（ロングコンテキスト）	未公表	94.8 ◆	77.3 ✅
MMMU-Pro（マルチモーダル推論）	未公表	81.2 ◆	83.6 ✅

※ ARC-AGI-2 の GPT-5.5 値は OpenAI 発表表で 85.0（Google 公式比較表の測定では 84.6）。MRCR v2・MMMU-Pro の GPT-5.5 値は Google DeepMind 公式比較表より。Gemini 3.1 Pro は ARC-AGI-2 で 77.1。

前回記事で Gemini 3.1 Pro が首位だった ARC-AGI-2（77.1）は、GPT-5.5 が 85.0（Google 測定では 84.6）で奪取しました。Anthropic はこの 3 つを新モデルで公表しておらず、抽象推論・超長文・マルチモーダル推論の定番ベンチが空欄なのは気になるところです。

② Gemini 側が「3.1 Pro」の値になる比較

以下は Gemini 3.5 Flash の数値がなく、Google の現行フラッグシップ Gemini 3.1 Pro（2026年2月）の値で比較する行です。3.5 Pro が未リリースである以上、Google にとってやや不利な比較になる点に留意してください。

ベンチマーク（分野）	Claude Fable 5	GPT-5.5	Gemini 3.1 Pro
SWE-bench Verified（コーディング）	95.0 ✅	未公表	80.6 ✅
GDP.pdf（文書ビジョン実務）	29.8 ✅	24.9 ◆	16.7 ◆
OfficeQA Pro（文書実務・Databricks測定）	57.9 ◇	52.6 ◇（自社測定 54.1 ✅）	18.1 ◇
Humanity's Last Exam ツールあり	64.5 ⚠	57.2 ✅（Pro）	51.4 ◆
BrowseComp（ウェブ検索エージェント）	88.0 ⚠	90.1 ✅（Pro）	85.9 ◆
CritPt（物理研究・Artificial Analysis測定）	28.6 ⚠	27.1 ◇	17.7 ◇
ArxivMath（研究数学・MathArena）	78.5 ⚠	71.5 ◇	64.8 ◇（Preview）
GPQA Diamond（科学推論）※飽和気味	94.1 ⚠	93.6 ✅	94.3 ✅

※ SWE-bench Verified は OpenAI が GPT-5.5 の値を公表していない（Anthropic の比較表でも「—」表記）。前回記事では GPT-5.4 が 84 で首位だった項目。CritPt は GPT-5.5 と 1.5pt 差の接戦。HLE・BrowseComp の GPT 値は Pro（無印は 52.2 / 84.4）。BrowseComp は Pro が Mythos 5 のシングルエージェント値（88.0）を上回る数少ない例だが、Mythos 5 のマルチエージェント構成は 93.3 でさらに上。GPQA Diamond は全モデル 94% 前後で飽和しており、Anthropic は今後の報告打ち切りを宣言済み（Gemini 値は 2026年2月の 3.1 Pro モデルカードより）。

③ Claude と GPT-5.5 の2社間でのみ比較可能

ベンチマーク（分野）	Claude Fable 5 / Mythos 5	GPT-5.5
FrontierCode Diamond（エージェントコーディング・Cognition）	29.3 ✅◇	5.7 ◇
CursorBench（実環境コーディング・Cursor測定）	72.9 ◇	64.3 ◇
GraphWalks BFS 256K（ロングコンテキスト）	91.1 ⚠	73.7 ✅
HealthBench（医療）	62.7 ⚠	56.5 ✅
HealthBench Professional（医療）	66.0 ⚠	51.8 ✅
ExploitBench（攻撃的サイバー）	78.0 ⚠	34.0 ◆

※ ExploitBench は Mythos 5 の値。Fable 5 はサイバー分類器により意図的に Opus 4.8 相当へ性能を落としているため、この差は一般ユーザーが体感できるものではない。CharXiv Reasoning（図表理解）は Claude 88.9 ⚠（ツールなし）／GPT-5.5 84.1 ◆／Gemini 3.5 Flash 84.2 ✅ だが、測定条件が異なる可能性が高く参考値扱いとした。

考察：難度の高い実務コーディング（FrontierCode：Cognition 社の実 PR 由来タスク）で GPT-5.5 に 5 倍超の差をつけているのが今世代の Claude の特徴です。一方この表の下 4 行は ⚠ 印、つまり一般公開版 Fable 5 では安全フォールバックにより数値が下がり得る領域です。

④ 1社のみ公表（直接比較不可）のベンチマーク

会社	単独公表のベンチマークと数値
Anthropic 多くは ⚠ Mythos 5 値	USAMO 2026 99.8、RiemannBench 55.0、SWE-bench Multilingual 92.2 / Multimodal 54.9、BioMysteryBench Hard 46.1、Vending-Bench 2 $5,680（Fable 5。Opus 4.8 の $5,787 に敗北）
OpenAI	FrontierMath Tier1–3 51.7（Pro 52.4）/ Tier4 35.4（Pro 39.6）※次節の注意参照、τ2-bench Telecom 98.0、GDPval（本家）84.9（Pro 82.3）、FinanceAgent 自社版 60.0、HealthBench Hard 31.5、社内投資銀行モデリング 88.5（Pro 88.6）、GeneBench 33.2（Pro）、BixBench（定性記述のみ）
Google	MRCR v2 1M 26.6、出力速度他社比約4倍、Box エンタープライズ評価 +19.6%、サイバー長期ベンチ +42%（対 Gemini 3 Flash）

「出していない」ことから見えるもの

Anthropic：ARC-AGI-2・MMMU-Pro・MRCR・FrontierMath を未公表。GPQA・AIME は「飽和した」として撤退を明言し、USAMO 2026 や RiemannBench などより難しい数学ベンチへ軸足を移した。
OpenAI：SWE-bench Verified・AIME を未公表。前回 84 で首位だった SWE-bench Verified を出さなくなったのは興味深い変化。また高compute版の GPT-5.5 Pro はコーディング・エージェント系の値を一切公表していない（次節参照）。
Google：最大の空白は Gemini 3.5 Pro 本体が存在しないこと。3.5 Flash では SWE-bench Verified・HLE ツールあり・医療法務系が未公表。

補足 — GPT-5.5 Pro（高compute版）にすると勝てるのか

GPT-5.5 には、応答時間と引き換えに推論計算量を増やした GPT-5.5 Pro があります。「Pro なら Claude に勝てるのか」を確認するため Pro の公表値を網羅的に調べたところ、OpenAI が発表表で公表している Pro 値は知識・推論系を中心とした 8 項目のみで（システムカードには別途バイオ・サイバー安全評価系の Pro 値がある）、Fable 5 が大差をつけているコーディング・エージェント系の Pro 値は存在しませんでした。

ベンチマーク	GPT-5.5（無印）	GPT-5.5 Pro	Claude 側との比較
HLE ツールなし	41.4	43.1	Mythos 5 の 59.0 に届かず
HLE ツールあり	52.2	57.2	Mythos 5 の 64.5 に届かず（Opus 4.8 の 57.9 とほぼ同等）
BrowseComp	84.4	90.1	Mythos 5 シングルエージェント（88.0）を逆転。マルチ構成（93.3）には届かず
GDPval（本家）	84.9	82.3	Pro の方が低い
FrontierMath Tier 1–3 / Tier 4	51.7 / 35.4	52.4 / 39.6	Anthropic・Google は新世代値を未公表（旧世代比較では Opus 4.7: 22.9、Gemini 3.1 Pro: 16.7 に大差）
社内投資銀行モデリング	88.5	88.6	—
GeneBench（遺伝学データ解析）	—	33.2	—

※ いずれも OpenAI 発表表（2026年4月23日）より。HLE の Pro 値は Anthropic システムカードの図（Figure 8.14.1.A）にも引用されており相互確認済み。第三者では Epoch AI が Epoch Capabilities Index 159（公開時点の新記録）を付与。Artificial Analysis・ARC Prize・LMArena に Pro の個別値は掲載されていない（2026年6月10日時点）。

ポイントは 4 つです。

コーディング・エージェント系の Pro 値はゼロ。OpenAI の発表表でも SWE-bench Pro・Terminal-Bench・GPQA・ARC-AGI-2 などの Pro 欄は「—」で、第三者測定も見当たらない。Fable 5 に 21pt 差をつけられた SWE-bench Pro が Pro で縮まるのかは検証不能。
HLE は Pro でも届かない。しかもツールありでは旧世代の GPT-5.4 Pro（58.7）が GPT-5.5 Pro（57.2）を上回る逆転が起きている。
唯一の明確な「Pro での逆転」は BrowseComp。Pro 90.1 は Mythos 5 のシングルエージェント値 88.0 を上回る。一方 GDPval は Pro の方が低く（82.3 < 84.9）、高計算量が実務タスクで常に有利とは限らない。
数学（FrontierMath）は Pro の独壇場だが注意付き。Tier 4 の 39.6 は旧世代の Opus 4.7（22.9）・Gemini 3.1 Pro（16.7）に大差。ただし新世代の Claude・Gemini の値が存在しないうえ、運営元の Epoch AI が 2026年5月11日に「問題の約 3 分の 1 に致命的エラー」を発見しレビュー中のため、このベンチマーク自体の数値が今後改訂される可能性がある。

同じベンチでも数値が割れる — Terminal-Bench の例

「誰が測定したか」の重要性を示す典型例が Terminal-Bench です。GPT-5.5 という同一モデルに対して、現在 4 つの公表値が並存しています。

測定者	バージョン / ハーネス	GPT-5.5 のスコア
OpenAI（自社）	Terminal-Bench 2.0	82.7
Google（公式比較表）	Terminal-Bench 2.1	78.2
Anthropic（公式比較表）	2.1 + Codex CLI ハーネス	83.4
リーダーボード公式再現（Harbor）	2.1 + mini-SWE-agent	81

※ バージョン（2.0/2.1）と実行ハーネスの違いで最大 5pt 以上変動する。本記事の①表では Anthropic がシステムカードで併記した条件（2.1）の値を採用した。

各社の公開姿勢の比較

項目	Anthropic	OpenAI	Google
公式公表のスコア数	ブログ表 15 行、システムカード §8 に 25+	ブログ ~10（コーディング・実務中心）、 SC は安全評価中心	14 ベンチ（3.5 Flash、競合比較付き）
競合スコアの併記	全行で併記（GPT-5.5・Gemini 3.1 Pro）	発表時に Opus 4.7 等と比較（数値の網羅性は低い）	全行で併記（Claude・GPT）
自社が負けた結果の掲載	OSWorld（Mythos Preview が上）、Vending-Bench（Opus 4.8 が上）等を掲載	ほぼなし	ARC-AGI-2・MRCR・GDPval-AA 等 GPT-5.5 勝ちの行も正直に掲載
特記事項	Fable / Mythos の分離報告はシステムカードのみ。ブログ表は「高い方」表示	公式ページが機械取得を遮断しており検証しづらい	フラッグシップ（3.5 Pro）未リリースのため数値が存在しない

まとめ — 用途別おすすめモデル

エージェントコーディング・企業実務・法務文書 → Claude Fable 5（SWE-bench Pro 80.0、GDPval-AA 1932、Harvey Legal Agent 13.3 でいずれも首位）
スコア出典: Anthropic 公式 + Artificial Analysis / Harvey（独立測定）
抽象推論・超長文検索・数学 → GPT-5.5（ARC-AGI-2 85.0、MRCR v2 128K 94.8。FrontierMath を公表する唯一のモデルで Pro なら Tier 4 39.6）
スコア出典: OpenAI 公式（ARC-AGI-2・FrontierMath）+ Google 公式比較表（MRCR）
マルチモーダル・金融エージェント・速度とコスト → Gemini 3.5 Flash（MMMU-Pro 83.6、Finance Agent v2 57.9、$1.50/$9 で出力速度約 4 倍）
スコア出典: Google 公式 + Vals AI（独立測定）

今世代の比較で新しく加わったリテラシーは 2 つです。第一に、安全フォールバックの有無がスコア報告に影響すること（Fable 5 の ⚠ 値）。第二に、リリース時期の非対称性です。各社は「自社発表時点の他社モデル」としか比較しないため、4 月の GPT-5.5・5 月の Gemini 3.5 は 6 月の Fable 5 と公式には比較していません（逆方向の比較のみ存在します）。Gemini 3.5 Pro が登場すれば構図はまた変わるはずで、引き続き「誰が・いつ・どの条件で測ったか」を確認する姿勢が重要です。

出典

Claude Fable 5 and Claude Mythos 5 — Anthropic（公式発表）
Claude Fable 5 / Mythos 5 System Card — Anthropic（Table 8.1.A・§8 Capabilities）
Models overview — Claude Docs（スペック・価格）
Introducing GPT-5.5 — OpenAI（公式発表）
GPT-5.5 System Card — OpenAI（HealthBench 系）
GPT-5.5 — OpenAI API Docs（スペック・価格）
Gemini 3.5: frontier intelligence with action — Google（公式発表）
Gemini — Google DeepMind（公式ベンチマーク比較表）
Gemini API Pricing — Google AI for Developers（価格）
GPT-5.5 — Wikipedia（OpenAI 公式値の引用確認用）
FrontierCode — Cognition（第三者測定）
CursorBench — Cursor（第三者測定）
Legal Agent Benchmark — Harvey（第三者測定）
Vending-Bench 2 — Andon Labs（第三者測定）
Artificial Analysis（GDPval-AA / CritPt の独立測定）
FrontierMath Tier 4 — Epoch AI（ベンチマーク運営元。問題エラーのレビュー告知・Epoch Capabilities Index）

※ Vals AI（Finance Agent v2）・Zapier（AutomationBench）・Databricks（OfficeQA Pro）・MathArena（ArxivMath）の測定値は Anthropic システムカード §8 の引用による。OpenAI 公式ページは機械的なアクセスを遮断しているため、発表表の数値は検索エンジンのインデックス・Wikipedia・複数の第三者記事（Vellum、Kingy AI 等）の転記を相互照合して確認した（SWE-bench Pro 58.6 など主要値は 3 社の資料で一致することを確認済み）。調査日: 2026年6月10日。

Claude Fable 5 vs GPT-5.5 vs Gemini 3.5 Flash — 3社最新フロンティアLLMベンチマーク徹底比較