Claude Fable 5 vs GPT-5.5 vs Gemini 3.5 Flash — 3社最新フロンティアLLMベンチマーク徹底比較

前回の比較記事(2026年4月)からわずか2か月で、フロンティアLLMは世代交代しました。OpenAI が GPT-5.5(4月23日)、Google が Gemini 3.5 Flash(5月19日)、そして Anthropic が Claude Fable 5 / Mythos 5(6月9日)をリリースし、SWE-bench Pro は前世代の 53〜58% から一気に 80% へ、GDPval-AA Elo は 1672 から 1932 へと跳ね上がっています。

本記事では前回同様、「誰が測定したか」によってスコアが変わることを前提に、「自社公表」「他社の公式資料への記載」「第三者評価」を明確に区別して 3 モデルの得意・不得意を読み解きます。さらに今回は、安全フォールバックがベンチマークスコアに影響するという新世代特有の論点(Fable 5 と Mythos 5 の二重構成)も解説します。

比較対象モデル

項目 Claude Fable 5 GPT-5.5 Gemini 3.5 Flash
開発元 Anthropic OpenAI Google DeepMind
リリース 2026年6月9日 2026年4月23日 2026年5月19日
位置づけ 制限版 Mythos 5 と同一モデルの一般公開版。サイバー・生物分野は Opus 4.8 へ自動フォールバック Thinking / Pro / Instant の3展開。コーディングと実務作業を前面に Flash 系の最新。フラッグシップの 3.5 Pro は未リリース(「来月提供」とのみ予告)
コンテキスト長 / 最大出力 1M / 128K 1.05M / 128K 1M / 65K
価格(入力/出力 per MTok) $10 / $50 $5 / $30 $1.50 / $9

※ 各社公式ドキュメント(Anthropic Models overview / OpenAI API docs / Gemini API pricing)より。2026年6月10日時点。

本記事のデータソースについて

前回記事と同じく、スコアの「測定者」を以下の記号で区別します。新世代では各社が競合モデルの公表値を自社資料に引用するケースが増えたため、今回は 4 区分です。

記号 意味 注意点
自社公表(ブログ・システムカード・モデルカード) 自社に有利なベンチマーク・条件を選びやすい
競合他社の公式資料に記載(自社からは未公表) 引用元の測定条件に依存する
独立第三者の測定(Artificial Analysis・Vals AI・Cursor・Zapier 等) 公式と評価条件が異なる場合がある
Mythos 5 の値(Fable 5 単体の値は未公表) 下記「Fable 5 と Mythos 5 の二重構成」を参照

新論点:Fable 5 と Mythos 5 の二重構成

Anthropic は今回、同一モデルを 2 つの形態で提供しています。一般公開版の Fable 5 は、サイバーセキュリティ・生物学関連のリクエストを分類器が検知すると Opus 4.8 に自動フォールバックします。制限版の Mythos 5 はこの安全装置を外した形態で、少数の承認済みパートナーのみ利用できます。

このためシステムカードでは両者のスコアが分離して報告されており、安全分類器が反応しやすいベンチマーク(HLE・医療・サイバー系)では Fable 5 単体の値が未公表です。Anthropic は「両者の差は通常 1〜3pt 以内、ただし該当分野では Fable 5 は Opus 4.8 寄りに低下する」と説明しています。本記事の ⚠ 印はこの注意が必要な値です。「安全装置の有無がベンチマークスコアの報告に影響する」初の世代と言えます。

① 3社の数値が揃うベンチマーク(11本)

まず、3 モデルすべてに何らかのソースの数値が存在するベンチマークです。

ベンチマーク(分野) Claude Fable 5 GPT-5.5 Gemini 3.5 Flash
SWE-bench Pro(エージェントコーディング)80.0 ✅58.6 ✅55.1 ✅
Terminal-Bench 2.1(CLIコーディング)※条件差注意84.3 ✅83.4 ◆ / 81 ◇76.2 ✅
OSWorld-Verified(PC操作)85.0 ✅78.7 ✅78.4 ✅
Humanity's Last Exam ツールなし(学術推論)59.0 ⚠43.1 ✅(Pro)40.2 ✅
GDPval-AA Elo(企業実務タスク)1932 ◇1769 ◇1656 ✅
Blueprint-Bench 2(空間推論)38.6 ✅36.2 ◆33.6 ✅
AutomationBench(業務自動化)17.4 ◇12.9 ◇14.5 ◇
Toolathlon(ツール使用)※Anthropic は内部ハーネス(約+3pt)61.7 ✅55.6 ◆56.5 ✅
Finance Agent v2(金融エージェント)56.3 ◇51.8 ◇57.9 ✅
MCP Atlas(MCPツール連携)※ハーネス差あり83.3 ✅75.3 ◆83.6 ✅
Legal Agent Benchmark(法務・Harvey held-out)13.3 ◇2.1 ◆0.8 ◆

※ GDPval-AA は Artificial Analysis 測定(2026年6月6日時点、Gemini 値は Google ブログにも掲載)。AutomationBench は Zapier の非公開保持セット、Finance Agent v2 は Vals AI、Legal Agent Benchmark は Harvey の held-out セット。GPT-5.5 系は Pro 値が公表されているベンチでは Pro 値を採用した(HLE 無印は 41.4。Pro 値は OpenAI 発表表に掲載され、Anthropic システムカードの図でも引用されている)。Gemini の HLE は 3.1 Pro だと 44.4 ✅。太字青色が各行の最高スコア。

集計:Claude が 9 勝(うち HLE は ⚠ Mythos 5 値での勝利。Fable 5 確定値に限ると 8 勝)、Gemini 3.5 Flash が 2 勝(金融・MCP)、GPT-5.5 は 0 勝。エージェントコーディング(SWE-bench Pro で +21.4pt 差)と実務タスクで Fable 5 の独走が目立ちます。一方 MCP Atlas は 0.3pt 差の接戦、金融エージェントは Gemini 3.5 Flash が首位です。

①′ Claude が未公表のためGPT vs Geminiの比較になる行

ベンチマーク(分野) Claude Fable 5 GPT-5.5 Gemini 3.5 Flash
ARC-AGI-2(抽象推論)未公表85.0 ✅72.1 ✅
MRCR v2 128K(ロングコンテキスト)未公表94.8 ◆77.3 ✅
MMMU-Pro(マルチモーダル推論)未公表81.2 ◆83.6 ✅

※ ARC-AGI-2 の GPT-5.5 値は OpenAI 発表表で 85.0(Google 公式比較表の測定では 84.6)。MRCR v2・MMMU-Pro の GPT-5.5 値は Google DeepMind 公式比較表より。Gemini 3.1 Pro は ARC-AGI-2 で 77.1。

前回記事で Gemini 3.1 Pro が首位だった ARC-AGI-2(77.1)は、GPT-5.5 が 85.0(Google 測定では 84.6)で奪取しました。Anthropic はこの 3 つを新モデルで公表しておらず、抽象推論・超長文・マルチモーダル推論の定番ベンチが空欄なのは気になるところです。

② Gemini 側が「3.1 Pro」の値になる比較

以下は Gemini 3.5 Flash の数値がなく、Google の現行フラッグシップ Gemini 3.1 Pro(2026年2月)の値で比較する行です。3.5 Pro が未リリースである以上、Google にとってやや不利な比較になる点に留意してください。

ベンチマーク(分野) Claude Fable 5 GPT-5.5 Gemini 3.1 Pro
SWE-bench Verified(コーディング)95.0 ✅未公表80.6 ✅
GDP.pdf(文書ビジョン実務)29.8 ✅24.9 ◆16.7 ◆
OfficeQA Pro(文書実務・Databricks測定)57.9 ◇52.6 ◇(自社測定 54.1 ✅)18.1 ◇
Humanity's Last Exam ツールあり64.5 ⚠57.2 ✅(Pro)51.4 ◆
BrowseComp(ウェブ検索エージェント)88.0 ⚠90.1 ✅(Pro)85.9 ◆
CritPt(物理研究・Artificial Analysis測定)28.6 ⚠27.1 ◇17.7 ◇
ArxivMath(研究数学・MathArena)78.5 ⚠71.5 ◇64.8 ◇(Preview)
GPQA Diamond(科学推論)※飽和気味94.1 ⚠93.6 ✅94.3 ✅

※ SWE-bench Verified は OpenAI が GPT-5.5 の値を公表していない(Anthropic の比較表でも「—」表記)。前回記事では GPT-5.4 が 84 で首位だった項目。CritPt は GPT-5.5 と 1.5pt 差の接戦。HLE・BrowseComp の GPT 値は Pro(無印は 52.2 / 84.4)。BrowseComp は Pro が Mythos 5 のシングルエージェント値(88.0)を上回る数少ない例だが、Mythos 5 のマルチエージェント構成は 93.3 でさらに上。GPQA Diamond は全モデル 94% 前後で飽和しており、Anthropic は今後の報告打ち切りを宣言済み(Gemini 値は 2026年2月の 3.1 Pro モデルカードより)。

③ Claude と GPT-5.5 の2社間でのみ比較可能

ベンチマーク(分野) Claude Fable 5 / Mythos 5 GPT-5.5
FrontierCode Diamond(エージェントコーディング・Cognition)29.3 ✅◇5.7 ◇
CursorBench(実環境コーディング・Cursor測定)72.9 ◇64.3 ◇
GraphWalks BFS 256K(ロングコンテキスト)91.1 ⚠73.7 ✅
HealthBench(医療)62.7 ⚠56.5 ✅
HealthBench Professional(医療)66.0 ⚠51.8 ✅
ExploitBench(攻撃的サイバー)78.0 ⚠34.0 ◆

※ ExploitBench は Mythos 5 の値。Fable 5 はサイバー分類器により意図的に Opus 4.8 相当へ性能を落としているため、この差は一般ユーザーが体感できるものではない。CharXiv Reasoning(図表理解)は Claude 88.9 ⚠(ツールなし)/GPT-5.5 84.1 ◆/Gemini 3.5 Flash 84.2 ✅ だが、測定条件が異なる可能性が高く参考値扱いとした。

考察:難度の高い実務コーディング(FrontierCode:Cognition 社の実 PR 由来タスク)で GPT-5.5 に 5 倍超の差をつけているのが今世代の Claude の特徴です。一方この表の下 4 行は ⚠ 印、つまり一般公開版 Fable 5 では安全フォールバックにより数値が下がり得る領域です。

④ 1社のみ公表(直接比較不可)のベンチマーク

会社単独公表のベンチマークと数値
Anthropic
多くは ⚠ Mythos 5 値
USAMO 2026 99.8、RiemannBench 55.0、SWE-bench Multilingual 92.2 / Multimodal 54.9、BioMysteryBench Hard 46.1、Vending-Bench 2 $5,680(Fable 5。Opus 4.8 の $5,787 に敗北
OpenAIFrontierMath Tier1–3 51.7(Pro 52.4)/ Tier4 35.4(Pro 39.6)※次節の注意参照、Tau2-bench Telecom 98.0、GDPval(本家)84.9(Pro 82.3)、FinanceAgent 自社版 60.0、HealthBench Hard 31.5、社内投資銀行モデリング 88.5(Pro 88.6)、GeneBench 33.2(Pro)、BixBench(定性記述のみ)
GoogleMRCR v2 1M 26.6、出力速度 他社比約4倍、Box エンタープライズ評価 +19.6%、サイバー長期ベンチ +42%(対 Gemini 3 Flash)

「出していない」ことから見えるもの

  • Anthropic:ARC-AGI-2・MMMU-Pro・MRCR・FrontierMath を未公表。GPQA・AIME は「飽和した」として撤退を明言し、USAMO 2026 や RiemannBench などより難しい数学ベンチへ軸足を移した。
  • OpenAI:SWE-bench Verified・AIME を未公表。前回 84 で首位だった SWE-bench Verified を出さなくなったのは興味深い変化。また高compute版の GPT-5.5 Pro はコーディング・エージェント系の値を一切公表していない(次節参照)。
  • Google:最大の空白は Gemini 3.5 Pro 本体が存在しないこと。3.5 Flash では SWE-bench Verified・HLE ツールあり・医療法務系が未公表。

補足 — GPT-5.5 Pro(高compute版)にすると勝てるのか

GPT-5.5 には、応答時間と引き換えに推論計算量を増やした GPT-5.5 Pro があります。「Pro なら Claude に勝てるのか」を確認するため Pro の公表値を網羅的に調べたところ、OpenAI が発表表で公表している Pro 値は知識・推論系を中心とした 8 項目のみで(システムカードには別途バイオ・サイバー安全評価系の Pro 値がある)、Fable 5 が大差をつけているコーディング・エージェント系の Pro 値は存在しませんでした。

ベンチマークGPT-5.5(無印)GPT-5.5 ProClaude 側との比較
HLE ツールなし41.443.1Mythos 5 の 59.0 に届かず
HLE ツールあり52.257.2Mythos 5 の 64.5 に届かず(Opus 4.8 の 57.9 とほぼ同等)
BrowseComp84.490.1Mythos 5 シングルエージェント(88.0)を逆転。マルチ構成(93.3)には届かず
GDPval(本家)84.982.3Pro の方が低い
FrontierMath Tier 1–3 / Tier 451.7 / 35.452.4 / 39.6Anthropic・Google は新世代値を未公表(旧世代比較では Opus 4.7: 22.9、Gemini 3.1 Pro: 16.7 に大差)
社内投資銀行モデリング88.588.6
GeneBench(遺伝学データ解析)33.2

※ いずれも OpenAI 発表表(2026年4月23日)より。HLE の Pro 値は Anthropic システムカードの図(Figure 8.14.1.A)にも引用されており相互確認済み。第三者では Epoch AI が Epoch Capabilities Index 159(公開時点の新記録)を付与。Artificial Analysis・ARC Prize・LMArena に Pro の個別値は掲載されていない(2026年6月10日時点)。

ポイントは 4 つです。

  • コーディング・エージェント系の Pro 値はゼロ。OpenAI の発表表でも SWE-bench Pro・Terminal-Bench・GPQA・ARC-AGI-2 などの Pro 欄は「—」で、第三者測定も見当たらない。Fable 5 に 21pt 差をつけられた SWE-bench Pro が Pro で縮まるのかは検証不能。
  • HLE は Pro でも届かない。しかもツールありでは旧世代の GPT-5.4 Pro(58.7)が GPT-5.5 Pro(57.2)を上回る逆転が起きている。
  • 唯一の明確な「Pro での逆転」は BrowseComp。Pro 90.1 は Mythos 5 のシングルエージェント値 88.0 を上回る。一方 GDPval は Pro の方が低く(82.3 < 84.9)、高計算量が実務タスクで常に有利とは限らない。
  • 数学(FrontierMath)は Pro の独壇場だが注意付き。Tier 4 の 39.6 は旧世代の Opus 4.7(22.9)・Gemini 3.1 Pro(16.7)に大差。ただし新世代の Claude・Gemini の値が存在しないうえ、運営元の Epoch AI が 2026年5月11日に「問題の約 3 分の 1 に致命的エラー」を発見しレビュー中のため、このベンチマーク自体の数値が今後改訂される可能性がある。

同じベンチでも数値が割れる — Terminal-Bench の例

「誰が測定したか」の重要性を示す典型例が Terminal-Bench です。GPT-5.5 という同一モデルに対して、現在 4 つの公表値が並存しています。

測定者バージョン / ハーネスGPT-5.5 のスコア
OpenAI(自社)Terminal-Bench 2.082.7
Google(公式比較表)Terminal-Bench 2.178.2
Anthropic(公式比較表)2.1 + Codex CLI ハーネス83.4
リーダーボード公式再現(Harbor)2.1 + mini-SWE-agent81

※ バージョン(2.0/2.1)と実行ハーネスの違いで最大 5pt 以上変動する。本記事の①表では Anthropic がシステムカードで併記した条件(2.1)の値を採用した。

各社の公開姿勢の比較

項目AnthropicOpenAIGoogle
公式公表のスコア数ブログ表 15 行、
システムカード §8 に 25+
ブログ ~10(コーディング・実務中心)、
SC は安全評価中心
14 ベンチ
(3.5 Flash、競合比較付き)
競合スコアの併記全行で併記(GPT-5.5・Gemini 3.1 Pro)発表時に Opus 4.7 等と比較(数値の網羅性は低い)全行で併記(Claude・GPT)
自社が負けた結果の掲載OSWorld(Mythos Preview が上)、Vending-Bench(Opus 4.8 が上)等を掲載ほぼなしARC-AGI-2・MRCR・GDPval-AA 等 GPT-5.5 勝ちの行も正直に掲載
特記事項Fable / Mythos の分離報告はシステムカードのみ。ブログ表は「高い方」表示公式ページが機械取得を遮断しており検証しづらいフラッグシップ(3.5 Pro)未リリースのため数値が存在しない

まとめ — 用途別おすすめモデル

  • エージェントコーディング・企業実務・法務文書 → Claude Fable 5(SWE-bench Pro 80.0、GDPval-AA 1932、Harvey Legal Agent 13.3 でいずれも首位)
    スコア出典: Anthropic 公式 + Artificial Analysis / Harvey(独立測定)
  • 抽象推論・超長文検索・数学 → GPT-5.5(ARC-AGI-2 85.0、MRCR v2 128K 94.8。FrontierMath を公表する唯一のモデルで Pro なら Tier 4 39.6)
    スコア出典: OpenAI 公式(ARC-AGI-2・FrontierMath)+ Google 公式比較表(MRCR)
  • マルチモーダル・金融エージェント・速度とコスト → Gemini 3.5 Flash(MMMU-Pro 83.6、Finance Agent v2 57.9、$1.50/$9 で出力速度約 4 倍)
    スコア出典: Google 公式 + Vals AI(独立測定)

今世代の比較で新しく加わったリテラシーは 2 つです。第一に、安全フォールバックの有無がスコア報告に影響すること(Fable 5 の ⚠ 値)。第二に、リリース時期の非対称性です。各社は「自社発表時点の他社モデル」としか比較しないため、4 月の GPT-5.5・5 月の Gemini 3.5 は 6 月の Fable 5 と公式には比較していません(逆方向の比較のみ存在します)。Gemini 3.5 Pro が登場すれば構図はまた変わるはずで、引き続き「誰が・いつ・どの条件で測ったか」を確認する姿勢が重要です。

出典

※ Vals AI(Finance Agent v2)・Zapier(AutomationBench)・Databricks(OfficeQA Pro)・MathArena(ArxivMath)の測定値は Anthropic システムカード §8 の引用による。OpenAI 公式ページは機械的なアクセスを遮断しているため、発表表の数値は検索エンジンのインデックス・Wikipedia・複数の第三者記事(Vellum、Kingy AI 等)の転記を相互照合して確認した(SWE-bench Pro 58.6 など主要値は 3 社の資料で一致することを確認済み)。調査日: 2026年6月10日。

← 技術ブログ一覧に戻る

まずは課題をご相談ください

現場のデータ形式や運用フローに合わせて、最適な機能設計をご提案します。

お問い合わせ