2026年に入り、OpenAI・Anthropic・Google・Meta の 4 社がそれぞれフロンティアモデルをリリースしました。各社はモデル発表時にベンチマークスコアを公開していますが、同じモデルでも「誰が測定したか」によってスコアが変わるため、単純な数字の横比較には注意が必要です。
本記事では、「公式発表(一次ソース)」「Google DeepMind による同一条件比較」「第三者による独自評価」の3 種のソースを明確に区別し、4 モデルの得意・不得意を多角的に読み解きます。
比較対象モデル
| 項目 | Claude Opus 4.6 | GPT-5.4 | Gemini 3.1 Pro | Muse Spark |
|---|---|---|---|---|
| 開発元 | Anthropic | OpenAI | Google DeepMind | Meta (MSL) |
| リリース | 2026年2月 | 2026年3月 | 2026年2月 | 2026年4月 |
| コンテキスト長 | 1M | 1.05M | 1M | 262K |
| モダリティ(入力) | テキスト・画像 | テキスト・画像 | テキスト・画像・動画・音声 | テキスト・画像・音声 |
| 価格(入力/出力 per MTok) | $5 / $25 | $2.50 / $15 | $2 / $12 | 無料(API) |
※ 価格はいずれも標準コンテキスト時。各社公式サイト・OpenRouterより(2026年4月時点)。
本記事のデータソースについて
ベンチマークのスコアは「誰が測定したか」によって大きく変わります。評価ハーネス(テスト実行環境)や推論トークン予算が異なれば、同じモデルでもスコアが変動します。本記事では以下の 3 種類のソースを明確に区別して使用します。
| 区分 | 説明 | 信頼性 |
|---|---|---|
| 公式発表(自社測定) | 各社が自社モデルについてブログやシステムカードで公表したスコア | 自社に有利なベンチマーク・条件を選びやすい |
| GDM モデルカード(他社モデルも同一条件で測定) | Google が Gemini 3.1 Pro のモデルカードで、Opus 4.6・GPT-5.2 等も同一ハーネスで評価した結果 | 同一条件の横比較として最も公平。ただし GPT-5.4・Muse Spark は含まれない |
| 第三者評価(BenchLM・Artificial Analysis 等) | 独立機関が各モデルを独自に評価したスコア | 公式が出さなかったベンチマークを補完するが、評価条件が公式と異なる場合がある |
同一条件での横比較 — Google DeepMind モデルカード
Google DeepMind は Gemini 3.1 Pro のモデルカードで、自社モデルだけでなく Claude Opus 4.6・Sonnet 4.6・GPT-5.2 も同一の評価ハーネスでテストした結果を公開しています。同一条件での横比較として最も信頼性が高いデータです(ただし GPT-5.4 と Muse Spark は含まれていません)。
| ベンチマーク | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2 |
|---|---|---|---|
| GPQA Diamond(科学推論) | 94.3 | 91.3 | 92.4 |
| HLE ツールなし(学術推論) | 44.4 | 40.0 | 34.5 |
| HLE Search+Code | 51.4 | 53.1 | 45.5 |
| ARC-AGI-2(抽象推論) | 77.1 | 68.8 | 52.9 |
| SWE-bench Verified(コーディング) | 80.6 | 80.8 | 80.0 |
| SWE-bench Pro | 54.2 | — | 55.6 |
| LiveCodeBench Pro Elo | 2887 | — | 2393 |
| Terminal-Bench 2.0 | 68.5 | 65.4 | 54.0 |
| SciCode(科学コーディング) | 59 | 52 | 52 |
| APEX-Agents | 33.5 | 29.8 | 23.0 |
| GDPval-AA Elo(実務タスク) | 1317 | 1606 | 1462 |
| τ2-bench Retail | 90.8 | 91.9 | 82.0 |
| τ2-bench Telecom | 99.3 | 99.3 | 98.7 |
| MCP Atlas(ツール連携) | 69.2 | 59.5 | 60.6 |
| BrowseComp(ウェブ検索) | 85.9 | 84.0 | 65.8 |
| MMMU-Pro(マルチモーダル) | 80.5 | 73.9 | 79.5 |
| MMMLU(多言語) | 92.6 | 91.1 | 89.6 |
| MRCR v2 128K(ロングコンテキスト) | 84.9 | 84.0 | 83.8 |
※ 全スコアは Google DeepMind Gemini 3.1 Pro モデルカードより。全モデルが同一ハーネスで評価されている。Opus 4.6 は Thinking (Max)、GPT-5.2 は Thinking (xhigh) 設定。太字青色が各行の最高スコア。
この表から読み取れること:同一条件では Gemini 3.1 Pro が 18 ベンチマーク中 12 で 1 位。しかし GDPval-AA(企業実務タスク)では Opus に約 300pt の大差で負けており、τ2-bench Retail でも Opus が上回っています。Gemini は科学推論・抽象推論・ウェブ検索に強く、Opus は実務タスク・HLE(ツール使用時)に強い、という棲み分けが見えます。
各社が公式に発表したベンチマーク
次に、各社が自社のブログやシステムカードで公表したスコア(一次ソース)を整理します。各社が「見せたかったもの」がここに表れます。
各社が自社のブログ・システムカード・モデルカードで公表したスコアだけを並べた表です。「—」はその会社が公式に数値を出していないことを意味します。「—」の多さが各社の公開姿勢を端的に示しています。
| ベンチマーク | Opus 4.6 Anthropic ブログ+SC |
GPT-5.4 OpenAI ブログ+SC |
Gemini 3.1 Pro GDM モデルカード |
Muse Spark Meta ブログ+チャート |
|---|---|---|---|---|
| GPQA Diamond(科学推論) | 91.3 | 92.8 | 94.3 | 89.5 |
| MMLU Pro(知識) | — | 93 | — | — |
| MMMLU(多言語) | 91.1 | — | 92.6 | — |
| HLE ツールなし(推論) | 40.0 | 39.8 | 44.4 | 42.8 |
| HLE ツール使用 | 53.0 | 52.1 | 51.4 | 50.4 |
| HLE 探索モード(Contemplating等) | — | 58.7 | 53.4 | 58.4 |
| ARC-AGI-2(抽象推論) | 68.8 | 73.3 | 77.1 | 42.5 |
| AIME 2025(数学) | 99.8 | 99 | — | — |
| MATH-500(数学) | 97.6 | 99 | — | — |
| CharXiv(図表理解) | — | — | — | 86.4 |
| SWE-bench Verified | 80.8 | 84 | 80.6 | 77.4 |
| SWE-bench Pro | 53.4 | 57.7 | 54.2 | 52.4 |
| LiveCodeBench Pro | 70.7 | 87.5 | 82.9 | 80.0 |
| Terminal-Bench 2.0 | 65.4 | 75.1 | 68.5 | 59.0 |
| OSWorld-Verified(PC操作) | 72.7 | 75.0 | — | — |
| BrowseComp(ウェブ検索) | 84.0 | 82.7 | 85.9 | — |
| APEX-Agents | 29.8 | — | 33.5 | — |
| MCP Atlas(ツール連携) | 62.7 | 67.2 | 69.2 | — |
| DeepSearchQA(検索) | 73.7 | 73.6 | 69.7 | 74.8 |
| GDPval-AA Elo(実務タスク) | 1606 | 1672 | 1317 | 1444 |
| BigLaw Bench(法律) | 90.2 | 91 | — | — |
| MMMU-Pro(マルチモーダル) | 73.9 | 81.2 | 80.5 | 80.4 |
| ScreenSpot Pro | 83.1 | 85.4 | 84.4 | 84.1 |
| HealthBench Hard(医療) | — | 40.1 | — | 42.8 |
| MedXpertQA Text(医療) | 52.1 | 59.6 | 71.5 | 52.6 |
| MedXpertQA MM(医療) | 64.8 | 77.1 | 81.3 | 78.4 |
| MRCR v2 128K | 84.0 | — | 84.9 | — |
| MRCR v2 1M(8-needle) | 76 | — | — | — |
| SciCode(科学コーディング) | 52 | 52.5 | 59 | — |
| IPhO 2025 Theory(物理) | — | 93.5 | 87.7 | 82.6 |
| FrontierScience Research | — | 36.7 | 23.3 | 38.3 |
※ Opus: Anthropic 公式ブログ+システムカード(SC)より。GPT-5.4: OpenAI 公式ブログ+システムカードより(BenchLM で Self-reported として集約)。Gemini: GDM モデルカードより。Muse Spark: Meta 公式ブログ内のベンチマーク比較チャート(画像)より。SWE-bench Verified の Opus は SC の 80.8%(ブログでは prompt 調整版 81.4%)。「HLE 探索モード」は各社で評価モード(Search+Code / Contemplating / Pro 等)が異なるため直接比較には注意。各社が他社モデルも自社条件で評価しているため、同じモデルでも評価者によりスコアが異なる場合がある。太字青色が各行で最高。
この表から読み取れる各社の公開戦略
- Anthropic:ブログでは SWE-bench Verified・HLE・MRCR v2 などエージェント性能を重点的にアピール(14.5 時間の持続稼働など)。一方、システムカードには GPQA Diamond・AIME・MATH-500・ARC-AGI-2 等を含む包括的なベンチマークが掲載されている。ただし HealthBench Hard は SC にも未掲載。
- OpenAI:ブログでは OSWorld・GDPval・SWE-bench Pro の 3 つを「人間超え」の文脈で強調。ただしシステムカードには約 60 以上のベンチマークを掲載しており、技術文書レベルでは包括的。MMMLU(多言語)と APEX-Agents は未掲載。
- Google:19 ベンチマーク+競合比較を公開し、GDPval-AA(1317 Elo)で Opus に約 300pt 負けている結果も正直に掲載。4 社中で最も透明性が高い。
- Meta:ブログの本文では HLE・FrontierScience の 2 つのみ言及しているが、画像チャートには約 20 のベンチマーク+競合比較を掲載。GDM モデルカードと同様に他社モデルも自社条件で評価している。ただしテキストで数値を明示していないため見落としやすい。
第三者評価による補完 — 公式データだけでは見えない部分
各社が公式発表でカバーしていないベンチマークを、BenchLM(独自評価)や Artificial Analysis(独立評価機関)のデータで補完します。公式と異なる評価条件で測定されたスコアからは、各モデルの弱点がより鮮明に見えてきます。
Anthropic が公式で触れなかったスコア(BenchLM 独自評価)
| ベンチマーク | BenchLM 評価 | 競合(自己申告値)との差 |
|---|---|---|
| HealthBench Hard | 14.8 | GPT-5.4: 40.1、Muse Spark: 42.8(全モデル中最低) |
| MMMU-Pro(マルチモーダル) | 77.3 | GPT-5.4: 81.2、Gemini: 80.5。なお GDM 同一条件での Opus は 73.9 とさらに低い |
| LiveCodeBench Pro | 70.7 | GPT-5.4: 87.5 に大差 |
| GPQA Diamond | 89.2 | GDM 同一条件では 91.3。評価条件で変動する好例 |
※ BenchLM は Claude Opus 4.6 を独自に評価(Independent)。評価ハーネスが GDM モデルカードと異なるため、同じベンチマークでもスコアが異なる場合がある(例: GPQA Diamond は GDM で 91.3、BenchLM で 89.2)。
考察:HealthBench Hard 14.8 は全モデル中で突出して低い。Anthropic のブログやシステムカードでは医療ベンチマークに触れておらず、苦手分野と考えられます。マルチモーダル(MMMU-Pro)や競技的コーディング(LiveCodeBench Pro)でも競合に劣ります。一方、GDM 同一条件では SWE-bench Verified 80.8(1 位)、GDPval-AA 1606(1 位)と実務系は強い。全モデルで比較すると GPT-5.4(SWE-bench 84、GDPval 1672)に次ぐ 2 位だが、ソースが異なる点に注意。
OpenAI がブログで強調しなかったスコア(システムカード Self-reported)
| ベンチマーク | システムカード値 | 競合との比較 |
|---|---|---|
| MMMLU(多言語) | 未掲載 | Gemini 92.6(GDM)、Opus 91.1(GDM) |
| BrowseComp(ウェブ検索) | 82.7 | Gemini 85.9(GDM)、Opus 84.0(GDM)に劣後 |
| ARC-AGI-2(抽象推論) | 73.3 | Gemini 77.1(GDM)。中位 |
| APEX-Agents | 未掲載 | Gemini 33.5(GDM)、Opus 29.8(GDM) |
※ BenchLM 上の GPT-5.4 データは全て OpenAI の Self-reported(システムカード由来)。MMMLU・APEX-Agents はシステムカードにも掲載なし。
考察:GPT-5.4 は弱点が最も少ないオールラウンド型。数学(MATH-500 99、AIME 99)、コーディング(SWE-bench 84)、実務(GDPval 1672)と幅広く強い。ただし、MMMLU を一切公表していない点は注目に値します(MGSM 96・MMLU Pro X 94 は公表)。また、ウェブ検索(BrowseComp)やエージェント自律性(APEX-Agents)では Gemini に明確に劣る傾向があります。
Muse Spark の弱点が鮮明に見えるベンチマーク
Meta は公式ブログのチャート画像で約 20 ベンチマークを公開しており、ARC-AGI-2 などの弱いスコアも正直に掲載しています。以下は全社比較で Muse Spark の弱点が特に目立つ項目です。
| ベンチマーク | Muse Spark | 競合との比較 | 出典 |
|---|---|---|---|
| ARC-AGI-2(抽象推論) | 42.5 | Gemini 77.1、GPT-5.4 73.3 の約半分 | Meta チャート |
| Terminal-Bench 2.0 | 59.0 | GPT-5.4 75.1 に 16pt 差 | Meta チャート |
| SWE-bench Verified | 77.4 | GPT-5.4 84、Opus 80.8 に大差 | Meta チャート |
| GDPval-AA Elo | 1444 | GPT-5.4 1672 に 228pt 差 | Meta チャート |
| Intelligence Index v4.0 | 52 | GPT-5.4 57、Gemini 57、Opus 53。4 位 | AA |
| HealthBench Hard | 42.8 | GPT-5.4 40.1、Gemini 20.6。全モデル中 1 位 | Meta チャート |
※ Intelligence Index は Artificial Analysis による独立評価。その他は Meta 公式ブログのチャート画像内の値。
考察:Meta はブログのテキストでは HLE 58%・FrontierScience 38% の 2 つしか言及していませんが、チャート画像には約 20 ベンチマークを競合比較付きで掲載しており、ARC-AGI-2 42.5 など弱いスコアも正直に公開しています。抽象推論(ARC-AGI-2)が競合の約半分という明確な弱点がある一方、HealthBench Hard 42.8 は全モデル中 1 位。医療・科学研究に強く、コーディング・エージェント系では劣る特化型モデルです。API 無料という価格戦略と合わせ、「研究者向けの補完的モデル」としての位置づけと言えます。
各社の公開姿勢の比較
| 項目 | Anthropic | OpenAI | Meta | |
|---|---|---|---|---|
| 公式発表のスコア数 | ブログ ~5、 SC ~15+ | ブログ ~5、 SC ~60+ | 19 個 (+競合比較付き) | テキスト 2、 チャート画像 ~20+ |
| 競合スコアの併記 | 定性的 (「上回る」等) | 一部あり | 全ベンチマークで併記 | 全ベンチマークで併記 (画像チャート内) |
| 自社が負けた結果 | 非公表 | 非公表 | GDPval 等を正直に掲載 | ARC-AGI-2 等を正直に掲載 |
| 透明性評価 | 中〜高 (SC あり) | 中〜高 (SC 充実) | 最高 | 中 (画像内に隠れがち) |
まとめ — 用途別おすすめモデル
- 数学推論・コーディング全般・PC 自動操作 → GPT-5.4(MATH-500 99、SWE-bench 84、OSWorld 75.0%)
スコア出典: OpenAI システムカード (Self-reported) - 長時間エージェント・企業実務タスク → Claude Opus 4.6(GDPval-AA 1606、14.5h 持続稼働)
スコア出典: GDPval は GDM モデルカード(Google による同一条件評価) - 科学推論・マルチモーダル・ウェブリサーチ → Gemini 3.1 Pro(GPQA Diamond 94.3%、ARC-AGI-2 77.1%)
スコア出典: GDM モデルカード(Google 自社測定) - 医療・科学研究・コスト重視 → Muse Spark(HealthBench 42.8、API 無料)
スコア出典: Meta 公式ブログ チャート画像
ベンチマークの数字を鵜呑みにせず、「誰が測定したか」「どの評価条件か」まで意識することが、2026 年の AI モデル選択で最も重要なリテラシーです。万能なモデルは存在せず、用途に応じた使い分けが鍵になります。
出典
- Gemini 3.1 Pro Model Card — Google DeepMind(同一条件比較の主要ソース)
- Introducing Claude Opus 4.6 — Anthropic(Anthropic 公式発表)
- Claude Opus 4.6 System Card — Anthropic(Anthropic システムカード)
- Introducing GPT-5.4 — OpenAI(OpenAI 公式発表)
- GPT-5.4 Thinking System Card — OpenAI(OpenAI システムカード)
- Introducing Muse Spark — Meta AI(Meta 公式発表)
- Claude Opus 4.6 — BenchLM(第三者独自評価)
- GPT-5.4 — BenchLM(OpenAI Self-reported データの集約)
- Muse Spark — Artificial Analysis(第三者独自評価)
- Behind Gemini 3.1 Pro's '13 out of 16 Wins' — SmartScope(第三者分析)