GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1 Pro vs Muse Spark — 4モデルのベンチマーク徹底比較と得意・不得意マップ | 技術ブログ

2026年に入り、OpenAI・Anthropic・Google・Meta の 4 社がそれぞれフロンティアモデルをリリースしました。各社はモデル発表時にベンチマークスコアを公開していますが、同じモデルでも「誰が測定したか」によってスコアが変わるため、単純な数字の横比較には注意が必要です。

本記事では、「公式発表（一次ソース）」「Google DeepMind による同一条件比較」「第三者による独自評価」の3 種のソースを明確に区別し、4 モデルの得意・不得意を多角的に読み解きます。

比較対象モデル

項目	Claude Opus 4.6	GPT-5.4	Gemini 3.1 Pro	Muse Spark
開発元	Anthropic	OpenAI	Google DeepMind	Meta (MSL)
リリース	2026年2月	2026年3月	2026年2月	2026年4月
コンテキスト長	1M	1.05M	1M	262K
モダリティ（入力）	テキスト・画像	テキスト・画像	テキスト・画像・動画・音声	テキスト・画像・音声
価格（入力/出力 per MTok）	$5 / $25	$2.50 / $15	$2 / $12	無料（API）

※ 価格はいずれも標準コンテキスト時。各社公式サイト・OpenRouterより（2026年4月時点）。

本記事のデータソースについて

ベンチマークのスコアは「誰が測定したか」によって大きく変わります。評価ハーネス（テスト実行環境）や推論トークン予算が異なれば、同じモデルでもスコアが変動します。本記事では以下の 3 種類のソースを明確に区別して使用します。

区分	説明	信頼性
公式発表（自社測定）	各社が自社モデルについてブログやシステムカードで公表したスコア	自社に有利なベンチマーク・条件を選びやすい
GDM モデルカード（他社モデルも同一条件で測定）	Google が Gemini 3.1 Pro のモデルカードで、Opus 4.6・GPT-5.2 等も同一ハーネスで評価した結果	同一条件の横比較として最も公平。ただし GPT-5.4・Muse Spark は含まれない
第三者評価（BenchLM・Artificial Analysis 等）	独立機関が各モデルを独自に評価したスコア	公式が出さなかったベンチマークを補完するが、評価条件が公式と異なる場合がある

同一条件での横比較 — Google DeepMind モデルカード

Google DeepMind は Gemini 3.1 Pro のモデルカードで、自社モデルだけでなく Claude Opus 4.6・Sonnet 4.6・GPT-5.2 も同一の評価ハーネスでテストした結果を公開しています。同一条件での横比較として最も信頼性が高いデータです（ただし GPT-5.4 と Muse Spark は含まれていません）。

ベンチマーク	Gemini 3.1 Pro	Claude Opus 4.6	GPT-5.2
GPQA Diamond（科学推論）	94.3	91.3	92.4
HLE ツールなし（学術推論）	44.4	40.0	34.5
HLE Search+Code	51.4	53.1	45.5
ARC-AGI-2（抽象推論）	77.1	68.8	52.9
SWE-bench Verified（コーディング）	80.6	80.8	80.0
SWE-bench Pro	54.2	—	55.6
LiveCodeBench Pro Elo	2887	—	2393
Terminal-Bench 2.0	68.5	65.4	54.0
SciCode（科学コーディング）	59	52	52
APEX-Agents	33.5	29.8	23.0
GDPval-AA Elo（実務タスク）	1317	1606	1462
τ2-bench Retail	90.8	91.9	82.0
τ2-bench Telecom	99.3	99.3	98.7
MCP Atlas（ツール連携）	69.2	59.5	60.6
BrowseComp（ウェブ検索）	85.9	84.0	65.8
MMMU-Pro（マルチモーダル）	80.5	73.9	79.5
MMMLU（多言語）	92.6	91.1	89.6
MRCR v2 128K（ロングコンテキスト）	84.9	84.0	83.8

※ 全スコアは Google DeepMind Gemini 3.1 Pro モデルカードより。全モデルが同一ハーネスで評価されている。Opus 4.6 は Thinking (Max)、GPT-5.2 は Thinking (xhigh) 設定。太字青色が各行の最高スコア。

この表から読み取れること：同一条件では Gemini 3.1 Pro が 18 ベンチマーク中 12 で 1 位。しかし GDPval-AA（企業実務タスク）では Opus に約 300pt の大差で負けており、τ2-bench Retail でも Opus が上回っています。Gemini は科学推論・抽象推論・ウェブ検索に強く、Opus は実務タスク・HLE（ツール使用時）に強い、という棲み分けが見えます。

各社が公式に発表したベンチマーク

次に、各社が自社のブログやシステムカードで公表したスコア（一次ソース）を整理します。各社が「見せたかったもの」がここに表れます。

各社が自社のブログ・システムカード・モデルカードで公表したスコアだけを並べた表です。「—」はその会社が公式に数値を出していないことを意味します。「—」の多さが各社の公開姿勢を端的に示しています。

ベンチマーク	Opus 4.6 Anthropic ブログ+SC	GPT-5.4 OpenAI ブログ+SC	Gemini 3.1 Pro GDM モデルカード	Muse Spark Meta ブログ+チャート
GPQA Diamond（科学推論）	91.3	92.8	94.3	89.5
MMLU Pro（知識）	—	93	—	—
MMMLU（多言語）	91.1	—	92.6	—
HLE ツールなし（推論）	40.0	39.8	44.4	42.8
HLE ツール使用	53.0	52.1	51.4	50.4
HLE 探索モード（Contemplating等）	—	58.7	53.4	58.4
ARC-AGI-2（抽象推論）	68.8	73.3	77.1	42.5
AIME 2025（数学）	99.8	99	—	—
MATH-500（数学）	97.6	99	—	—
CharXiv（図表理解）	—	—	—	86.4
SWE-bench Verified	80.8	84	80.6	77.4
SWE-bench Pro	53.4	57.7	54.2	52.4
LiveCodeBench Pro	70.7	87.5	82.9	80.0
Terminal-Bench 2.0	65.4	75.1	68.5	59.0
OSWorld-Verified（PC操作）	72.7	75.0	—	—
BrowseComp（ウェブ検索）	84.0	82.7	85.9	—
APEX-Agents	29.8	—	33.5	—
MCP Atlas（ツール連携）	62.7	67.2	69.2	—
DeepSearchQA（検索）	73.7	73.6	69.7	74.8
GDPval-AA Elo（実務タスク）	1606	1672	1317	1444
BigLaw Bench（法律）	90.2	91	—	—
MMMU-Pro（マルチモーダル）	73.9	81.2	80.5	80.4
ScreenSpot Pro	83.1	85.4	84.4	84.1
HealthBench Hard（医療）	—	40.1	—	42.8
MedXpertQA Text（医療）	52.1	59.6	71.5	52.6
MedXpertQA MM（医療）	64.8	77.1	81.3	78.4
MRCR v2 128K	84.0	—	84.9	—
MRCR v2 1M（8-needle）	76	—	—	—
SciCode（科学コーディング）	52	52.5	59	—
IPhO 2025 Theory（物理）	—	93.5	87.7	82.6
FrontierScience Research	—	36.7	23.3	38.3

※ Opus: Anthropic 公式ブログ＋システムカード（SC）より。GPT-5.4: OpenAI 公式ブログ＋システムカードより（BenchLM で Self-reported として集約）。Gemini: GDM モデルカードより。Muse Spark: Meta 公式ブログ内のベンチマーク比較チャート（画像）より。SWE-bench Verified の Opus は SC の 80.8%（ブログでは prompt 調整版 81.4%）。「HLE 探索モード」は各社で評価モード（Search+Code / Contemplating / Pro 等）が異なるため直接比較には注意。各社が他社モデルも自社条件で評価しているため、同じモデルでも評価者によりスコアが異なる場合がある。太字青色が各行で最高。

この表から読み取れる各社の公開戦略

Anthropic：ブログでは SWE-bench Verified・HLE・MRCR v2 などエージェント性能を重点的にアピール（14.5 時間の持続稼働など）。一方、システムカードには GPQA Diamond・AIME・MATH-500・ARC-AGI-2 等を含む包括的なベンチマークが掲載されている。ただし HealthBench Hard は SC にも未掲載。
OpenAI：ブログでは OSWorld・GDPval・SWE-bench Pro の 3 つを「人間超え」の文脈で強調。ただしシステムカードには約 60 以上のベンチマークを掲載しており、技術文書レベルでは包括的。MMMLU（多言語）と APEX-Agents は未掲載。
Google：19 ベンチマーク＋競合比較を公開し、GDPval-AA（1317 Elo）で Opus に約 300pt 負けている結果も正直に掲載。4 社中で最も透明性が高い。
Meta：ブログの本文では HLE・FrontierScience の 2 つのみ言及しているが、画像チャートには約 20 のベンチマーク＋競合比較を掲載。GDM モデルカードと同様に他社モデルも自社条件で評価している。ただしテキストで数値を明示していないため見落としやすい。

第三者評価による補完 — 公式データだけでは見えない部分

各社が公式発表でカバーしていないベンチマークを、BenchLM（独自評価）や Artificial Analysis（独立評価機関）のデータで補完します。公式と異なる評価条件で測定されたスコアからは、各モデルの弱点がより鮮明に見えてきます。

Anthropic が公式で触れなかったスコア（BenchLM 独自評価）

ベンチマーク	BenchLM 評価	競合（自己申告値）との差
HealthBench Hard	14.8	GPT-5.4: 40.1、Muse Spark: 42.8（全モデル中最低）
MMMU-Pro（マルチモーダル）	77.3	GPT-5.4: 81.2、Gemini: 80.5。なお GDM 同一条件での Opus は 73.9 とさらに低い
LiveCodeBench Pro	70.7	GPT-5.4: 87.5 に大差
GPQA Diamond	89.2	GDM 同一条件では 91.3。評価条件で変動する好例

※ BenchLM は Claude Opus 4.6 を独自に評価（Independent）。評価ハーネスが GDM モデルカードと異なるため、同じベンチマークでもスコアが異なる場合がある（例: GPQA Diamond は GDM で 91.3、BenchLM で 89.2）。

考察：HealthBench Hard 14.8 は全モデル中で突出して低い。Anthropic のブログやシステムカードでは医療ベンチマークに触れておらず、苦手分野と考えられます。マルチモーダル（MMMU-Pro）や競技的コーディング（LiveCodeBench Pro）でも競合に劣ります。一方、GDM 同一条件では SWE-bench Verified 80.8（1 位）、GDPval-AA 1606（1 位）と実務系は強い。全モデルで比較すると GPT-5.4（SWE-bench 84、GDPval 1672）に次ぐ 2 位だが、ソースが異なる点に注意。

OpenAI がブログで強調しなかったスコア（システムカード Self-reported）

ベンチマーク	システムカード値	競合との比較
MMMLU（多言語）	未掲載	Gemini 92.6（GDM）、Opus 91.1（GDM）
BrowseComp（ウェブ検索）	82.7	Gemini 85.9（GDM）、Opus 84.0（GDM）に劣後
ARC-AGI-2（抽象推論）	73.3	Gemini 77.1（GDM）。中位
APEX-Agents	未掲載	Gemini 33.5（GDM）、Opus 29.8（GDM）

※ BenchLM 上の GPT-5.4 データは全て OpenAI の Self-reported（システムカード由来）。MMMLU・APEX-Agents はシステムカードにも掲載なし。

考察：GPT-5.4 は弱点が最も少ないオールラウンド型。数学（MATH-500 99、AIME 99）、コーディング（SWE-bench 84）、実務（GDPval 1672）と幅広く強い。ただし、MMMLU を一切公表していない点は注目に値します（MGSM 96・MMLU Pro X 94 は公表）。また、ウェブ検索（BrowseComp）やエージェント自律性（APEX-Agents）では Gemini に明確に劣る傾向があります。

Muse Spark の弱点が鮮明に見えるベンチマーク

Meta は公式ブログのチャート画像で約 20 ベンチマークを公開しており、ARC-AGI-2 などの弱いスコアも正直に掲載しています。以下は全社比較で Muse Spark の弱点が特に目立つ項目です。

ベンチマーク	Muse Spark	競合との比較	出典
ARC-AGI-2（抽象推論）	42.5	Gemini 77.1、GPT-5.4 73.3 の約半分	Meta チャート
Terminal-Bench 2.0	59.0	GPT-5.4 75.1 に 16pt 差	Meta チャート
SWE-bench Verified	77.4	GPT-5.4 84、Opus 80.8 に大差	Meta チャート
GDPval-AA Elo	1444	GPT-5.4 1672 に 228pt 差	Meta チャート
Intelligence Index v4.0	52	GPT-5.4 57、Gemini 57、Opus 53。4 位	AA
HealthBench Hard	42.8	GPT-5.4 40.1、Gemini 20.6。全モデル中 1 位	Meta チャート

※ Intelligence Index は Artificial Analysis による独立評価。その他は Meta 公式ブログのチャート画像内の値。

考察：Meta はブログのテキストでは HLE 58%・FrontierScience 38% の 2 つしか言及していませんが、チャート画像には約 20 ベンチマークを競合比較付きで掲載しており、ARC-AGI-2 42.5 など弱いスコアも正直に公開しています。抽象推論（ARC-AGI-2）が競合の約半分という明確な弱点がある一方、HealthBench Hard 42.8 は全モデル中 1 位。医療・科学研究に強く、コーディング・エージェント系では劣る特化型モデルです。API 無料という価格戦略と合わせ、「研究者向けの補完的モデル」としての位置づけと言えます。

各社の公開姿勢の比較

項目	Anthropic	OpenAI	Google	Meta
公式発表のスコア数	ブログ ~5、 SC ~15+	ブログ ~5、 SC ~60+	19 個（＋競合比較付き）	テキスト 2、チャート画像 ~20+
競合スコアの併記	定性的（「上回る」等）	一部あり	全ベンチマークで併記	全ベンチマークで併記（画像チャート内）
自社が負けた結果	非公表	非公表	GDPval 等を正直に掲載	ARC-AGI-2 等を正直に掲載
透明性評価	中〜高（SC あり）	中〜高（SC 充実）	最高	中（画像内に隠れがち）

まとめ — 用途別おすすめモデル

数学推論・コーディング全般・PC 自動操作 → GPT-5.4（MATH-500 99、SWE-bench 84、OSWorld 75.0%）
スコア出典: OpenAI システムカード (Self-reported)
長時間エージェント・企業実務タスク → Claude Opus 4.6（GDPval-AA 1606、14.5h 持続稼働）
スコア出典: GDPval は GDM モデルカード（Google による同一条件評価）
科学推論・マルチモーダル・ウェブリサーチ → Gemini 3.1 Pro（GPQA Diamond 94.3%、ARC-AGI-2 77.1%）
スコア出典: GDM モデルカード（Google 自社測定）
医療・科学研究・コスト重視 → Muse Spark（HealthBench 42.8、API 無料）
スコア出典: Meta 公式ブログチャート画像

ベンチマークの数字を鵜呑みにせず、「誰が測定したか」「どの評価条件か」まで意識することが、2026 年の AI モデル選択で最も重要なリテラシーです。万能なモデルは存在せず、用途に応じた使い分けが鍵になります。

出典

Gemini 3.1 Pro Model Card — Google DeepMind（同一条件比較の主要ソース）
Introducing Claude Opus 4.6 — Anthropic（Anthropic 公式発表）
Claude Opus 4.6 System Card — Anthropic（Anthropic システムカード）
Introducing GPT-5.4 — OpenAI（OpenAI 公式発表）
GPT-5.4 Thinking System Card — OpenAI（OpenAI システムカード）
Introducing Muse Spark — Meta AI（Meta 公式発表）
Claude Opus 4.6 — BenchLM（第三者独自評価）
GPT-5.4 — BenchLM（OpenAI Self-reported データの集約）
Muse Spark — Artificial Analysis（第三者独自評価）
Behind Gemini 3.1 Pro's '13 out of 16 Wins' — SmartScope（第三者分析）

GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1 Pro vs Muse Spark — 4モデルのベンチマーク徹底比較と得意・不得意マップ