GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1 Pro vs Muse Spark — 4モデルのベンチマーク徹底比較と得意・不得意マップ

2026年に入り、OpenAI・Anthropic・Google・Meta の 4 社がそれぞれフロンティアモデルをリリースしました。各社はモデル発表時にベンチマークスコアを公開していますが、同じモデルでも「誰が測定したか」によってスコアが変わるため、単純な数字の横比較には注意が必要です。

本記事では、「公式発表(一次ソース)」「Google DeepMind による同一条件比較」「第三者による独自評価」の3 種のソースを明確に区別し、4 モデルの得意・不得意を多角的に読み解きます。

比較対象モデル

項目 Claude Opus 4.6 GPT-5.4 Gemini 3.1 Pro Muse Spark
開発元 Anthropic OpenAI Google DeepMind Meta (MSL)
リリース 2026年2月 2026年3月 2026年2月 2026年4月
コンテキスト長 1M 1.05M 1M 262K
モダリティ(入力) テキスト・画像 テキスト・画像 テキスト・画像・動画・音声 テキスト・画像・音声
価格(入力/出力 per MTok) $5 / $25 $2.50 / $15 $2 / $12 無料(API)

※ 価格はいずれも標準コンテキスト時。各社公式サイト・OpenRouterより(2026年4月時点)。

本記事のデータソースについて

ベンチマークのスコアは「誰が測定したか」によって大きく変わります。評価ハーネス(テスト実行環境)や推論トークン予算が異なれば、同じモデルでもスコアが変動します。本記事では以下の 3 種類のソースを明確に区別して使用します。

区分 説明 信頼性
公式発表(自社測定) 各社が自社モデルについてブログやシステムカードで公表したスコア 自社に有利なベンチマーク・条件を選びやすい
GDM モデルカード(他社モデルも同一条件で測定) Google が Gemini 3.1 Pro のモデルカードで、Opus 4.6・GPT-5.2 等も同一ハーネスで評価した結果 同一条件の横比較として最も公平。ただし GPT-5.4・Muse Spark は含まれない
第三者評価(BenchLM・Artificial Analysis 等) 独立機関が各モデルを独自に評価したスコア 公式が出さなかったベンチマークを補完するが、評価条件が公式と異なる場合がある

同一条件での横比較 — Google DeepMind モデルカード

Google DeepMind は Gemini 3.1 Pro のモデルカードで、自社モデルだけでなく Claude Opus 4.6・Sonnet 4.6・GPT-5.2 も同一の評価ハーネスでテストした結果を公開しています。同一条件での横比較として最も信頼性が高いデータです(ただし GPT-5.4 と Muse Spark は含まれていません)。

ベンチマーク Gemini 3.1 Pro Claude Opus 4.6 GPT-5.2
GPQA Diamond(科学推論)94.391.392.4
HLE ツールなし(学術推論)44.440.034.5
HLE Search+Code51.453.145.5
ARC-AGI-2(抽象推論)77.168.852.9
SWE-bench Verified(コーディング)80.680.880.0
SWE-bench Pro54.255.6
LiveCodeBench Pro Elo28872393
Terminal-Bench 2.068.565.454.0
SciCode(科学コーディング)595252
APEX-Agents33.529.823.0
GDPval-AA Elo(実務タスク)131716061462
τ2-bench Retail90.891.982.0
τ2-bench Telecom99.399.398.7
MCP Atlas(ツール連携)69.259.560.6
BrowseComp(ウェブ検索)85.984.065.8
MMMU-Pro(マルチモーダル)80.573.979.5
MMMLU(多言語)92.691.189.6
MRCR v2 128K(ロングコンテキスト)84.984.083.8

※ 全スコアは Google DeepMind Gemini 3.1 Pro モデルカードより。全モデルが同一ハーネスで評価されている。Opus 4.6 は Thinking (Max)、GPT-5.2 は Thinking (xhigh) 設定。太字青色が各行の最高スコア。

この表から読み取れること:同一条件では Gemini 3.1 Pro が 18 ベンチマーク中 12 で 1 位。しかし GDPval-AA(企業実務タスク)では Opus に約 300pt の大差で負けており、τ2-bench Retail でも Opus が上回っています。Gemini は科学推論・抽象推論・ウェブ検索に強く、Opus は実務タスク・HLE(ツール使用時)に強い、という棲み分けが見えます。

各社が公式に発表したベンチマーク

次に、各社が自社のブログやシステムカードで公表したスコア(一次ソース)を整理します。各社が「見せたかったもの」がここに表れます。

各社が自社のブログ・システムカード・モデルカードで公表したスコアだけを並べた表です。「—」はその会社が公式に数値を出していないことを意味します。「—」の多さが各社の公開姿勢を端的に示しています。

ベンチマーク Opus 4.6
Anthropic ブログ+SC
GPT-5.4
OpenAI ブログ+SC
Gemini 3.1 Pro
GDM モデルカード
Muse Spark
Meta ブログ+チャート
GPQA Diamond(科学推論)91.392.894.389.5
MMLU Pro(知識)93
MMMLU(多言語)91.192.6
HLE ツールなし(推論)40.039.844.442.8
HLE ツール使用53.052.151.450.4
HLE 探索モード(Contemplating等)58.753.458.4
ARC-AGI-2(抽象推論)68.873.377.142.5
AIME 2025(数学)99.899
MATH-500(数学)97.699
CharXiv(図表理解)86.4
SWE-bench Verified80.88480.677.4
SWE-bench Pro53.457.754.252.4
LiveCodeBench Pro70.787.582.980.0
Terminal-Bench 2.065.475.168.559.0
OSWorld-Verified(PC操作)72.775.0
BrowseComp(ウェブ検索)84.082.785.9
APEX-Agents29.833.5
MCP Atlas(ツール連携)62.767.269.2
DeepSearchQA(検索)73.773.669.774.8
GDPval-AA Elo(実務タスク)1606167213171444
BigLaw Bench(法律)90.291
MMMU-Pro(マルチモーダル)73.981.280.580.4
ScreenSpot Pro83.185.484.484.1
HealthBench Hard(医療)40.142.8
MedXpertQA Text(医療)52.159.671.552.6
MedXpertQA MM(医療)64.877.181.378.4
MRCR v2 128K84.084.9
MRCR v2 1M(8-needle)76
SciCode(科学コーディング)5252.559
IPhO 2025 Theory(物理)93.587.782.6
FrontierScience Research36.723.338.3

※ Opus: Anthropic 公式ブログシステムカード(SC)より。GPT-5.4: OpenAI 公式ブログシステムカードより(BenchLM で Self-reported として集約)。Gemini: GDM モデルカードより。Muse Spark: Meta 公式ブログ内のベンチマーク比較チャート(画像)より。SWE-bench Verified の Opus は SC の 80.8%(ブログでは prompt 調整版 81.4%)。「HLE 探索モード」は各社で評価モード(Search+Code / Contemplating / Pro 等)が異なるため直接比較には注意。各社が他社モデルも自社条件で評価しているため、同じモデルでも評価者によりスコアが異なる場合がある。太字青色が各行で最高。

この表から読み取れる各社の公開戦略

  • Anthropic:ブログでは SWE-bench Verified・HLE・MRCR v2 などエージェント性能を重点的にアピール(14.5 時間の持続稼働など)。一方、システムカードには GPQA Diamond・AIME・MATH-500・ARC-AGI-2 等を含む包括的なベンチマークが掲載されている。ただし HealthBench Hard は SC にも未掲載。
  • OpenAI:ブログでは OSWorld・GDPval・SWE-bench Pro の 3 つを「人間超え」の文脈で強調。ただしシステムカードには約 60 以上のベンチマークを掲載しており、技術文書レベルでは包括的。MMMLU(多言語)と APEX-Agents は未掲載。
  • Google19 ベンチマーク+競合比較を公開し、GDPval-AA(1317 Elo)で Opus に約 300pt 負けている結果も正直に掲載。4 社中で最も透明性が高い。
  • Meta:ブログの本文では HLE・FrontierScience の 2 つのみ言及しているが、画像チャートには約 20 のベンチマーク+競合比較を掲載。GDM モデルカードと同様に他社モデルも自社条件で評価している。ただしテキストで数値を明示していないため見落としやすい。

第三者評価による補完 — 公式データだけでは見えない部分

各社が公式発表でカバーしていないベンチマークを、BenchLM(独自評価)や Artificial Analysis(独立評価機関)のデータで補完します。公式と異なる評価条件で測定されたスコアからは、各モデルの弱点がより鮮明に見えてきます。

Anthropic が公式で触れなかったスコア(BenchLM 独自評価)

ベンチマークBenchLM 評価競合(自己申告値)との差
HealthBench Hard14.8GPT-5.4: 40.1、Muse Spark: 42.8(全モデル中最低)
MMMU-Pro(マルチモーダル)77.3GPT-5.4: 81.2、Gemini: 80.5。なお GDM 同一条件での Opus は 73.9 とさらに低い
LiveCodeBench Pro70.7GPT-5.4: 87.5 に大差
GPQA Diamond89.2GDM 同一条件では 91.3。評価条件で変動する好例

※ BenchLM は Claude Opus 4.6 を独自に評価(Independent)。評価ハーネスが GDM モデルカードと異なるため、同じベンチマークでもスコアが異なる場合がある(例: GPQA Diamond は GDM で 91.3、BenchLM で 89.2)。

考察HealthBench Hard 14.8 は全モデル中で突出して低い。Anthropic のブログやシステムカードでは医療ベンチマークに触れておらず、苦手分野と考えられます。マルチモーダル(MMMU-Pro)や競技的コーディング(LiveCodeBench Pro)でも競合に劣ります。一方、GDM 同一条件では SWE-bench Verified 80.8(1 位)、GDPval-AA 1606(1 位)と実務系は強い。全モデルで比較すると GPT-5.4(SWE-bench 84、GDPval 1672)に次ぐ 2 位だが、ソースが異なる点に注意。

OpenAI がブログで強調しなかったスコア(システムカード Self-reported)

ベンチマークシステムカード値競合との比較
MMMLU(多言語)未掲載Gemini 92.6(GDM)、Opus 91.1(GDM)
BrowseComp(ウェブ検索)82.7Gemini 85.9(GDM)、Opus 84.0(GDM)に劣後
ARC-AGI-2(抽象推論)73.3Gemini 77.1(GDM)。中位
APEX-Agents未掲載Gemini 33.5(GDM)、Opus 29.8(GDM)

※ BenchLM 上の GPT-5.4 データは全て OpenAI の Self-reported(システムカード由来)。MMMLU・APEX-Agents はシステムカードにも掲載なし。

考察:GPT-5.4 は弱点が最も少ないオールラウンド型。数学(MATH-500 99、AIME 99)、コーディング(SWE-bench 84)、実務(GDPval 1672)と幅広く強い。ただし、MMMLU を一切公表していない点は注目に値します(MGSM 96・MMLU Pro X 94 は公表)。また、ウェブ検索(BrowseComp)やエージェント自律性(APEX-Agents)では Gemini に明確に劣る傾向があります。

Muse Spark の弱点が鮮明に見えるベンチマーク

Meta は公式ブログのチャート画像で約 20 ベンチマークを公開しており、ARC-AGI-2 などの弱いスコアも正直に掲載しています。以下は全社比較で Muse Spark の弱点が特に目立つ項目です。

ベンチマークMuse Spark競合との比較出典
ARC-AGI-2(抽象推論)42.5Gemini 77.1、GPT-5.4 73.3 の約半分Meta チャート
Terminal-Bench 2.059.0GPT-5.4 75.1 に 16pt 差Meta チャート
SWE-bench Verified77.4GPT-5.4 84、Opus 80.8 に大差Meta チャート
GDPval-AA Elo1444GPT-5.4 1672 に 228pt 差Meta チャート
Intelligence Index v4.052GPT-5.4 57、Gemini 57、Opus 53。4 位AA
HealthBench Hard42.8GPT-5.4 40.1、Gemini 20.6。全モデル中 1 位Meta チャート

※ Intelligence Index は Artificial Analysis による独立評価。その他は Meta 公式ブログのチャート画像内の値。

考察:Meta はブログのテキストでは HLE 58%・FrontierScience 38% の 2 つしか言及していませんが、チャート画像には約 20 ベンチマークを競合比較付きで掲載しており、ARC-AGI-2 42.5 など弱いスコアも正直に公開しています。抽象推論(ARC-AGI-2)が競合の約半分という明確な弱点がある一方、HealthBench Hard 42.8 は全モデル中 1 位。医療・科学研究に強く、コーディング・エージェント系では劣る特化型モデルです。API 無料という価格戦略と合わせ、「研究者向けの補完的モデル」としての位置づけと言えます。

各社の公開姿勢の比較

項目AnthropicOpenAIGoogleMeta
公式発表のスコア数ブログ ~5、
SC ~15+
ブログ ~5、
SC ~60+
19 個
(+競合比較付き)
テキスト 2、
チャート画像 ~20+
競合スコアの併記定性的
(「上回る」等)
一部あり全ベンチマークで併記全ベンチマークで併記
(画像チャート内)
自社が負けた結果非公表非公表GDPval 等を正直に掲載ARC-AGI-2 等を正直に掲載
透明性評価中〜高
(SC あり)
中〜高
(SC 充実)
最高
(画像内に隠れがち)

まとめ — 用途別おすすめモデル

  • 数学推論・コーディング全般・PC 自動操作 → GPT-5.4(MATH-500 99、SWE-bench 84、OSWorld 75.0%)
    スコア出典: OpenAI システムカード (Self-reported)
  • 長時間エージェント・企業実務タスク → Claude Opus 4.6(GDPval-AA 1606、14.5h 持続稼働)
    スコア出典: GDPval は GDM モデルカード(Google による同一条件評価)
  • 科学推論・マルチモーダル・ウェブリサーチ → Gemini 3.1 Pro(GPQA Diamond 94.3%、ARC-AGI-2 77.1%)
    スコア出典: GDM モデルカード(Google 自社測定)
  • 医療・科学研究・コスト重視 → Muse Spark(HealthBench 42.8、API 無料)
    スコア出典: Meta 公式ブログ チャート画像

ベンチマークの数字を鵜呑みにせず、「誰が測定したか」「どの評価条件か」まで意識することが、2026 年の AI モデル選択で最も重要なリテラシーです。万能なモデルは存在せず、用途に応じた使い分けが鍵になります。

出典

← 技術ブログ一覧に戻る

まずは課題をご相談ください

現場のデータ形式や運用フローに合わせて、最適な機能設計をご提案します。

お問い合わせ