Google Gemma 4 登場 — 主要ローカルLLMとのベンチマーク比較 | ニュース

2026年4月2日、Google DeepMindがオープンモデル「Gemma 4」を公開しました。前世代 Gemma 3 から推論・コーディング性能が飛躍的に向上しており、ローカルLLMの勢力図を大きく塗り替える可能性があります。本記事では、同じくローカル運用で人気の高い Qwen 3.5（Alibaba / 2026年2月）や Llama 4（Meta / 2025年4月）と、主要ベンチマークのスコアを表形式で比較します。

Gemma 4 モデルラインナップ

Gemma 4 は4つのバリエーションで構成されます。Apache 2.0 ライセンスで商用利用も可能です。

※ 更新（2026年6月10日）: リリース後の6月3日に第5のバリアント「Gemma 4 12B Unified」が追加されています。本記事の比較はリリース時点の4変種に基づきます。

モデル	アーキテクチャ	総パラメータ	有効パラメータ	コンテキスト長	モダリティ
Gemma 4 31B	Dense	30.7B	30.7B	256K	テキスト・画像・動画
Gemma 4 26B-A4B	MoE（128 experts）	25.2B	3.8B	256K	テキスト・画像・動画
Gemma 4 E4B	Dense	8B	4.5B	128K	テキスト・画像・音声・動画
Gemma 4 E2B	Dense	5.1B	2.3B	128K	テキスト・画像・音声・動画

~30Bクラスベンチマーク比較

ローカル運用で最も注目される 30B 前後のモデル同士を比較します。Gemma 4 31B / 26B-A4B と Qwen 3.5 27B、参考として Llama 4 Maverick（総パラメータ 400B、有効 17B の MoE）を掲載します。

ベンチマーク	Gemma 4 31B	Gemma 4 26B-A4B	Qwen 3.5 27B	Llama 4 Maverick
MMLU Pro	85.2	82.6	86.1	80.5
GPQA Diamond	84.3	82.3	85.5	69.8
LiveCodeBench v6	80.0	77.1	80.7	—
Codeforces ELO	2150	1718	1899	—
MMMU-Pro（Vision）	76.9	73.8	75.0	—
MATH-Vision	85.6	82.4	86.0	—
MMMLU（多言語）	88.4	86.3	85.9	—
SWE-bench Verified	—	—	72.4	—

※ Gemma 4 のスコアは Google DeepMind 公式モデルカードより。Qwen 3.5 27B は Hugging Face 公式モデルカードより。Llama 4 Maverick は Artificial Analysis による独立評価（2025年4月時点）。ベンチマーク版が異なる場合があります。「—」はスコア未公表。太字青色が各行の最高スコア。

読み取れるポイント

知識・推論（MMLU Pro / GPQA Diamond）: Qwen 3.5 27B が僅差でトップ。Gemma 4 31B も肉薄しており、実用上の差はわずかです。
コーディング（Codeforces ELO）: Gemma 4 31B が 2150 と圧倒的。Gemma 3 27B の 110 から 20 倍近い飛躍です。
実践的コーディング（LiveCodeBench v6）: Qwen 3.5 27B が 80.7 でリード。Gemma 4 31B も 80.0 と互角。
ビジョン（MMMU-Pro）: Gemma 4 31B が 76.9 で最高。画像理解タスクでは Gemma 4 に優位性があります。
多言語（MMMLU）: Gemma 4 31B が 88.4 でトップ。ただし日本語など CJK 言語に限定すると Qwen 3.5 の方が強い可能性があります（Qwen は 201 言語対応、25 万語彙）。
MoE の効率性: Gemma 4 26B-A4B は有効パラメータわずか 3.8B で、31B Dense の 97% の性能を達成。推論コストが約 1/8 であり、GPU メモリが限られる環境では非常に魅力的です。

Gemma 4 の Gemma 3 からの進化

前世代 Gemma 3 27B（thinking なし）との比較では、すべてのベンチマークで劇的な改善が見られます。

ベンチマーク	Gemma 3 27B	Gemma 4 31B	改善幅
MMLU Pro	67.6	85.2	+17.6
AIME 2026	20.8	89.2	+68.4
GPQA Diamond	42.4	84.3	+41.9
LiveCodeBench v6	29.1	80.0	+50.9
Codeforces ELO	110	2150	+2040
BigBench Extra Hard	19.3	74.4	+55.1
MMMU-Pro（Vision）	49.7	76.9	+27.2
MATH-Vision	46.0	85.6	+39.6
MRCR v2 128K（Long Context）	13.5	66.4	+52.9

※ Google DeepMind 公式ブログおよびモデルカードより。Gemma 3 のスコアは thinking モード無効時。

特に数学（AIME 2026: +68.4pt）とコーディング（Codeforces ELO: 110 → 2150）の伸びが際立ちます。これは thinking モード（推論時に段階的に考える機能）の導入が大きく寄与しています。

小型モデル比較（~10B以下）

エッジデバイスやノートPC での利用を想定した小型モデルの比較です。

ベンチマーク	Gemma 4 E4B	Gemma 4 E2B	Qwen 3.5 9B
MMLU Pro	69.4	60.0	—
GPQA Diamond	58.6	43.4	81.7
LiveCodeBench v6	52.0	44.0	—
MMMU-Pro（Vision）	52.6	44.2	70.1
MATH-Vision	59.5	52.4	—

※ Gemma 4 は Google DeepMind モデルカード、Qwen 3.5 9B は公式発表値より。Qwen 3.5 9B は一部ベンチマークのスコアが未公表のため「—」。GPQA Diamond・MMMU-Pro では Qwen 3.5 9B が大幅にリードしています。

小型モデルでは Qwen 3.5 9B が GPQA Diamond 81.7 と突出した性能を示しています。ただし Gemma 4 E4B は有効パラメータ 4.5B とさらに小さく、音声入力にも対応しているため、リソース制約が厳しいモバイル・エッジ環境では有力な選択肢です。

各モデルの特徴まとめ

項目	Gemma 4	Qwen 3.5	Llama 4
開発元	Google DeepMind	Alibaba Qwen	Meta
リリース	2026年4月	2026年2月	2025年4月
ライセンス	Apache 2.0	Apache 2.0	Llama License
最大コンテキスト	256K	262K	10M（Scout）
モダリティ	テキスト・画像・音声・動画	テキスト・画像・動画	テキスト・画像
強み	競技プログラミング・ビジョン・MoE効率	知識・推論・多言語・ツール使用	超長コンテキスト（10M）
弱み	CJK 言語は Qwen に劣る可能性	大型モデル（397B）はローカル困難	ベンチ公表が限定的・Scout は推論が遅い

ローカルLLMとしての実用性

2026年4月時点で、ローカル環境（消費者向け GPU）で動かせる 30B クラスのモデルとして、Gemma 4 31B と Qwen 3.5 27B は甲乙つけがたい性能を持っています。

コーディング重視なら Gemma 4 31B（Codeforces ELO 2150）
知識・推論重視なら Qwen 3.5 27B（MMLU Pro 86.1、GPQA Diamond 85.5）
GPU メモリに制約があるなら Gemma 4 26B-A4B（有効 3.8B で 31B の 97% の性能）
超長文を扱いたいなら Llama 4 Scout（10M トークン対応）
エッジ・モバイルなら Gemma 4 E4B（音声対応、4.5B 有効パラメータ）

Gemma 4 の登場により、オープンモデルの性能は一世代前のプロプライエタリモデルに匹敵するレベルに到達しています。a.s.ist では引き続き、最新の AI 技術動向を製造業・研究現場への応用に活かしてまいります。

Google Gemma 4 登場 — Qwen 3.5・Llama 4 など主要ローカルLLMとベンチマーク徹底比較

Gemma 4 モデルラインナップ

~30Bクラスベンチマーク比較

読み取れるポイント

Gemma 4 の Gemma 3 からの進化

小型モデル比較（~10B以下）

各モデルの特徴まとめ

ローカルLLMとしての実用性

出典

まずは課題をご相談ください

Google Gemma 4 登場 — Qwen 3.5・Llama 4 など主要ローカルLLMとベンチマーク徹底比較

Gemma 4 モデルラインナップ

~30Bクラス ベンチマーク比較

読み取れるポイント

Gemma 4 の Gemma 3 からの進化

小型モデル比較（~10B以下）

各モデルの特徴まとめ

ローカルLLMとしての実用性

出典

まずは課題をご相談ください

~30Bクラスベンチマーク比較