2026年4月2日、Google DeepMindがオープンモデル「Gemma 4」を公開しました。前世代 Gemma 3 から推論・コーディング性能が飛躍的に向上しており、ローカルLLMの勢力図を大きく塗り替える可能性があります。本記事では、同じくローカル運用で人気の高い Qwen 3.5(Alibaba / 2026年2月)や Llama 4(Meta / 2025年4月)と、主要ベンチマークのスコアを表形式で比較します。
Gemma 4 モデルラインナップ
Gemma 4 は4つのバリエーションで構成されます。Apache 2.0 ライセンスで商用利用も可能です。
| モデル | アーキテクチャ | 総パラメータ | 有効パラメータ | コンテキスト長 | モダリティ |
|---|---|---|---|---|---|
| Gemma 4 31B | Dense | 30.7B | 30.7B | 256K | テキスト・画像・動画 |
| Gemma 4 26B-A4B | MoE(128 experts) | 25.2B | 3.8B | 256K | テキスト・画像・動画 |
| Gemma 4 E4B | Dense | 8B | 4.5B | 128K | テキスト・画像・音声・動画 |
| Gemma 4 E2B | Dense | 5.1B | 2.3B | 128K | テキスト・画像・音声・動画 |
~30Bクラス ベンチマーク比較
ローカル運用で最も注目される 30B 前後のモデル同士を比較します。Gemma 4 31B / 26B-A4B と Qwen 3.5 27B、参考として Llama 4 Maverick(総パラメータ 400B、有効 17B の MoE)を掲載します。
| ベンチマーク | Gemma 4 31B | Gemma 4 26B-A4B | Qwen 3.5 27B | Llama 4 Maverick |
|---|---|---|---|---|
| MMLU Pro | 85.2 | 82.6 | 86.1 | 80.5 |
| GPQA Diamond | 84.3 | 82.3 | 85.5 | 69.8 |
| LiveCodeBench v6 | 80.0 | 77.1 | 80.7 | — |
| Codeforces ELO | 2150 | 1718 | 1899 | — |
| MMMU Pro(Vision) | 76.9 | 73.8 | 75.0 | — |
| MATH-Vision | 85.6 | 82.4 | 86.0 | — |
| MMMLU(多言語) | 88.4 | 86.3 | 85.9 | — |
| SWE-bench Verified | — | — | 72.4 | — |
※ Gemma 4 のスコアは Google DeepMind 公式モデルカードより。Qwen 3.5 27B は Hugging Face 公式モデルカードより。Llama 4 Maverick は Artificial Analysis による独立評価(2025年4月時点)。ベンチマーク版が異なる場合があります。「—」はスコア未公表。太字青色が各行の最高スコア。
読み取れるポイント
- 知識・推論(MMLU Pro / GPQA Diamond): Qwen 3.5 27B が僅差でトップ。Gemma 4 31B も肉薄しており、実用上の差はわずかです。
- コーディング(Codeforces ELO): Gemma 4 31B が 2150 と圧倒的。Gemma 3 27B の 110 から 20 倍近い飛躍です。
- 実践的コーディング(LiveCodeBench v6): Qwen 3.5 27B が 80.7 でリード。Gemma 4 31B も 80.0 と互角。
- ビジョン(MMMU Pro): Gemma 4 31B が 76.9 で最高。画像理解タスクでは Gemma 4 に優位性があります。
- 多言語(MMMLU): Gemma 4 31B が 88.4 でトップ。ただし日本語など CJK 言語に限定すると Qwen 3.5 の方が強い可能性があります(Qwen は 201 言語対応、25 万語彙)。
- MoE の効率性: Gemma 4 26B-A4B は有効パラメータわずか 3.8B で、31B Dense の 97% の性能を達成。推論コストが約 1/8 であり、GPU メモリが限られる環境では非常に魅力的です。
Gemma 4 の Gemma 3 からの進化
前世代 Gemma 3 27B(thinking なし)との比較では、すべてのベンチマークで劇的な改善が見られます。
| ベンチマーク | Gemma 3 27B | Gemma 4 31B | 改善幅 |
|---|---|---|---|
| MMLU Pro | 67.6 | 85.2 | +17.6 |
| AIME 2026 | 20.8 | 89.2 | +68.4 |
| GPQA Diamond | 42.4 | 84.3 | +41.9 |
| LiveCodeBench v6 | 29.1 | 80.0 | +50.9 |
| Codeforces ELO | 110 | 2150 | +2040 |
| BigBench Extra Hard | 19.3 | 74.4 | +55.1 |
| MMMU Pro(Vision) | 49.7 | 76.9 | +27.2 |
| MATH-Vision | 46.0 | 85.6 | +39.6 |
| MRCR v2 128K(Long Context) | 13.5 | 66.4 | +52.9 |
※ Google DeepMind 公式ブログおよびモデルカードより。Gemma 3 のスコアは thinking モード無効時。
特に数学(AIME 2026: +68.4pt)とコーディング(Codeforces ELO: 110 → 2150)の伸びが際立ちます。これは thinking モード(推論時に段階的に考える機能)の導入が大きく寄与しています。
小型モデル比較(~10B以下)
エッジデバイスやノートPC での利用を想定した小型モデルの比較です。
| ベンチマーク | Gemma 4 E4B | Gemma 4 E2B | Qwen 3.5 9B |
|---|---|---|---|
| MMLU Pro | 69.4 | 60.0 | — |
| GPQA Diamond | 58.6 | 43.4 | 81.7 |
| LiveCodeBench v6 | 52.0 | 44.0 | — |
| MMMU Pro(Vision) | 52.6 | 44.2 | 70.1 |
| MATH-Vision | 59.5 | 52.4 | — |
※ Gemma 4 は Google DeepMind モデルカード、Qwen 3.5 9B は公式発表値より。Qwen 3.5 9B は一部ベンチマークのスコアが未公表のため「—」。GPQA Diamond・MMMU Pro では Qwen 3.5 9B が大幅にリードしています。
小型モデルでは Qwen 3.5 9B が GPQA Diamond 81.7 と突出した性能を示しています。ただし Gemma 4 E4B は有効パラメータ 4.5B とさらに小さく、音声入力にも対応しているため、リソース制約が厳しいモバイル・エッジ環境では有力な選択肢です。
各モデルの特徴まとめ
| 項目 | Gemma 4 | Qwen 3.5 | Llama 4 |
|---|---|---|---|
| 開発元 | Google DeepMind | Alibaba Qwen | Meta |
| リリース | 2026年4月 | 2026年2月 | 2025年4月 |
| ライセンス | Apache 2.0 | Apache 2.0 | Llama License |
| 最大コンテキスト | 256K | 262K | 10M(Scout) |
| モダリティ | テキスト・画像・音声・動画 | テキスト・画像・動画 | テキスト・画像 |
| 強み | 競技プログラミング・ビジョン・MoE効率 | 知識・推論・多言語・ツール使用 | 超長コンテキスト(10M) |
| 弱み | CJK 言語は Qwen に劣る可能性 | 大型モデル(397B)はローカル困難 | ベンチ公表が限定的・Scout は推論が遅い |
ローカルLLMとしての実用性
2026年4月時点で、ローカル環境(消費者向け GPU)で動かせる 30B クラスのモデルとして、Gemma 4 31B と Qwen 3.5 27B は甲乙つけがたい性能を持っています。
- コーディング重視なら Gemma 4 31B(Codeforces ELO 2150)
- 知識・推論重視なら Qwen 3.5 27B(MMLU Pro 86.1、GPQA Diamond 85.5)
- GPU メモリに制約があるなら Gemma 4 26B-A4B(有効 3.8B で 31B の 97% の性能)
- 超長文を扱いたいなら Llama 4 Scout(10M トークン対応)
- エッジ・モバイルなら Gemma 4 E4B(音声対応、4.5B 有効パラメータ)
Gemma 4 の登場により、オープンモデルの性能は一世代前のプロプライエタリモデルに匹敵するレベルに到達しています。a.s.ist では引き続き、最新の AI 技術動向を製造業・研究現場への応用に活かしてまいります。