Google Gemma 4 登場 — Qwen 3.5・Llama 4 など主要ローカルLLMとベンチマーク徹底比較

2026年4月2日、Google DeepMindがオープンモデル「Gemma 4」を公開しました。前世代 Gemma 3 から推論・コーディング性能が飛躍的に向上しており、ローカルLLMの勢力図を大きく塗り替える可能性があります。本記事では、同じくローカル運用で人気の高い Qwen 3.5(Alibaba / 2026年2月)や Llama 4(Meta / 2025年4月)と、主要ベンチマークのスコアを表形式で比較します。

Gemma 4 モデルラインナップ

Gemma 4 は4つのバリエーションで構成されます。Apache 2.0 ライセンスで商用利用も可能です。

モデル アーキテクチャ 総パラメータ 有効パラメータ コンテキスト長 モダリティ
Gemma 4 31B Dense 30.7B 30.7B 256K テキスト・画像・動画
Gemma 4 26B-A4B MoE(128 experts) 25.2B 3.8B 256K テキスト・画像・動画
Gemma 4 E4B Dense 8B 4.5B 128K テキスト・画像・音声・動画
Gemma 4 E2B Dense 5.1B 2.3B 128K テキスト・画像・音声・動画

~30Bクラス ベンチマーク比較

ローカル運用で最も注目される 30B 前後のモデル同士を比較します。Gemma 4 31B / 26B-A4B と Qwen 3.5 27B、参考として Llama 4 Maverick(総パラメータ 400B、有効 17B の MoE)を掲載します。

ベンチマーク Gemma 4 31B Gemma 4 26B-A4B Qwen 3.5 27B Llama 4 Maverick
MMLU Pro 85.2 82.6 86.1 80.5
GPQA Diamond 84.3 82.3 85.5 69.8
LiveCodeBench v6 80.0 77.1 80.7
Codeforces ELO 2150 1718 1899
MMMU Pro(Vision) 76.9 73.8 75.0
MATH-Vision 85.6 82.4 86.0
MMMLU(多言語) 88.4 86.3 85.9
SWE-bench Verified 72.4

※ Gemma 4 のスコアは Google DeepMind 公式モデルカードより。Qwen 3.5 27B は Hugging Face 公式モデルカードより。Llama 4 Maverick は Artificial Analysis による独立評価(2025年4月時点)。ベンチマーク版が異なる場合があります。「—」はスコア未公表。太字青色が各行の最高スコア。

読み取れるポイント

  • 知識・推論(MMLU Pro / GPQA Diamond): Qwen 3.5 27B が僅差でトップ。Gemma 4 31B も肉薄しており、実用上の差はわずかです。
  • コーディング(Codeforces ELO): Gemma 4 31B が 2150 と圧倒的。Gemma 3 27B の 110 から 20 倍近い飛躍です。
  • 実践的コーディング(LiveCodeBench v6): Qwen 3.5 27B が 80.7 でリード。Gemma 4 31B も 80.0 と互角。
  • ビジョン(MMMU Pro): Gemma 4 31B が 76.9 で最高。画像理解タスクでは Gemma 4 に優位性があります。
  • 多言語(MMMLU): Gemma 4 31B が 88.4 でトップ。ただし日本語など CJK 言語に限定すると Qwen 3.5 の方が強い可能性があります(Qwen は 201 言語対応、25 万語彙)。
  • MoE の効率性: Gemma 4 26B-A4B は有効パラメータわずか 3.8B で、31B Dense の 97% の性能を達成。推論コストが約 1/8 であり、GPU メモリが限られる環境では非常に魅力的です。

Gemma 4 の Gemma 3 からの進化

前世代 Gemma 3 27B(thinking なし)との比較では、すべてのベンチマークで劇的な改善が見られます。

ベンチマーク Gemma 3 27B Gemma 4 31B 改善幅
MMLU Pro 67.6 85.2 +17.6
AIME 2026 20.8 89.2 +68.4
GPQA Diamond 42.4 84.3 +41.9
LiveCodeBench v6 29.1 80.0 +50.9
Codeforces ELO 110 2150 +2040
BigBench Extra Hard 19.3 74.4 +55.1
MMMU Pro(Vision) 49.7 76.9 +27.2
MATH-Vision 46.0 85.6 +39.6
MRCR v2 128K(Long Context) 13.5 66.4 +52.9

※ Google DeepMind 公式ブログおよびモデルカードより。Gemma 3 のスコアは thinking モード無効時。

特に数学(AIME 2026: +68.4pt)とコーディング(Codeforces ELO: 110 → 2150)の伸びが際立ちます。これは thinking モード(推論時に段階的に考える機能)の導入が大きく寄与しています。

小型モデル比較(~10B以下)

エッジデバイスやノートPC での利用を想定した小型モデルの比較です。

ベンチマーク Gemma 4 E4B Gemma 4 E2B Qwen 3.5 9B
MMLU Pro 69.4 60.0
GPQA Diamond 58.6 43.4 81.7
LiveCodeBench v6 52.0 44.0
MMMU Pro(Vision) 52.6 44.2 70.1
MATH-Vision 59.5 52.4

※ Gemma 4 は Google DeepMind モデルカード、Qwen 3.5 9B は公式発表値より。Qwen 3.5 9B は一部ベンチマークのスコアが未公表のため「—」。GPQA Diamond・MMMU Pro では Qwen 3.5 9B が大幅にリードしています。

小型モデルでは Qwen 3.5 9B が GPQA Diamond 81.7 と突出した性能を示しています。ただし Gemma 4 E4B は有効パラメータ 4.5B とさらに小さく、音声入力にも対応しているため、リソース制約が厳しいモバイル・エッジ環境では有力な選択肢です。

各モデルの特徴まとめ

項目 Gemma 4 Qwen 3.5 Llama 4
開発元 Google DeepMind Alibaba Qwen Meta
リリース 2026年4月 2026年2月 2025年4月
ライセンス Apache 2.0 Apache 2.0 Llama License
最大コンテキスト 256K 262K 10M(Scout)
モダリティ テキスト・画像・音声・動画 テキスト・画像・動画 テキスト・画像
強み 競技プログラミング・ビジョン・MoE効率 知識・推論・多言語・ツール使用 超長コンテキスト(10M)
弱み CJK 言語は Qwen に劣る可能性 大型モデル(397B)はローカル困難 ベンチ公表が限定的・Scout は推論が遅い

ローカルLLMとしての実用性

2026年4月時点で、ローカル環境(消費者向け GPU)で動かせる 30B クラスのモデルとして、Gemma 4 31BQwen 3.5 27B は甲乙つけがたい性能を持っています。

  • コーディング重視なら Gemma 4 31B(Codeforces ELO 2150)
  • 知識・推論重視なら Qwen 3.5 27B(MMLU Pro 86.1、GPQA Diamond 85.5)
  • GPU メモリに制約があるなら Gemma 4 26B-A4B(有効 3.8B で 31B の 97% の性能)
  • 超長文を扱いたいなら Llama 4 Scout(10M トークン対応)
  • エッジ・モバイルなら Gemma 4 E4B(音声対応、4.5B 有効パラメータ)

Gemma 4 の登場により、オープンモデルの性能は一世代前のプロプライエタリモデルに匹敵するレベルに到達しています。a.s.ist では引き続き、最新の AI 技術動向を製造業・研究現場への応用に活かしてまいります。

出典

← 技術ブログ一覧に戻る

まずは課題をご相談ください

現場のデータ形式や運用フローに合わせて、最適な機能設計をご提案します。

お問い合わせ