blog

AIブログ

Gemma 4 とは？e4b・26b等のモデル構成と性能【2026年版】

2026年3月にGoogleがリリースしたGemma 4は、前世代から大幅な進化を遂げたオープンウェイトモデルです。E2B〜31Bまでの多彩なバリアントと、全サイズで標準搭載されたネイティブ・マルチモーダル対応（テキスト・画像・動画・音声）を携えて登場し、「ローカル環境で動く高性能モデル」の到達点を塗り替えました。本記事では、Gemma 4の仕様・アーキテクチャ・実用上のポイントを深掘りして解説します。Gemma全体の概要はGemmaとはの記事で、環境構築の手順はGemma導入の記事でそれぞれ詳しく説明していますので、合わせてご参照ください。

Gemma 4の主要スペック一覧

Gemma 4は用途に応じた複数のモデルバリアントを用意しています。各バリアントの主なスペックを以下にまとめます。

モデル名	アーキテクチャ	コンテキスト長	マルチモーダル	主な用途
Gemma 4 E2B	Effective 2B	128K トークン	対応（テキスト・画像・動画・音声）	モバイル・エッジ・ブラウザ推論
Gemma 4 E4B	Effective 4B	128K トークン	対応（テキスト・画像・動画・音声）	モバイル・エッジ・ローカルPC
Gemma 4 12B Unified	Dense（統合型）	256K トークン	対応（テキスト・画像・動画・音声）	マルチモーダルの主力・中規模サーバー（2026年6月3日リリース）
Gemma 4 26B A4B	MoE（Mixture-of-Experts）	256K トークン	対応（テキスト・画像・動画・音声）	高スループット推論・API向け
Gemma 4 31B Dense	Dense	256K トークン	対応（テキスト・画像・動画・音声）	旗艦モデル・高性能サーバー・研究・商用API

E2B/E4BはEffective Parameter技術によりモバイル・エッジ環境向けに設計された軽量モデルで、コンテキスト長は128Kです。12B Unified・26B A4B・31B Denseの中型〜大型モデルは256Kの長コンテキストを持ち、長文書類の要約や大規模コードリポジトリの解析でも威力を発揮します。全バリアントがネイティブ・マルチモーダル対応である点がGemma 4世代の大きな特徴です。

アーキテクチャの進化ポイント

Gemma 4のアーキテクチャは、前世代のGemma 3から複数の重要な変更を受けています。要点を理解することで、どのタスクに強く、どこで制限があるかを見極めやすくなります。

Mixture of Experts（MoE）の採用

Gemma 4（特に26B A4Bバリアント）では、Mixture of Experts（MoE）アーキテクチャを活用しています。総パラメータ数は多くても、推論時にアクティブになるのは一部の「エキスパート」サブネットワークだけです。これにより、フル活性化の同規模モデルに比べて推論コストを抑えながら高いスループットを実現しています。

エンコーダフリーのネイティブ・マルチモーダル統合

Gemma 4の12B Unified以上のモデルでは、従来のSigLIPのような独立したビジョンエンコーダを持たないエンコーダフリー設計を採用しています。テキスト・画像・動画・音声を統一的なトークンストリームとして処理する構造で、モダリティをまたいだ理解が一つのモデルで完結します。E2B/E4Bも同様にネイティブ・マルチモーダル対応です。

Sliding Window Attention と Global Attention の混在

前世代から引き継いだ設計として、スライディングウィンドウアテンションとグローバルアテンションを交互に配置しています。ウィンドウアテンションは近距離の文脈を効率よく処理し、グローバルアテンションが文書全体の長距離依存を捉えます。これにより中型以上のモデルで256Kトークンの長コンテキストを現実的なVRAMで扱えます。

RoPE（回転位置埋め込み）の拡張

位置エンコーディングには拡張RoPE（Rotary Position Embedding）を採用し、256Kトークンまでの外挿精度を高めています。ファインチューニング時に短いシーケンスで学習させたモデルでも、推論時に長いコンテキストへの適用が比較的安定します。

アーキテクチャの変化点まとめ

MoE（26B A4B）
高スループット推論

→

エンコーダフリー
ネイティブ4モダリティ

→

混在アテンション
256K対応

→

拡張RoPE
長文外挿改善

ベンチマーク性能：数字で見るGemma 4の位置づけ

Googleが公開したベンチマーク結果と、外部評価機関・コミュニティによる検証を総合すると、Gemma 4の性能は以下のように整理できます。

ベンチマーク	Gemma 4 E4B	Gemma 4 12B	Gemma 4 31B	参考：Gemma 3 27B（旧世代）
MMLU（5-shot）	約72%	約80%	約85%	約75%
HumanEval（コード生成）	約55%	約68%	約76%	約62%
MATH（数学推論）	約43%	約57%	約66%	約46%
DocVQA（文書理解）	約78%	約85%	約89%	対応（参考値）

特筆すべきは、Gemma 4の各モデルが旧世代のGemma 3に対してほぼ全指標でスコアを上回っている点です。MoEによる推論コストの削減と性能向上の両立、さらに動画・音声を含むネイティブ・マルチモーダルへの対応が新世代の強みとなっています。

ただし、数値はGoogle公式のプロンプト設定・評価バージョンに依存します。自社での検証では、日本語タスク（日本語QA・翻訳）においてGemma 4 12Bが実用水準（業務メール草稿・社内FAQ生成）に達することを確認しています。一方で日本語の微妙なニュアンスや敬語の正確さは、日本語特化ファインチューニング版と比べると差が出る場面もあります。

Gemma 4のTransformerアーキテクチャにおけるトークン処理フローの概念図

マルチモーダル機能の実力と使いどころ

Gemma 4最大の特徴がネイティブ・マルチモーダル対応です。ここでは「何ができるか」だけでなく、「どこまで使えるか」を実務視点で整理します。

対応している入力形式

テキスト（日本語・英語ほか140言語以上の多言語）
静止画像（JPEG・PNG・WebP）
動画（ネイティブ対応）
音声（ネイティブ対応）
文書スキャン画像（PDF画像化も可）

Gemma 4はテキスト・画像・動画・音声の4モダリティをネイティブに処理できます。特に12B Unified以上ではエンコーダフリーの統合アーキテクチャにより、複数モダリティを跨いだ理解が一つのモデルで完結します。

得意なビジョン・マルチモーダルタスク

図表・グラフの読み取り：棒グラフや折れ線グラフの数値・傾向を文章で説明
帳票・請求書のOCR的解析：構造化されたデータの抽出
スクリーンショットのデバッグ支援：UIエラー画面を入力してコード修正案を出力
商品画像の説明文生成：ECサイト向けのテキスト自動生成
動画内容の理解・要約：ネイティブ動画入力による映像内容の把握

限界と注意点

解像度が低い画像や、テキストが小さく密集している画像では認識精度が落ちます。また、複数の入力を組み合わせる場合はコンテキスト長の予算管理が重要です。画像・動画・音声の各モダリティはトークンを消費するため、多モーダル入力と長文テキストを組み合わせるシナリオでは、E2B/E4Bの128K上限と中型モデルの256K上限を意識しながら設計する必要があります。

量子化・最適化オプションと推奨環境

Gemma 4をローカルで動かす際、モデルサイズとVRAMのバランスが課題になります。量子化による最適化の選択肢を整理します。

モデル	精度	必要VRAM目安	推奨用途
Gemma 4 E4B	BF16（フル）	約10GB	RTX 3080以上
Gemma 4 E4B	INT4量子化	約4GB	RTX 3060・ノートPC
Gemma 4 12B	BF16（フル）	約26GB	A100 40GB / RTX 4090
Gemma 4 12B	INT4量子化	約8GB	RTX 3080・4070
Gemma 4 31B	BF16（フル）	約62GB	A100 80GB / マルチGPU
Gemma 4 31B	INT4量子化	約20GB	RTX 4090 / A10G

量子化にはGGUF（llama.cpp経由）とAWQ・GQPTQの3方式が主流です。推論速度とメモリの観点からはAWQまたはGGUF Q4_K_Mが品質劣化と効率のバランスが良く、実務用途で最も広く使われています。ファインチューニングを行うシナリオではBF16を維持し、QLoRAで学習後にINT4にマージする手順が一般的です。

環境構築の詳細（Hugging Faceからのダウンロード・Ollamaでのセットアップ・Kerasでの推論）については、Gemma導入ガイドで手順を網羅しています。

ローカルLLMの導入やRAG構築をご検討の方は、AI開発会社クリスタルメソッドの無料相談をご利用ください。

ファインチューニングの実践ポイント

Gemma 4はオープンウェイトモデルであるため、自社データによるファインチューニングが可能です。実運用での知見を踏まえて要点を整理します。

LoRA / QLoRAによる効率的な学習

LoRA（Low-Rank Adaptation）を使えば、フルファインチューニングの数十分の一のVRAMで特定タスクに特化させることができます。31B DenseモデルをフルでファインチューニングするにはGPUメモリが大量に必要ですが、QLoRA（量子化＋LoRA）なら単一のA100 80GBでも現実的な時間で完了します。

実際に自社では、カスタマーサポート向けの回答生成タスクにGemma 4 12B＋QLoRAを適用したところ、ベースモデルに比べてトーン統一と返答フォーマットの一貫性が大幅に向上しました。データ量は数千件規模のQ&Aペアから始められます。

インストラクションチューニングとシステムプロンプト設計

Gemma 4のInstruct（指示チューニング済み）バリアントは、systemロールを含むチャットテンプレート形式に標準対応しています。

<start_of_turn>user
あなたはXXXのエキスパートです。以下の質問に答えてください。
<end_of_turn>
<start_of_turn>model

Gemma 4ではsystemプロンプトのロール対応が強化されており、前世代からの移行コストは低く抑えられます。一方で、ロールプレイや強い人格付与はGemmaの安全フィルタと競合しやすい点に注意が必要です。明示的に禁止されていない業務用プロンプトでも、過度に強い口調の指示は出力が抑制されることがあります。

マルチモーダルデータのファインチューニング

テキスト・画像・動画・音声を含むマルチモーダルペアデータでのファインチューニングも技術的には可能ですが、マルチモーダル統合部分のウェイトを同時に更新するフルFTは計算コストが高くなります。多くの実用シナリオでは言語部分のみLoRAでチューニングし、マルチモーダル統合部分は凍結する方針のほうが安定しています。

Gemma 4の多言語ファインチューニングにおける知識蒸留・データフローのイメージ

安全性・ライセンス・商用利用の条件

実務導入を判断するうえで、ライセンスと安全性ポリシーは見落とせないポイントです。

Apache 2.0ライセンス（Gemma 4から採用）

Gemma 4はGemmaシリーズとして初めてApache 2.0ライセンスを採用しています。これにより、Googleとの特別な契約や別途許諾なしに、商用利用・改変・派生モデルの再配布が可能です。なお、旧世代のGemma 3以前は独自の「Gemma利用規約（Gemma Terms of Use）」での提供であり、Apache 2.0ではない点に注意してください。

Gemma 4のApache 2.0採用により、中小規模のSaaS・社内ツール・研究用途はもちろん、大規模サービスへの組み込みにおいても従来より柔軟な利用が可能になっています。料金面の詳細（API料金・クラウド利用コスト）についてはGemma料金ガイドを参照してください。

内蔵される安全フィルタと制限

Gemma 4のInstructモデルにはRLHF（人間フィードバックからの強化学習）と責任あるAIガイドラインに基づくセーフティチューニングが施されています。有害コンテンツ・個人攻撃・機密情報の抽出を誘導するようなプロンプトには拒否応答が返ります。業務システムに組み込む際は、この挙動を事前にプロトタイプで検証することを推奨します。

他モデルとの比較ポジション

Gemma 4が競合する主なモデルとの位置づけは以下のとおりです。詳細な比較（速度・精度・コスト・ライセンス）はGemma比較記事で詳しく取り上げています。ここでは要点だけ整理します。

比較軸	Gemma 4 31B Dense	Llama 3.1 70B	Mistral Large 2
ライセンス	Apache 2.0（商用可）	Llama 3 Community License（商用可）	MRL（商用可）
マルチモーダル	テキスト・画像・動画・音声（ネイティブ）	テキストのみ（3.2 11Bで画像対応）	テキストのみ
コンテキスト長	256K	128K	128K
推論コスト（VRAM）	Dense・高め（26B A4BはMoEで効率的）	Dense・高め	Dense・高め
日本語性能	良好（140言語以上対応、FT推奨）	良好	標準〜良好

Gemma 4の強みはApache 2.0による自由度の高い商用利用・ネイティブ4モダリティ対応・256Kの長コンテキスト、そしてMoEバリアント（26B A4B）による高スループット推論です。Googleエコシステム（Vertex AI・Google AI Studio）との統合のしやすさも選択理由の一つになります。

まとめ

Gemma 4は、オープンウェイトモデルの中でも「ネイティブ・マルチモーダル対応・長コンテキスト（最大256K）・Apache 2.0による自由な商用利用」という三つの軸で大きく前進した世代です。E2B/E4Bモデルはモバイル・エッジ環境でも動作し、12B Unified・26B A4B・31B DenseはクラウドやサーバーAPIでの高精度な商用利用に十分な性能を持ちます。

全バリアントがテキスト・画像・動画・音声のネイティブ・マルチモーダルに対応
中型以上（12B/26B/31B）は256Kの長コンテキストを標準搭載
26B A4BはMoEアーキテクチャによる高スループット推論が特徴
ベンチマーク上は旧世代Gemma 3比で全指標が向上し、同規模の競合に対しても優位な面が多い
量子化（AWQ・GGUF Q4_K_M）で一般的なGPU環境に収められる
LoRA / QLoRAによる業務特化ファインチューニングが実用範囲内のコストで可能
Gemma 4から初めてApache 2.0ライセンスを採用し、商用利用・再配布が自由

Gemmaシリーズの全体像・各論についてはGemmaとは、環境構築の実手順はGemma導入ガイド、コスト試算はGemma料金ガイド、他モデルとの詳細比較はGemma比較記事をそれぞれ参照してください。

旧世代（Gemma 3以前）との違い

Gemma 4と旧世代の主な違いは次のとおりです。旧世代は前世代＝レガシー扱いのため、これから選ぶならGemma 4系が基本です。

ライセンス――Gemma 4はApache 2.0（Gemmaとして初）。Gemma 3以前は独自の「Gemma利用規約」で提供
コンテキスト長――Gemma 4の中型（12B/26B/31B）は256K。Gemma 3は128K世代
ラインナップ――Gemma 3は1B/4B/12B/27B（2025年3月）、モバイル特化のGemma 3n E2B/E4B（2025年6月）、超軽量のGemma 3 270M（2025年8月）。Gemma 4はE2B/E4B・12B Unified・26B A4B（MoE）・31Bへ刷新

旧世代を使い続ける場合はライセンス条件が異なる点にご注意ください（商用利用・ライセンス解説）。

参考文献

監修

河合継（クリスタルメソッド株式会社代表取締役）

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について｜編集方針

※あわせて、軽量モデル Gemma 4 E4Bの詳細もご覧ください。

LLM・ローカルLLMの業務導入をご検討の方へ

クリスタルメソッドは、オープンモデル・ローカルLLMの選定からRAG構築・PoC・本番導入までのAI開発を支援しています。「機密データを外部に出さずにLLMを使いたい」「自社の業務に合うモデルを選びたい」といったご相談を承っています。

無料相談・お問い合わせ：ご相談はこちら

Study about AI

AIについて学ぶ

Claude Opus 5 活用方法と企業導入ロードマップ：コスト半減と自律運用の最適解

Anthropicが発表した「Claude Opus 5」の概要 Anthropicは、同社の最新かつ最上位のフラッグシップAIモデルである「Claude Op...
OpenAIの音声エージェント開発を企業が導入する基準：新基盤「Presence」の衝撃

OpenAIの音声エージェント開発を企業が導入する基準：新基盤「Presence」の衝撃 AI技術の進展に伴い、企業のカスタマーサポートやセールス活動における自...
AI 暴走リスクセキュリティ対策：OpenAI自律ハッキング事案から学ぶ企業の防衛策

人工知能（AI）技術の進化は、業務効率化や意思決定の迅速化に大きく貢献する一方で、これまでにない新たな脅威をもたらしています。特に、自律的に判断して行動する「A...