blog
AIブログ
Gemmaを他モデルと比較|Llama・Mistral・GPTとの違いと選び方
監修
河合 継(クリスタルメソッド株式会社 代表取締役)
AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について | 編集方針
本ページはGemmaを他のLLM(Llama・Mistral・GPTなど)と比較し、性能・ライセンス・用途別の選び方に特化して解説します。Gemmaそのものの概要や仕組みについてはgemma とは?仕組み・活用を分かりやすく解説をご覧ください。
Gemma比較完全ガイド:バージョン・モデルサイズ・競合LLMを徹底解説
Googleが2024年2月に公開したオープンウェイトLLM「Gemma」は、2B・7Bから始まり、Gemma 2・Gemma 3・Gemma 4と急速に進化を続けています。「どのバージョンを使えばいいのか」「GPT-4oやLlama 3と比べてどうなのか」「自社の用途にどのモデルが最適か」——こうした疑問を持つエンジニア・研究者・ビジネス担当者が急増しています。本記事ではGemmaの各バージョン・モデルサイズ間の比較、および主要競合LLMとの比較を、ベンチマーク・ライセンス・実用性の観点から網羅的に解説します。
Gemmaシリーズの全体像:世代とモデルラインナップ
Gemmaは同名のマルチモーダル大規模モデル「Gemini」の技術を蒸留・軽量化したオープンウェイトモデルファミリーです。2026年6月時点で大きく4世代が存在し、それぞれ異なるサイズ・特性を持ちます。現在の最新世代はGemma 4です。
| 世代 | 公開時期 | 主なモデルサイズ | コンテキスト長 | 主な特徴 |
|---|---|---|---|---|
| Gemma 1 | 2024年2月 | 2B / 7B | 8,192トークン | 軽量・初のオープンウェイト公開 |
| Gemma 2 | 2024年6月〜9月 | 2B / 9B / 27B | 8,192トークン | スライディングアテンション・知識蒸留採用 |
| Gemma 3 | 2025年3月〜 | 270M / 1B / 4B / 12B / 27B | 最大128,000トークン | マルチモーダル・140言語超対応・長文対応 |
| Gemma 4(最新) | 2026年3月〜 | E2B / E4B / 12B / 26B(MoE)/ 31B | E2B/E4B:128K、中型以上:256K | Apache 2.0・ネイティブマルチモーダル(テキスト・画像・動画・音声)・256Kコンテキスト |
各世代は基本的に上位互換の性能向上が行われており、新規プロジェクトでは原則としてGemma 4を選択するのが合理的です。ただし用途・ハードウェア制約によっては旧世代の安定性が優先されるケースもあります。なお、Gemma 1〜3はレガシー世代として位置づけられています。
Gemma 1 vs Gemma 2 vs Gemma 3 vs Gemma 4:世代間の詳細比較
世代が上がるごとに、単純なパラメータ増加だけでなく、アーキテクチャ・学習手法・マルチモーダル対応など質的な変化が加わっています。以下の比較表と解説で各世代の差異を整理します。
アーキテクチャと学習手法の変化
| 比較項目 | Gemma 1 | Gemma 2 | Gemma 3 | Gemma 4(最新) |
|---|---|---|---|---|
| アテンション機構 | 標準MHA | スライディング+グローバルアテンション交互 | スライディング+グローバル(改良版) | エンコーダフリー統合アーキテクチャ |
| 知識蒸留 | 非採用 | 採用(上位モデルから蒸留) | 採用(Gemini 2.0系から蒸留) | 採用 |
| マルチモーダル | テキストのみ | テキストのみ | テキスト+画像入力対応(全サイズ) | テキスト・画像・動画・音声(ネイティブ対応) |
| 多言語対応 | 英語中心 | 英語中心(改善) | 140言語以上対応 | 140言語以上対応(継承・強化) |
| コンテキスト長 | 8K | 8K | 最大128K | E2B/E4B:128K、12B/26B/31B:256K |
| モデルサイズ展開 | 2B / 7B | 2B / 9B / 27B | 270M / 1B / 4B / 12B / 27B | E2B / E4B / 12B / 26B(MoE)/ 31B |
| ライセンス | Gemma Terms of Use | Gemma Terms of Use | Gemma Terms of Use(商用利用可) | Apache 2.0(Gemma 4で初採用) |
Gemma 2で導入されたスライディングアテンションと知識蒸留は、同パラメータ数でのベンチマーク性能を大きく引き上げた重要な革新です。Gemma 3ではこれをさらに発展させ、SigLIPをベースにした視覚エンコーダを統合し、テキストと画像を同時に処理できるマルチモーダルモデルへと進化しました。そして現行世代のGemma 4では、エンコーダフリーアーキテクチャによりテキスト・画像・動画・音声をネイティブに統合処理できる設計となっています。また、Gemma 4では初めてApache 2.0ライセンスが採用され、商用利用・ファインチューニング後の再配布がライセンス費用・特別許諾なしで可能となった点も大きな変化です。中型以上モデル(12B/26B/31B)のコンテキストが256Kへ拡張され、より長大なドキュメント分析やマルチターン会話への実務適用が広がっています。
ベンチマーク比較(主要指標)
| モデル | MMLU(5-shot) | HumanEval(コード) | GSM8K(数学) | MATH |
|---|---|---|---|---|
| Gemma 1 7B | 64.3 | 32.3 | 46.4 | 24.3 |
| Gemma 2 9B | 71.3 | 40.2 | 68.6 | 36.6 |
| Gemma 2 27B | 75.2 | 51.8 | 74.0 | 42.3 |
| Gemma 3 4B | 59.6 | 48.1 | 73.9 | 44.8 |
| Gemma 3 12B | 74.3 | 55.6 | 83.2 | 55.1 |
| Gemma 3 27B | 78.8 | 62.4 | 89.0 | 62.9 |
※ 上記数値はGoogle公式テクニカルレポートおよびHugging Face Evaluation Leaderboardの報告値を参考に整理したものです。評価条件・プロンプト形式によって変動する点にご注意ください。Gemma 4の公式ベンチマーク詳細はGoogle AI for Developers(Gemma 4 model overview)をご参照ください。
Gemma 4モデルサイズ別比較:E2B・E4B・12B・26B(MoE)・31Bの使い分け
Gemma 4は5つのサイズ展開が最大の特長の一つです。モバイル・エッジ向けのE2B/E4Bから最大級の31B Denseまで、用途とハードウェアに応じた選択肢を詳しく整理します。なお12B Unified(2026年6月3日リリース)はマルチモーダルの主力モデルとして位置づけられており、コンテキスト256Kに対応しています。
Gemma 4 E2B / E4B
推奨用途:モバイル・エッジ・ブラウザ向け超軽量推論
特徴:ネイティブマルチモーダル(テキスト・画像・動画・音声)
コンテキスト:128K
Gemma 4 12B Unified
推奨用途:マルチモーダル主力・RAG・中規模本番環境
特徴:エンコーダフリー・テキスト/画像/動画/音声対応
コンテキスト:256K
Gemma 4 26B A4B(MoE)
推奨用途:高スループット推論・大規模本番
特徴:Mixture-of-Experts・コスト効率の高い推論
コンテキスト:256K
Gemma 4 31B Dense
推奨用途:高精度分析・複雑推論・サーバ〜ローカル両対応
特徴:最大級の旗艦モデル
コンテキスト:256K
サイズ選定の判断フロー
ステップ1:デプロイ環境を確認する
スマートフォン・エッジデバイス・ブラウザ → E2B / E4B
Consumer GPU(〜16GB VRAM)・マルチモーダル主力 → 12B Unified
高スループットが求められるサーバ環境 → 26B A4B(MoE)
サーバーGPU(A100/H100クラス)・最高精度 → 31B Dense
ステップ2:タスク複雑度を評価する
単純な分類・要約・テンプレート穴埋め → 小サイズ(E2B/E4B)で十分
多段階推論・複雑なコード生成・多言語混在 → 12B以上を推奨
画像・動画・音声+テキストの同時処理が必要 → 全サイズ対応(ネイティブマルチモーダル)
ステップ3:レイテンシ要件を確認する
リアルタイム応答(〜1秒) → E2B / E4B
バッチ処理・非同期処理 → 12B〜31Bでも運用可能
Gemma vs 主要競合LLM:横断比較
Gemmaを他の主要オープンウェイト・クローズドLLMと比較します。「自社でモデルを運用したいがどれを選ぶか」という判断に直接役立つ比較です。
オープンウェイトLLM比較(2026年6月時点)
| モデル | 開発元 | 最大サイズ | コンテキスト長 | マルチモーダル | 日本語対応 | 商用ライセンス | 主な強み |
|---|---|---|---|---|---|---|---|
| Gemma 4 31B | 31B(Dense) | 256K | ◎(テキスト・画像・動画・音声) | ◎(140言語超) | ◎(Apache 2.0) | ネイティブマルチモーダル・長文対応・多言語・完全商用自由 | |
| Llama 3.3 70B | Meta | 405B | 128K | △(一部モデルのみ) | ○ | ○(条件付き) | 大規模モデルでの高精度 |
| Mistral Small 3 | Mistral AI | 24B | 32K | × | △ | ○(Apache 2.0) | 軽量・高速・Apache 2.0 |
| Phi-4 | Microsoft | 14B | 16K | △ | △ | ○(MIT) | 数学・推論特化の小型モデル |
| Qwen 2.5 72B | Alibaba | 72B(※MoEは最大235B) | 128K | ◎ | ◎(中日英) | ○(条件付き) | 多言語・コード・数学に強い |
| DeepSeek R2(V3系) | DeepSeek | 671B(MoE) | 128K | △ | ○ | ○(条件付き) | コスト効率・推論能力 |
クローズドAPI型LLMとの比較(参考)
| モデル | 開発元 | コンテキスト長 | マルチモーダル | オンプレ運用 | 主な用途 |
|---|---|---|---|---|---|
| GPT-4o | OpenAI | 128K | ◎ | ×(API経由のみ) | 汎用・高精度 |
| Claude 3.5 Sonnet | Anthropic | 200K | ◎ | × | 長文・安全性重視 |
| Gemini 1.5 Pro | 1M | ◎ | ×(Vertex AI経由) | 超長文・動画対応 | |
| Gemma 4 31B | 256K | ◎ | ◎(オンプレ可) | プライバシー重視・ローカル運用 |
クローズドモデルと最も大きく異なるのはオンプレミス・ローカル環境での自己ホスト可否です。医療・金融・行政など機密データを扱う領域では、API経由でのデータ送信を避けたいニーズが強く、GemmaのオープンウェイトかつApache 2.0ライセンス(Gemma 4)という性質が決定的な優位点となります。

ベンチマーク詳細比較:タスク別でGemmaはどこが強いか
総合ベンチマークでの順位だけでなく、タスクの種類ごとにGemmaの強みと弱点を理解することが実務上の重要ポイントです。
タスク別相対評価
| タスク領域 | Gemma 4 31B | Llama 3.3 70B | Mistral Small 3 | Qwen 2.5 72B | Phi-4 14B |
|---|---|---|---|---|---|
| 一般知識・常識推論 | ◎ | ◎ | ○ | ◎ | ○ |
| 数学・論理推論 | ◎ | ○ | ○ | ◎ | ◎ |
| コード生成 | ◎ | ◎ | ○ | ◎ | ◎ |
| 長文理解・要約 | ◎(256K) | ◎(128K) | △(32K) | ◎(128K) | △(16K) |
| 多言語対応 | ◎(140言語超) | ○ | △ | ◎ | △ |
| 画像・動画・音声理解 | ◎(ネイティブ対応) | △(一部のみ) | × | ◎ | △ |
| 小サイズでの性能効率 | ◎ | ○ | ◎ | ○ | ◎ |
| 日本語精度 | ◎ | ○ | △ | ◎ | △ |
Gemma 4 31Bは同パラメータ帯のモデルとしてバランスが非常に優れており、特に「日本語対応×マルチモーダル(画像・動画・音声)×長文(256K)」という組み合わせが求められる用途では競合を一歩リードしています。一方、純粋な英語テキスト処理での最高精度を求めるなら、Llama 3.3 70BやQwen 2.5 72Bが上位に位置することもあります。
ライセンス・商用利用条件の比較
エンタープライズ導入において、ライセンス条件の確認は技術性能と同等に重要です。
| モデル | ライセンス | 商用利用 | 再配布・派生 | 月間アクティブユーザー制限 | 注意事項 |
|---|---|---|---|---|---|
| Gemma 4 | Apache 2.0 | ◎ | ◎(制限なし) | なし | Gemma 4で初採用。最も自由度が高い |
| Gemma 1〜3(レガシー) | Gemma Terms of Use | ○ | ○(条件付き) | なし(※大規模利用はGoogle承認が必要な場合あり) | 競合AI製品への利用不可・ポリシー遵守必須 |
| Llama 3 | Meta Llama 3 License | ○ | ○(条件付き) | 月間7億ユーザー超は要申請 | 競合AI学習への使用禁止 |
| Mistral系 | Apache 2.0(一部モデル) | ◎ | ◎ | なし | 自由度が高い |
| Phi-4 | MIT License | ◎ | ◎ | なし | 制限が最も少ない |
| Qwen 2.5 | Qwen License | ○ | ○(条件付き) | 1億ユーザー超は要申請 | 中国法規制の影響に注意 |
Gemma 4はApache 2.0ライセンスを採用しており、商用利用・ファインチューニング後の再配布も特別な契約や許諾なしで可能です。これはGemma 3以前の「Gemma Terms of Use」(競合AI開発禁止等の制限あり)から大きく自由化された点です。派生モデルをOSSとして公開・再配布したいケースでも、Gemma 4はMistralと並んで有力な選択肢になりました。なお、旧世代(Gemma 1〜3)のTerms of Useには「競合するAI/MLサービスの開発・改善への利用禁止」条項が含まれる点にご注意ください。
ファインチューニング対応・エコシステム比較
モデルをそのまま使うのではなく、自社データでファインチューニングして専門特化させたい場合、エコシステムの充実度が重要な選定基準になります。
主要フレームワークとの対応状況
| フレームワーク | Gemma 4 | Llama 3 | Mistral | Qwen 2.5 |
|---|---|---|---|---|
| Hugging Face Transformers | ◎ | ◎ | ◎ | ◎ |
| Keras(keras-nlp) | ◎(公式サポート) | ○ | △ | △ |
| LlamaIndex / LangChain | ◎ | ◎ | ◎ | ◎ |
| Ollama(ローカル実行) | ◎ | ◎ | ◎ | ◎ |
| Google Vertex AI | ◎(公式統合) | ○ | ○ | × |
| vLLM(高速推論) | ◎ | ◎ | ◎ | ◎ |
| JAX/TPU対応 | ◎(公式) | △ | △ | △ |
Gemma 4はGoogle製品との統合が最も深く、Vertex AI・Google Cloud・TPUを活用したスケーラブルな運用において明確な優位性があります。Keras/JAXによる公式サポートは、TensorFlowエコシステムを使用している組織にとって特に価値があります。一方、PyTorchベースの既存パイプラインを持つ組織なら、Llama 3やMistralの方が移行コストが低い場合があります。
実用途別:Gemmaを選ぶべきケースと避けるべきケース
Gemmaが最適なシナリオ
- 日本語・多言語混在アプリケーション:Gemma 4は140言語以上対応を継承しており、日本語でのベンチマーク性能が同サイズ帯で高水準。日本市場向けのチャットボット・カスタマーサポートに適している
- Google Cloudを主要インフラとする組織:Vertex AIとのネイティブ統合により、MLOpsパイプラインの構築・管理コストを削減できる
- エッジ・オンデバイスAI:Gemma 4のE2B/E4Bは量子化適用でスマートフォン・エッジデバイス・ブラウザ上での推論が現実的。Google自身がAndroid向けの活用を推進している
- プライバシー・データ主権が重要な領域:医療・法律・金融など機密データを扱う場面でオンプレ自己ホストが必要なケース
- マルチモーダル+長文の組み合わせが必要な用途:テキスト・画像・動画・音声と長文テキスト(256K)を同時に処理するRAGシステム・ドキュメント分析ツール
- ライセンスの自由度を最大化したい場合:Gemma 4のApache 2.0採用により、ファインチューニング後の再配布・商用組み込みが特別許諾なしで可能
他のモデルを検討すべきシナリオ
- 最高精度の英語テキスト処理:英語専用タスクでの絶対的な精度を求めるなら、Llama 3.3 70B以上やクローズドのGPT-4o・Claude 3.5の方が上位に位置することがある
- 超大規模モデルが必要:Gemma 4は最大31B(Dense)と、100B超の大規模モデルには対応していない。非常に複雑な推論タスクでは70B以上のLlamaやQwenが上回ることがある
- コード特化タスク:コード生成・補完に特化した専用モデル(DeepSeek Coder系など)は同サイズでもコードタスクで優れる場合がある
量子化・推論効率の比較
実際のデプロイでは、フルprecisionではなくINT8・INT4量子化を使うケースが大半です。量子化後の性能保持率もモデル選定の重要要素です。
| モデル | フルprecision VRAM(参考) | INT8量子化後VRAM | INT4(Q4)量子化後VRAM | 量子化後の性能保持 |
|---|---|---|---|---|
| Gemma 4 12B Unified | 約24GB(BF16) | 約12GB | 約7GB | 高(単一12GB GPUでQ4運用が現実的) |
| Gemma 4 31B Dense | 約62GB(BF16) | 約31GB | 約16GB | 高(知識蒸留により量子化耐性が高い) |
| Llama 3.3 70B | 約140GB(BF16) | 約70GB | 約35GB | 高 |
| Mistral Small 3 24B | 約48GB(BF16) | 約24GB | 約12GB | 高 |
| Phi-4 14B | 約28GB(BF16) | 約14GB | 約7GB | 高(小型モデルとして特に優秀) |
Gemma 4系は知識蒸留を活用した学習により、量子化後もベンチマーク性能の劣化が比較的小さいという特性が報告されています。特にGemma 4 12B UnifiedはQ4量子化適用で単一12GB GPUに収まり、RTX 3060 12GBやRTX 4070といったコンシューマGPU上でマルチモーダル対応(テキスト・画像・動画・音声)の実用的な推論が可能です。また31B DenseもINT4量子化でRTX 3090(24GB)やRTX 4090(24GB)上での動作が視野に入るため、ローカル開発環境での選択肢として現実的です。

まとめ:Gemma比較の選定ポイント整理
Gemmaシリーズの比較を通じて見えてきた選定の核心ポイントを整理します。
- 世代選択:新規プロジェクトはGemma 4(現行世代、2026年3月〜)を基本とする。Apache 2.0ライセンス・ネイティブマルチモーダル(テキスト・画像・動画・音声)・256Kコンテキスト(中型以上)・幅広いサイズ展開がそのまま競争優位となる
- サイズ選択:モバイル・エッジ・ブラウザ→E2B/E4B、マルチモーダル主力・本番RAG→12B Unified、高スループット推論→26B A4B(MoE)、最高精度本番→31B Dense
- 12B Unifiedモデルの注目点:マルチモーダル対応(テキスト・画像・動画・音声)かつ単一12GB GPUでQ4量子化運用が可能。コンシューマGPU環境での実用的な本番導入において特にコストパフォーマンスが高い
- 競合との差別化ポイント:Apache 2.0ライセンス・同パラメータ帯でのバランス性能・140言語超の多言語対応・Google Cloud統合・ネイティブマルチモーダル+256Kコンテキストの組み合わせがGemma 4の強み
- ライセンス:Gemma 4はApache 2.0で商用利用・再配布ともに最大限自由。旧世代(Gemma 1〜3)はGemma Terms of Useの制限(競合AI開発禁止等)を事前確認すること
- エコシステム:Google Cloud・Vertex AI・TP
参考文献
Study about AI
AIについて学ぶ
-
Meta インド データセンター AIインフラ——Reliance 168MW契約の深層と日本企業の実務対応
監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...
-
ワーナー Sureel AI 音楽 著作権——買収の意味と日本企業への示唆
監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...
-
Vector Lakebase ベクターDB RAG——Zillizが示す統合AIデータ基盤の論点
監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...