blog

Gemmaを他モデルと比較|Llama・Mistral・GPTとの違いと選び方

監修

河合 継(クリスタルメソッド株式会社 代表取締役)

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について編集方針

本ページはGemmaを他のLLM(Llama・Mistral・GPTなど)と比較し、性能・ライセンス・用途別の選び方に特化して解説します。Gemmaそのものの概要や仕組みについてはgemma とは?仕組み・活用を分かりやすく解説をご覧ください。

Gemma比較完全ガイド:バージョン・モデルサイズ・競合LLMを徹底解説

Googleが2024年2月に公開したオープンウェイトLLM「Gemma」は、2B・7Bから始まり、Gemma 2・Gemma 3・Gemma 4と急速に進化を続けています。「どのバージョンを使えばいいのか」「GPT-4oやLlama 3と比べてどうなのか」「自社の用途にどのモデルが最適か」——こうした疑問を持つエンジニア・研究者・ビジネス担当者が急増しています。本記事ではGemmaの各バージョン・モデルサイズ間の比較、および主要競合LLMとの比較を、ベンチマーク・ライセンス・実用性の観点から網羅的に解説します。

Gemmaシリーズの全体像:世代とモデルラインナップ

Gemmaは同名のマルチモーダル大規模モデル「Gemini」の技術を蒸留・軽量化したオープンウェイトモデルファミリーです。2026年6月時点で大きく4世代が存在し、それぞれ異なるサイズ・特性を持ちます。現在の最新世代はGemma 4です。

世代 公開時期 主なモデルサイズ コンテキスト長 主な特徴
Gemma 1 2024年2月 2B / 7B 8,192トークン 軽量・初のオープンウェイト公開
Gemma 2 2024年6月〜9月 2B / 9B / 27B 8,192トークン スライディングアテンション・知識蒸留採用
Gemma 3 2025年3月〜 270M / 1B / 4B / 12B / 27B 最大128,000トークン マルチモーダル・140言語超対応・長文対応
Gemma 4(最新) 2026年3月〜 E2B / E4B / 12B / 26B(MoE)/ 31B E2B/E4B:128K、中型以上:256K Apache 2.0・ネイティブマルチモーダル(テキスト・画像・動画・音声)・256Kコンテキスト

各世代は基本的に上位互換の性能向上が行われており、新規プロジェクトでは原則としてGemma 4を選択するのが合理的です。ただし用途・ハードウェア制約によっては旧世代の安定性が優先されるケースもあります。なお、Gemma 1〜3はレガシー世代として位置づけられています。

Gemma 1 vs Gemma 2 vs Gemma 3 vs Gemma 4:世代間の詳細比較

世代が上がるごとに、単純なパラメータ増加だけでなく、アーキテクチャ・学習手法・マルチモーダル対応など質的な変化が加わっています。以下の比較表と解説で各世代の差異を整理します。

アーキテクチャと学習手法の変化

比較項目 Gemma 1 Gemma 2 Gemma 3 Gemma 4(最新)
アテンション機構 標準MHA スライディング+グローバルアテンション交互 スライディング+グローバル(改良版) エンコーダフリー統合アーキテクチャ
知識蒸留 非採用 採用(上位モデルから蒸留) 採用(Gemini 2.0系から蒸留) 採用
マルチモーダル テキストのみ テキストのみ テキスト+画像入力対応(全サイズ) テキスト・画像・動画・音声(ネイティブ対応)
多言語対応 英語中心 英語中心(改善) 140言語以上対応 140言語以上対応(継承・強化)
コンテキスト長 8K 8K 最大128K E2B/E4B:128K、12B/26B/31B:256K
モデルサイズ展開 2B / 7B 2B / 9B / 27B 270M / 1B / 4B / 12B / 27B E2B / E4B / 12B / 26B(MoE)/ 31B
ライセンス Gemma Terms of Use Gemma Terms of Use Gemma Terms of Use(商用利用可) Apache 2.0(Gemma 4で初採用)

Gemma 2で導入されたスライディングアテンションと知識蒸留は、同パラメータ数でのベンチマーク性能を大きく引き上げた重要な革新です。Gemma 3ではこれをさらに発展させ、SigLIPをベースにした視覚エンコーダを統合し、テキストと画像を同時に処理できるマルチモーダルモデルへと進化しました。そして現行世代のGemma 4では、エンコーダフリーアーキテクチャによりテキスト・画像・動画・音声をネイティブに統合処理できる設計となっています。また、Gemma 4では初めてApache 2.0ライセンスが採用され、商用利用・ファインチューニング後の再配布がライセンス費用・特別許諾なしで可能となった点も大きな変化です。中型以上モデル(12B/26B/31B)のコンテキストが256Kへ拡張され、より長大なドキュメント分析やマルチターン会話への実務適用が広がっています。

ベンチマーク比較(主要指標)

モデル MMLU(5-shot) HumanEval(コード) GSM8K(数学) MATH
Gemma 1 7B 64.3 32.3 46.4 24.3
Gemma 2 9B 71.3 40.2 68.6 36.6
Gemma 2 27B 75.2 51.8 74.0 42.3
Gemma 3 4B 59.6 48.1 73.9 44.8
Gemma 3 12B 74.3 55.6 83.2 55.1
Gemma 3 27B 78.8 62.4 89.0 62.9

※ 上記数値はGoogle公式テクニカルレポートおよびHugging Face Evaluation Leaderboardの報告値を参考に整理したものです。評価条件・プロンプト形式によって変動する点にご注意ください。Gemma 4の公式ベンチマーク詳細はGoogle AI for Developers(Gemma 4 model overview)をご参照ください。

Gemma 4モデルサイズ別比較:E2B・E4B・12B・26B(MoE)・31Bの使い分け

Gemma 4は5つのサイズ展開が最大の特長の一つです。モバイル・エッジ向けのE2B/E4Bから最大級の31B Denseまで、用途とハードウェアに応じた選択肢を詳しく整理します。なお12B Unified(2026年6月3日リリース)はマルチモーダルの主力モデルとして位置づけられており、コンテキスト256Kに対応しています。

Gemma 4 E2B / E4B

推奨用途:モバイル・エッジ・ブラウザ向け超軽量推論

特徴:ネイティブマルチモーダル(テキスト・画像・動画・音声)

コンテキスト:128K

Gemma 4 12B Unified

推奨用途:マルチモーダル主力・RAG・中規模本番環境

特徴:エンコーダフリー・テキスト/画像/動画/音声対応

コンテキスト:256K

Gemma 4 26B A4B(MoE)

推奨用途:高スループット推論・大規模本番

特徴:Mixture-of-Experts・コスト効率の高い推論

コンテキスト:256K

Gemma 4 31B Dense

推奨用途:高精度分析・複雑推論・サーバ〜ローカル両対応

特徴:最大級の旗艦モデル

コンテキスト:256K

サイズ選定の判断フロー

ステップ1:デプロイ環境を確認する
スマートフォン・エッジデバイス・ブラウザ → E2B / E4B
Consumer GPU(〜16GB VRAM)・マルチモーダル主力 → 12B Unified
高スループットが求められるサーバ環境 → 26B A4B(MoE)
サーバーGPU(A100/H100クラス)・最高精度 → 31B Dense

ステップ2:タスク複雑度を評価する
単純な分類・要約・テンプレート穴埋め → 小サイズ(E2B/E4B)で十分
多段階推論・複雑なコード生成・多言語混在 → 12B以上を推奨
画像・動画・音声+テキストの同時処理が必要 → 全サイズ対応(ネイティブマルチモーダル)

ステップ3:レイテンシ要件を確認する
リアルタイム応答(〜1秒) → E2B / E4B
バッチ処理・非同期処理 → 12B〜31Bでも運用可能

Gemma vs 主要競合LLM:横断比較

Gemmaを他の主要オープンウェイト・クローズドLLMと比較します。「自社でモデルを運用したいがどれを選ぶか」という判断に直接役立つ比較です。

オープンウェイトLLM比較(2026年6月時点)

モデル 開発元 最大サイズ コンテキスト長 マルチモーダル 日本語対応 商用ライセンス 主な強み
Gemma 4 31B Google 31B(Dense) 256K ◎(テキスト・画像・動画・音声) ◎(140言語超) ◎(Apache 2.0) ネイティブマルチモーダル・長文対応・多言語・完全商用自由
Llama 3.3 70B Meta 405B 128K △(一部モデルのみ) ○(条件付き) 大規模モデルでの高精度
Mistral Small 3 Mistral AI 24B 32K × ○(Apache 2.0) 軽量・高速・Apache 2.0
Phi-4 Microsoft 14B 16K ○(MIT) 数学・推論特化の小型モデル
Qwen 2.5 72B Alibaba 72B(※MoEは最大235B) 128K ◎(中日英) ○(条件付き) 多言語・コード・数学に強い
DeepSeek R2(V3系) DeepSeek 671B(MoE) 128K ○(条件付き) コスト効率・推論能力

クローズドAPI型LLMとの比較(参考)

モデル 開発元 コンテキスト長 マルチモーダル オンプレ運用 主な用途
GPT-4o OpenAI 128K ×(API経由のみ) 汎用・高精度
Claude 3.5 Sonnet Anthropic 200K × 長文・安全性重視
Gemini 1.5 Pro Google 1M ×(Vertex AI経由) 超長文・動画対応
Gemma 4 31B Google 256K ◎(オンプレ可) プライバシー重視・ローカル運用

クローズドモデルと最も大きく異なるのはオンプレミス・ローカル環境での自己ホスト可否です。医療・金融・行政など機密データを扱う領域では、API経由でのデータ送信を避けたいニーズが強く、GemmaのオープンウェイトかつApache 2.0ライセンス(Gemma 4)という性質が決定的な優位点となります。

各サイズのLLMを幾何学的な形で抽象的に表現したモデル比較イメージ
各サイズのLLMを幾何学的な形で抽象的に表現したモデル比較イメージ

ベンチマーク詳細比較:タスク別でGemmaはどこが強いか

総合ベンチマークでの順位だけでなく、タスクの種類ごとにGemmaの強みと弱点を理解することが実務上の重要ポイントです。

タスク別相対評価

タスク領域 Gemma 4 31B Llama 3.3 70B Mistral Small 3 Qwen 2.5 72B Phi-4 14B
一般知識・常識推論
数学・論理推論
コード生成
長文理解・要約 ◎(256K) ◎(128K) △(32K) ◎(128K) △(16K)
多言語対応 ◎(140言語超)
画像・動画・音声理解 ◎(ネイティブ対応) △(一部のみ) ×
小サイズでの性能効率
日本語精度

Gemma 4 31Bは同パラメータ帯のモデルとしてバランスが非常に優れており、特に「日本語対応×マルチモーダル(画像・動画・音声)×長文(256K)」という組み合わせが求められる用途では競合を一歩リードしています。一方、純粋な英語テキスト処理での最高精度を求めるなら、Llama 3.3 70BやQwen 2.5 72Bが上位に位置することもあります。

ライセンス・商用利用条件の比較

エンタープライズ導入において、ライセンス条件の確認は技術性能と同等に重要です。

モデル ライセンス 商用利用 再配布・派生 月間アクティブユーザー制限 注意事項
Gemma 4 Apache 2.0 ◎(制限なし) なし Gemma 4で初採用。最も自由度が高い
Gemma 1〜3(レガシー) Gemma Terms of Use ○(条件付き) なし(※大規模利用はGoogle承認が必要な場合あり) 競合AI製品への利用不可・ポリシー遵守必須
Llama 3 Meta Llama 3 License ○(条件付き) 月間7億ユーザー超は要申請 競合AI学習への使用禁止
Mistral系 Apache 2.0(一部モデル) なし 自由度が高い
Phi-4 MIT License なし 制限が最も少ない
Qwen 2.5 Qwen License ○(条件付き) 1億ユーザー超は要申請 中国法規制の影響に注意

Gemma 4はApache 2.0ライセンスを採用しており、商用利用・ファインチューニング後の再配布も特別な契約や許諾なしで可能です。これはGemma 3以前の「Gemma Terms of Use」(競合AI開発禁止等の制限あり)から大きく自由化された点です。派生モデルをOSSとして公開・再配布したいケースでも、Gemma 4はMistralと並んで有力な選択肢になりました。なお、旧世代(Gemma 1〜3)のTerms of Useには「競合するAI/MLサービスの開発・改善への利用禁止」条項が含まれる点にご注意ください。

ファインチューニング対応・エコシステム比較

モデルをそのまま使うのではなく、自社データでファインチューニングして専門特化させたい場合、エコシステムの充実度が重要な選定基準になります。

主要フレームワークとの対応状況

フレームワーク Gemma 4 Llama 3 Mistral Qwen 2.5
Hugging Face Transformers
Keras(keras-nlp) ◎(公式サポート)
LlamaIndex / LangChain
Ollama(ローカル実行)
Google Vertex AI ◎(公式統合) ×
vLLM(高速推論)
JAX/TPU対応 ◎(公式)

Gemma 4はGoogle製品との統合が最も深く、Vertex AI・Google Cloud・TPUを活用したスケーラブルな運用において明確な優位性があります。Keras/JAXによる公式サポートは、TensorFlowエコシステムを使用している組織にとって特に価値があります。一方、PyTorchベースの既存パイプラインを持つ組織なら、Llama 3やMistralの方が移行コストが低い場合があります。

実用途別:Gemmaを選ぶべきケースと避けるべきケース

Gemmaが最適なシナリオ

  • 日本語・多言語混在アプリケーション:Gemma 4は140言語以上対応を継承しており、日本語でのベンチマーク性能が同サイズ帯で高水準。日本市場向けのチャットボット・カスタマーサポートに適している
  • Google Cloudを主要インフラとする組織:Vertex AIとのネイティブ統合により、MLOpsパイプラインの構築・管理コストを削減できる
  • エッジ・オンデバイスAI:Gemma 4のE2B/E4Bは量子化適用でスマートフォン・エッジデバイス・ブラウザ上での推論が現実的。Google自身がAndroid向けの活用を推進している
  • プライバシー・データ主権が重要な領域:医療・法律・金融など機密データを扱う場面でオンプレ自己ホストが必要なケース
  • マルチモーダル+長文の組み合わせが必要な用途:テキスト・画像・動画・音声と長文テキスト(256K)を同時に処理するRAGシステム・ドキュメント分析ツール
  • ライセンスの自由度を最大化したい場合:Gemma 4のApache 2.0採用により、ファインチューニング後の再配布・商用組み込みが特別許諾なしで可能

他のモデルを検討すべきシナリオ

  • 最高精度の英語テキスト処理:英語専用タスクでの絶対的な精度を求めるなら、Llama 3.3 70B以上やクローズドのGPT-4o・Claude 3.5の方が上位に位置することがある
  • 超大規模モデルが必要:Gemma 4は最大31B(Dense)と、100B超の大規模モデルには対応していない。非常に複雑な推論タスクでは70B以上のLlamaやQwenが上回ることがある
  • コード特化タスク:コード生成・補完に特化した専用モデル(DeepSeek Coder系など)は同サイズでもコードタスクで優れる場合がある

量子化・推論効率の比較

実際のデプロイでは、フルprecisionではなくINT8・INT4量子化を使うケースが大半です。量子化後の性能保持率もモデル選定の重要要素です。

モデル フルprecision VRAM(参考) INT8量子化後VRAM INT4(Q4)量子化後VRAM 量子化後の性能保持
Gemma 4 12B Unified 約24GB(BF16) 約12GB 約7GB 高(単一12GB GPUでQ4運用が現実的)
Gemma 4 31B Dense 約62GB(BF16) 約31GB 約16GB 高(知識蒸留により量子化耐性が高い)
Llama 3.3 70B 約140GB(BF16) 約70GB 約35GB
Mistral Small 3 24B 約48GB(BF16) 約24GB 約12GB
Phi-4 14B 約28GB(BF16) 約14GB 約7GB 高(小型モデルとして特に優秀)

Gemma 4系は知識蒸留を活用した学習により、量子化後もベンチマーク性能の劣化が比較的小さいという特性が報告されています。特にGemma 4 12B UnifiedはQ4量子化適用で単一12GB GPUに収まり、RTX 3060 12GBやRTX 4070といったコンシューマGPU上でマルチモーダル対応(テキスト・画像・動画・音声)の実用的な推論が可能です。また31B DenseもINT4量子化でRTX 3090(24GB)やRTX 4090(24GB)上での動作が視野に入るため、ローカル開発環境での選択肢として現実的です。

量子化によるモデル圧縮を抽象的な入れ子構造で表現したイメージ
量子化によるモデル圧縮を抽象的な入れ子構造で表現したイメージ

まとめ:Gemma比較の選定ポイント整理

Gemmaシリーズの比較を通じて見えてきた選定の核心ポイントを整理します。

  • 世代選択:新規プロジェクトはGemma 4(現行世代、2026年3月〜)を基本とする。Apache 2.0ライセンス・ネイティブマルチモーダル(テキスト・画像・動画・音声)・256Kコンテキスト(中型以上)・幅広いサイズ展開がそのまま競争優位となる
  • サイズ選択:モバイル・エッジ・ブラウザ→E2B/E4B、マルチモーダル主力・本番RAG→12B Unified、高スループット推論→26B A4B(MoE)、最高精度本番→31B Dense
  • 12B Unifiedモデルの注目点:マルチモーダル対応(テキスト・画像・動画・音声)かつ単一12GB GPUでQ4量子化運用が可能。コンシューマGPU環境での実用的な本番導入において特にコストパフォーマンスが高い
  • 競合との差別化ポイント:Apache 2.0ライセンス・同パラメータ帯でのバランス性能・140言語超の多言語対応・Google Cloud統合・ネイティブマルチモーダル+256Kコンテキストの組み合わせがGemma 4の強み
  • ライセンス:Gemma 4はApache 2.0で商用利用・再配布ともに最大限自由。旧世代(Gemma 1〜3)はGemma Terms of Useの制限(競合AI開発禁止等)を事前確認すること
  • エコシステム:Google Cloud・Vertex AI・TP

    参考文献

      AIブログ購読

       
      クリスタルメソッドがお届けする
      AIブログの更新通知を受け取る

    Study about AI

    AIについて学ぶ

    • Meta インド データセンター AIインフラ——Reliance 168MW契約の深層と日本企業の実務対応

      Meta インド データセンター AIインフラ——Reliance 168MW契約の深層と日本企業の実務対応

      監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...

    • ワーナー Sureel AI 音楽 著作権——買収の意味と日本企業への示唆

      ワーナー Sureel AI 音楽 著作権——買収の意味と日本企業への示唆

      監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...

    • Vector Lakebase ベクターDB RAG——Zillizが示す統合AIデータ基盤の論点

      Vector Lakebase ベクターDB RAG——Zillizが示す統合AIデータ基盤の論点

      監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...

    View more