blog

Gemmaとは?仕組みと使い方をわかりやすく解説【2026年版】

監修

河合 継(クリスタルメソッド株式会社 代表取締役)

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について編集方針

目次

Gemmaとは?Googleが公開したオープンモデルの全体像

Gemmaは、Googleが2024年2月に公開した軽量・オープンウェイトの大規模言語モデル(LLM)ファミリーです。Googleの最上位モデル「Gemini」の研究・技術基盤を直接継承しながらも、誰でも自由にダウンロードして利用・改変・商用展開できる形で提供されています。パラメータ規模はGPT-4oやGemini Ultraのような超大型モデルとは一線を画し、個人のラップトップからクラウドサーバーまで幅広い環境で動作するサイズ感が最大の特徴です。

本記事では「Gemmaとは何か」という根本から、モデルの種類・スペック・他モデルとの比較・実際の使い方・商用利用の条件まで、必要な情報をすべてこの1記事で網羅します。AI・LLMに初めて触れる方から、実際に自社サービスへの組み込みを検討している開発者まで、必要な知識を体系的に整理しました。


Gemmaが登場した背景

Gemmaが生まれた背景には、LLM業界における「能力」と「アクセシビリティ」のトレードオフがあります。GPT-4oやGeminiといった超大型モデルは圧倒的な性能を誇る一方、APIコスト・クローズドな重みファイル・プライバシー上の懸念など、実用面での障壁も大きいものでした。

一方、MetaのLlamaシリーズに代表されるオープンウェイトモデルは、自社インフラへの完全なデプロイ・カスタマイズが可能という点で急速に支持を集めていました。Googleはこの流れを受け、Geminiの研究成果をより小さく・扱いやすいモデルとして再パッケージし、オープンに公開することを選択しました。それがGemmaです。

名称の「Gemma」はラテン語で「宝石」を意味し、同じ語源を持つ「Gemini(双子座)」との関係性を象徴しています。Geminiのアーキテクチャ知識を継承しつつ、あくまでスタンドアロンで利用可能な独立したモデルとして設計されています。

Gemmaのモデルラインナップと世代

Gemmaは複数の世代・サイズ・バリアントから構成されています。現時点(2026年6月)での主要ラインナップを整理します。

Gemma 1(初代:2024年2月公開)

初代Gemmaは2Bと7Bの2サイズで登場しました。それぞれ20億・70億のパラメータを持ち、当時の同規模オープンモデルと比較してベンチマーク上位の成績を記録。事前学習済みモデル(Pretrained)と、指示追従向けにファインチューニングされたモデル(Instruct)の両方が公開されました。

Gemma 2(2024年6月〜)

Gemma 2では2B・9B・27Bの3サイズに拡張。アーキテクチャ面でも大幅な改善が加えられ、特に27Bモデルはそれより大きな70Bクラスのモデルに匹敵するベンチマーク性能を示しました。知識蒸留(Knowledge Distillation)技術の活用により、小さいモデルの品質が大幅に向上しています。

Gemma 3(2025年3月公開)

Gemma 3は1B・4B・12B・27Bの4サイズ(および270Mの超軽量バリアント)を展開し、マルチモーダル対応・128Kトークンのコンテキスト・140言語超の多言語対応を特徴とします。現在はレガシー世代に位置づけられており、現行最新世代はGemma 4です。

Gemma 4(現行最新世代:2026年3月〜)

Gemma 4はGemmaファミリーの現行最新世代であり、2026年3月31日に初リリースされました。Gemmaシリーズで初めてApache 2.0ライセンスを採用し、従来の独自利用規約から大きく転換しています。主なラインナップと特徴は以下のとおりです。

  • E2B / E4B(Effective 2B / 4B):モバイル・エッジ・ブラウザ向けの軽量モデル。コンテキスト128K。ネイティブ・マルチモーダル(テキスト・画像・動画・音声)対応。
  • 12B Unified(2026年6月3日リリース):マルチモーダルの主力モデル。エンコーダフリーでテキスト・画像・動画・音声を処理。コンテキスト256K。
  • 26B A4B(MoE:Mixture-of-Experts):高スループット推論向け。コンテキスト256K。
  • 31B Dense:最大級の旗艦モデル(サーバ〜ローカル両対応)。コンテキスト256K。
  • Gemma 4 – MTP(2026年4月16日):投機的デコード用のドラフトモデル(Multi-Token Prediction)。
  • Function calling・system promptのロールを標準対応。140言語以上の多言語対応も継承。

特化型バリアント

Gemmaファミリーにはテキスト生成の基本モデル以外にも、用途特化型のバリアントが現行で併存しています。

  • MedGemma:医療分野に特化した派生モデル。
  • PaliGemma 2:画像とテキストを同時に扱うマルチモーダルモデル。VQAや画像キャプション生成に活用可能。
  • ShieldGemma 2:コンテンツ安全性の分類に特化したモデル。有害コンテンツ検出・フィルタリング用途向け。
  • EmbeddingGemma(308M):テキスト埋め込み専用モデル。
  • FunctionGemma(270M):function calling専用の超軽量モデル。
  • T5Gemma:encoder-decoder構成の派生モデル。

モデルスペック比較表

モデル名 パラメータ数 世代 タイプ 主な用途 ライセンス
Gemma 4 E2B 実効2B 第4世代(現行) マルチモーダル(テキスト・画像・動画・音声) モバイル・エッジ・ブラウザ Apache 2.0
Gemma 4 E4B 実効4B 第4世代(現行) マルチモーダル(テキスト・画像・動画・音声) モバイル・エッジ・軽量汎用 Apache 2.0
Gemma 4 12B Unified 120億 第4世代(現行) マルチモーダル(テキスト・画像・動画・音声) マルチモーダル主力・汎用 Apache 2.0
Gemma 4 26B A4B 260億(MoE) 第4世代(現行) テキスト(高スループット) 推論・API高速処理 Apache 2.0
Gemma 4 31B Dense 310億 第4世代(現行) テキスト・マルチモーダル 旗艦・高精度・研究 Apache 2.0
PaliGemma 2 独立系列(現行) マルチモーダル 画像理解・VQA Gemma利用規約
ShieldGemma 2 独立系列(現行) 安全性分類 コンテンツモデレーション Gemma利用規約

Gemmaの技術的な仕組み

Gemmaの性能を支える技術要素を理解することで、適切なユースケース選定やファインチューニング戦略を立てやすくなります。

アーキテクチャ

GemmaはTransformerのデコーダーオンリー構成を採用しており、GPTシリーズやLlamaと同じ基本構造を持ちます。Gemini研究チームが開発した改良を取り込んでおり、以下の技術的特徴があります。

  • Multi-Query Attention(MQA):推論時のメモリ帯域を削減する注意機構。小規模モデルで採用。
  • Grouped-Query Attention(GQA):MQAとMHAの中間的な手法。大規模モデルで採用し、品質と効率のバランスを確保。
  • RoPE(Rotary Positional Embedding):相対的な位置情報を効率よくエンコードする手法。長文への汎化性に優れ、長コンテキスト対応を支える基盤技術の一つ。
  • GeGLU活性化関数:通常のReLUではなくGated Linear Unitの改良版を使用し、表現力を向上。
  • RMSNorm:LayerNormより計算効率が高い正規化手法。

Gemma 4のマルチモーダル構成

Gemma 4では、エンコーダフリーのアーキテクチャによりテキスト・画像・動画・音声を統合的に処理できます。12B Unifiedをはじめとする中型以上のモデルはコンテキスト256Kを確保しており、大量のマルチモーダルデータを一括処理する用途に対応しています。モバイル向けのE2B/E4Bもネイティブでマルチモーダルをサポートしており、エッジ環境での画像・音声処理が現実的な選択肢となっています。

学習データと多言語対応

Gemma 4の事前学習には、Webテキスト・コード・数学・科学文献に加え、140言語以上の多言語コーパスが使用されています。これにより日本語を含む非英語言語での品質が従来世代から向上しています。ただし、学習データの詳細な内訳はGoogleから完全には公開されていません。

安全性への取り組み

GemmaにはGoogleの責任あるAI開発方針が反映されています。事前学習データのフィルタリング、RLHF(人間フィードバックによる強化学習)に基づく有害コンテンツ低減、そして専用の安全性評価ベンチマークによる検証が実施されています。ShieldGemma 2の提供は、エコシステム全体の安全性を高めるGoogle側の取り組みの一環です。

Gemmaが採用する注意機構(Attention)の概念的なイメージ
Gemmaが採用する注意機構(Attention)の概念的なイメージ

Gemmaの入手方法と動作環境

Gemmaは複数のプラットフォームから入手・実行できます。目的と環境に応じて最適な方法を選んでください。

主な配布・実行プラットフォーム

Hugging Face

最も広く使われる配布元。Transformersライブラリで即時利用可能。Gemma 4はApache 2.0のため、ライセンス同意後にダウンロード可能。

Google Vertex AI

GCPユーザー向け。マネージドな環境でAPIとして利用・ファインチューニングが可能。Cloud RunやGKEでの本番デプロイにも対応。

Kaggle

Googleが提供するデータサイエンスプラットフォーム。無料GPU環境でGemmaをすぐに試せる。

Ollama

ローカルPC上でワンコマンド起動可能。ollama run gemma4で即時実行。

Google AI Studio

ブラウザ上でGemmaを試せるGoogle公式のUIツール。APIキー取得も同環境で実施可能。

最小動作環境の目安(Gemma 4)

モデル 量子化なし(BF16) 4bit量子化(Q4)時 推奨GPU VRAM
Gemma 4 E2B 約4GB前後 約2GB以下 モバイルGPU・エッジ環境でも動作可能
Gemma 4 E4B 約8GB前後 約4GB以下 6〜8GB(RTX 3060など)
Gemma 4 12B Unified 約24GB 約12GB 12GB以上(Q4で単一GPU対応)
Gemma 4 26B A4B(MoE) アクティブパラメータ少のため省メモリ MoEにより実質消費は抑制 16〜24GB以上推奨
Gemma 4 31B Dense 約62GB 約16〜20GB 24GB以上(A100など)

Gemma 4の12B Unifiedモデルはマルチモーダル対応(テキスト・画像・動画・音声)でありながら、4bit量子化(Q4)を使用することで単一の12GB GPU VRAMに収まります。コンシューマー向けのRTX 4070系やRTX 3080などでも動作が現実的な点は、実用上の大きなメリットです。量子化にはGGUF形式を利用するllama.cppやLM Studioなどのツールが広く使われています。

Gemmaの実際の使い方:基本的な手順

ここでは、最も広く使われているHugging Face経由での利用手順を示します。

ステップ1:Hugging Faceアカウントとライセンス同意

Hugging Face(huggingface.co)のアカウントを作成し、Googleのモデルページでライセンス規約に同意します。Gemma 4はApache 2.0ライセンスのため、同意後すぐにモデルの重みファイルへアクセスできます。

ステップ2:ライブラリのインストール

pip install transformers accelerate bitsandbytes

ステップ3:モデルのロードと推論(Gemma 4)

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_id = "google/gemma-4-12b-it"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

input_text = "日本の文化について教えてください。"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=200)
print(tokenizer.decode(outputs[0]))

ステップ4:Ollamaでのローカル実行(より手軽な方法)

Ollamaを使えばコード不要でGemma 4をローカル実行できます。

# Ollamaインストール後
ollama pull gemma4:12b
ollama run gemma4:12b

コマンドを実行するとチャット形式のインターフェースが起動し、すぐに会話を始められます。インターネット接続なしでも動作するため、プライバシーが求められる用途に適しています。

Gemmaでできること:主なユースケース

Gemma 4はその軽量さ・ネイティブマルチモーダル対応・256Kトークンの長文脈という特性から、さまざまな実用シーンで活躍しています。

テキスト生成・文章作成支援

メール文章の自動生成・記事の下書き・要約・翻訳など、汎用的なテキスト処理に対応します。Instructバリアントはチャット形式の指示に従う能力が高く、プロンプトエンジニアリングで多様なタスクに対応できます。140言語超の多言語対応により、日本語を含む非英語用途での実用性も高まっています。

社内AIアシスタント・チャットボット

クローズドなオンプレミス環境やプライベートクラウドに完全にデプロイできるため、社内ドキュメントを活用したRAG(Retrieval-Augmented Generation)構成との組み合わせが特に強力です。中型モデル(12B/26B/31B)の256Kトークン長文脈対応により、長大なドキュメントを直接コンテキストに含める運用も可能です。外部APIにデータを送らずに済むため、機密情報を扱う業種での採用が進んでいます。

画像・動画・音声を含むマルチモーダル処理

Gemma 4はE2B/E4Bを含む全ラインナップでネイティブ・マルチモーダルに対応しており、テキスト・画像・動画・音声を統合的に扱うシステムを構築できます。製品画像の自動タグ付け・OCR・ビジュアルQA・音声コンテンツの解析などへの応用が可能です。12B Unifiedモデルはこれらを256Kコンテキストで処理できる主力モデルとして位置づけられています。

コード生成・開発補助

Gemma 4本体はfunction callingを標準対応しており、コード関連タスクへの対応も向上しています。自社インフラ内でコード補完・バグ修正提案・コードレビューコメント生成などを実現できます。

ファインチューニングによる特化モデル開発

LoRA(Low-Rank Adaptation)やQLoRAを使えば、比較的少ないGPUリソースでGemmaを特定ドメイン向けにファインチューニングできます。医療・法律・製造業など、専門用語が多い領域での精度向上に有効です。Gemma 4のApache 2.0ライセンスにより、ファインチューニング後の派生モデルの再配布も柔軟に行えます。

エッジデバイス・モバイルへの組み込み

E2B・E4Bモデルはモバイル・エッジ・ブラウザ向けに最適化されており、スマートフォンや組み込み機器でのネイティブ・マルチモーダル処理が現実的な選択肢となっています。Googleは公式にAndroidデバイス向けのデプロイサポートも提供しています。

他のオープンモデルとの比較

Gemmaを選ぶ際に参照される主要なオープンウェイトモデルとの比較を整理します。

比較項目 Gemma 4(Google) Llama 3(Meta) Mistral / Mixtral Phi-3(Microsoft)
最小サイズ E2B(実効2B) 8B〜 7B〜 3.8B〜
最大サイズ(オープン) 31B Dense 405B 141B(Mixtral) 14B
コンテキスト長 256K(中型以上)/128K(E2B/E4B) 最大128K(モデルによる) 32K〜128K(モデルによる) 128K(一部モデル)
ライセンス Apache 2.0(Gemma 4) Llama Community License Apache 2.0 MIT
マルチモーダル ◎(全ラインナップでネイティブ対応) ○(Llama 3.2) △(一部バリアント) ○(Phi-3 Vision)
音声・動画入力 ◎(Gemma 4でネイティブ対応)
多言語対応 ◎(140言語超) △(英語重視)
小サイズ帯の品質 ◎(業界トップクラス)
エコシステム・ツール対応 ○(急速に拡大) ◎(最大のコミュニティ) △(比較的小さい)
日本語対応 ○(140言語超対応) △(英語重視)

Gemma 4の強みは「同規模モデルの中での高い品質」「全ラインナップでのネイティブ・マルチモーダル対応(テキスト・画像・動画・音声)」「最大256Kトークンの長文脈」「140言語超の多言語対応」「Apache 2.0による自由な商用利用・再配布」そして「Googleエコシステムとの親和性」にあります。特に軽量〜中規模帯では、パラメータ数に対する性能効率が高い評価を得ています。一方、コミュニティの規模や対応ツールの豊富さではLlamaに及ばない部分もあります。

異なるサイズのモデルが共存するGemmaファミリーのスケーラビリティを表すイメージ
異なるサイズのモデルが共存するGemmaファミリーのスケーラビリティを表すイメージ

Gemmaのライセンスと商用利用条件

Gemma 4はApache 2.0ライセンスで提供されており、これはGemmaシリーズで初めての採用です(Gemma 3以前は独自の「Gemma利用規約(Gemma Terms of Use)」が適用されていました)。Apache 2.0への移行により、商用利用・派生モデルの再配布・ファインチューニング後の公開が従来より大幅に自由化されています。

Gemma 4(Apache 2.0)で許可されていること

  • 個人・研究目的での自由な使用
  • 商用サービスへの組み込みと販売(Googleとの特別契約不要)
  • ファインチューニングと派生モデルの公開・配布
  • Gemmaベースのモデルを利用したAPIサービスの提供
  • ソースコード・モデル重みの改変・再配布(著作権表示・ライセンス表示を維持する限り)

注意点

  • Apache 2.0が適用されるのはGemma 4以降。Gemma 3以前のモデルを利用する場合は、引き続き独自の「Gemma利用規約」を確認する必要があります。
  • 「Gemma」商標の使用はGoogleの商標ポリシーに従う必要があります。
  • 有害コンテンツ生成・違法行為への使用は利用規約・法律上の制約があります。

多くのスタートアップ・中小企業のユースケースでは商用利用の条件をクリアできます。Gemma 4のApache 2.0採用により、以前より参入障壁が下がっています。大規模展開やエッジケースが懸念される場合は、Googleの最新ライセンス条件を直接確認することを推奨します。

Gemmaの日本語対応について

Gemma 4は140言語以上の多言語コーパスで事前学習されており、日本語対応が従来世代から改善されています。ただし、以下の点には引き続き注意が必要です。

  • 日本語の流暢さ:基本的な日本語の読み書きや会話は良好に動作します。多言語学習の強化により、従来世代と比較して自然な日本語出力が得やすくなっています。
  • 日本語ファインチューニングモデルの存在:コミュニティにより日本語特化のファインチューニングモデルが公開されており、専門用語が多い用途ではこれらの活用も選択肢です。
  • トークナイザーの特性:日本語はトークン効率が低く(1文字が複数トークンになりやすい)、コンテキスト長の消費が英語より大きくなる傾向があります。ただしGemma 4中型モデルの256Kトークン対応により、長文処理での実用上の制約は大幅に緩和されています。

日本語でのビジネス利用を目的とする場合は、日本語最適化済みのLoRAアダプターや、日本語データでのファインチューニングを組み合わせることで精度をさらに改善できます。

Gemmaのベンチマーク性能

Gemma 4は公開時から複数の標準ベンチマークで同規模モデルを上回る結果を示しています。代表的なベンチマークでの位置づけを整理します。

ベンチマーク 評価内容 Gemma 4 12Bの成績 備考
MMLU 多分野知識問題(大学レベル) 同規模クラスでトップ水準 Googleの公式発表を参照
HumanEval コード生成の正確さ 12Bクラスで高水準 function calling標準対応でさらに強化
GSM8K 小学校レベルの算数・推論 数学的推論に比較的強い 前世代から継続して高スコア
MATH 高難度の数学問題 中程度 超大型モデルとの差は残る
MT-Bench 対話・指示追従能力 高スコア(Instructバリアントで評価) system promptロール対応で改善

特筆すべきはGemma 4 31B Denseモデルで、旗艦モデルとして高精度・高性能を求める用途向けに設計されています。「パラメータ数に対する性能の効率性」という観点では、Gemma 4ファミリーは現時点で高い水準を維持しています。

Gemmaを活用する際の注意点と限界

Gemma 4を実際に採用する前に、以下の制約・注意点を把握しておくことが重要です。

コンテキスト長について

Gemma 4の中型モデル(12B/26B/31B)は256,000トークンのコンテキストウィンドウを持ち、超長文の一括処理への実用性が大幅に高まっています。E2B/E4Bは128Kトークン対応です。ただし、長いコンテキストを扱う際はGPUメモリ消費が増大するため、ハードウェアとのバランスを考慮する必要があります。

幻覚(Hallucination)

LLM全般に共通する問題ですが、Gemmaも事実と異なる情報を自信を持って生成する「幻覚」が発生します。重要な情報は必ず外部ソースで検証する仕組みをシステム設計に組み込む必要があります。

リアルタイム情報の欠如

Gemmaは学習データのカットオフ以降の出来事を知りません。最新情報が必要な用途では、検索機能との連携(RAGやTool use)が必須です。

超大型モデルとの能力差

31B Denseモデルでも、GPT-4oやGemini上位モデルのような最上位クローズドモデルとは複雑な推論・多段階タスク・創造的タスクで明確な性能差があります。コストと性能のバランスを踏まえて用途を見極めることが大切です。

まとめ

GemmaはGoogleがGeminiの研究成果を凝縮したオープンウェイトLLMです。現行最新世代のGemma 4(2026年3月〜)では、E2BからE4B・12B Unified・26B A4B・31B Denseまでのラインナップに加え、テキスト・画像・動画・音声を扱うネイティブ・マルチモーダル対応・中型モデルの256Kトークン長文脈処理・140言語超の多言語対応という大きな進化を遂げています。さらにGemmaシリーズで初めてApache 2.0ライセンスを採用し、商用利用・再配布がより自由になりました。

「APIに社内データを送りたくない」「コストを抑えてLLMを自社サービスに組み込みたい」「エッジデバイスで動くAIが必要」「テキストだけでなく画像・音声もまとめて処理したい」といった要件を持つ企業・開発者にとって、Gemma 4は有力な選択肢の一つです。マネージドAPIとして利用する場合は、Google Vertex AIやOpenRouter等のサードパーティ経由でも利用可能で、例えばGemma 4 26B A4BのAPI単価は概ね$0.10〜$0.70/100万トークン(約15〜105円、プロバイダ依存・USD基準)が目安です。

一方で、最新情報への対応・最高精度の推論が求められる場面では、クラウド型の大型モデルとの使い分けが現実的です。Gemmaはあくまで「できることの範囲を理解した上で最大限活かす」モデルであり、その範囲の広さとコスト効率は2026年現在も業界トップクラスを維持しています。まずは無料で試せるKaggleやOllamaから始め、自社のユースケースとの相性を確かめてみることをお勧めします。

関連記事

  • gemma 導入
  • 参考文献

      関連記事(Gemma)


      AIブログ購読

       
      クリスタルメソッドがお届けする
      AIブログの更新通知を受け取る

    Study about AI

    AIについて学ぶ

    • Meta インド データセンター AIインフラ——Reliance 168MW契約の深層と日本企業の実務対応

      Meta インド データセンター AIインフラ——Reliance 168MW契約の深層と日本企業の実務対応

      監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...

    • ワーナー Sureel AI 音楽 著作権——買収の意味と日本企業への示唆

      ワーナー Sureel AI 音楽 著作権——買収の意味と日本企業への示唆

      監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...

    • Vector Lakebase ベクターDB RAG——Zillizが示す統合AIデータ基盤の論点

      Vector Lakebase ベクターDB RAG——Zillizが示す統合AIデータ基盤の論点

      監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...

    View more