blog

Gemma 使い方完全ガイド:環境構築からAPI連携・本番活用まで

監修

河合 継(クリスタルメソッド株式会社 代表取締役)

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について編集方針

Gemma 使い方完全ガイド:環境構築からAPI連携・本番活用まで

Gemma とは何か:使い方を学ぶ前に押さえるべき基本仕様

Gemma は Google DeepMind が開発・公開するオープンウェイト大規模言語モデル(LLM)群である。クローズドな商用 API である Gemini とは異なり、モデルの重みを直接ダウンロードして自社インフラ上で動作させられる点が、エンジニアにとっての最大の価値だ。

現行世代は Gemma 4(2026年3月31日リリース)であり、同世代で初めて Apache 2.0 ライセンスが採用された(Google AI for Developers, 2026-06-08)。Apache 2.0 の採用は実務上、Google との個別契約や特別許諾なしに商用プロダクトへの組み込み・ファインチューニング後の再配布が可能になることを意味する。Gemma 3 以前は独自の「Gemma Terms of Use」が適用されていたため、ライセンス条件の扱いには世代ごとの注意が必要だ。

Gemma 4 のラインナップと主要スペックを整理する。

Gemma 4 モデルラインナップ比較(2026年6月時点)
モデル名 パラメータ規模 アーキテクチャ コンテキスト長 主な用途 ライセンス
E2B / E4B Effective 2B / 4B Dense(軽量) 128K モバイル・エッジ・ブラウザ Apache 2.0
12B Unified 12B Dense(マルチモーダル主力) 256K テキスト・画像・動画・音声 Apache 2.0
26B A4B 26B (MoE) Mixture-of-Experts 256K 高スループット推論 Apache 2.0
31B Dense 31B Dense(旗艦) 256K 高精度タスク全般 Apache 2.0

12B Unified は 2026年6月3日にリリースされた最新モデルであり、エンコーダフリーでテキスト・画像・動画・音声を統合処理するマルチモーダルの主力機に位置づけられる(Google AI for Developers)。また、26B A4B のマネージド API 単価は OpenRouter 上で概ね $0.10〜$0.70 / 100万トークン(2026年6月時点・プロバイダ依存、OpenRouter 公式より)と、クローズド API と比較してコスト効率の高い選択肢になっている。

マルチモーダルの構造的な仕組みについてはサイト内のマルチモーダルAI解説記事も参照されたい。また機械学習全般の基礎を整理したい場合は機械学習の基礎解説が参考になる。

E2B / E4B エッジ・モバイル 128K ctx

12B Unified マルチモーダル主力 256K ctx

26B A4B (MoE) 高スループット 256K ctx

31B Dense 旗艦・高精度 256K ctx Apache 2.0

図1: Gemma 4 モデルファミリーの概念図。左ほど軽量・エッジ向け、右ほど大規模・高精度。全モデル Apache 2.0 ライセンス(出典: Google AI for Developers, 2026-06-08)

Gemma 使い方(1):ローカル環境での実行手順

Gemma の使い方として最も導入コストが低いのが、Ollama を用いたローカル実行だ。Ollama はモデルの取得から推論サーバの起動まで単一コマンドで完結し、macOS・Linux・Windows(WSL2)のいずれでも動作する。

Ollama によるローカル実行

以下の手順で Gemma 4 の 12B モデルをローカルで動かせる。

# Ollama インストール(Linux/macOS)
curl -fsSL https://ollama.com/install.sh | sh

# Gemma 4 12B モデルのダウンロードと起動
ollama run gemma4:12b

# REST API 経由での推論(別ターミナル)
curl http://localhost:11434/api/generate \
  -d '{
    "model": "gemma4:12b",
    "prompt": "日本語で機械学習の概要を200字で説明してください",
    "stream": false
  }'

VRAM 要件の目安として、12B モデルを float16 で動かす場合は 24GB 程度の GPU メモリが必要になる。4bit 量子化(Q4_K_M)であれば 8〜10GB 程度まで圧縮できるため、コンシューマ向け GPU でも動作させやすい。E2B / E4B モデルは 128K コンテキストに対応しており、より低スペックのエッジデバイスやブラウザ上での実行を主な用途として設計されている。

Hugging Face Transformers による実装

Python エコシステムとの統合を重視する場合は、Hugging Face の transformers ライブラリ経由での利用が標準的な選択肢となる。

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_id = "google/gemma-4-12b-it"  # instruction-tuned バリアント

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

messages = [
    {"role": "user", "content": "機械学習における過学習とは何か、簡潔に説明してください。"}
]

input_ids = tokenizer.apply_chat_template(
    messages,
    return_tensors="pt",
    return_dict=True,
).to(model.device)

outputs = model.generate(
    **input_ids,
    max_new_tokens=512,
)
decoded = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(decoded)

apply_chat_template を使うことで、Gemma 4 が要求する system prompt のロール構造を正確に反映できる。raw text で直接プロンプトを渡すと instruction-tuned モデルの応答品質が低下する場合があるため、チャットテンプレートの適用は実装上の重要な勘所だ。

環境構築の詳細なステップや依存ライブラリのバージョン管理については、Gemma セットアップ詳細ガイドを参照されたい。

Gemma 使い方(2):Google AI Studio・Vertex AI を経由したAPI活用

モデルの重みを自前で管理せず、マネージドな推論環境を使いたい場合は、Google AI Studio または Vertex AI 経由のアクセスが現実的な選択肢となる。

Google AI Studio での即時テスト

Google AI Studio(ai.google.dev)は、ブラウザ上でモデルを即座に試せる開発者向けプレイグラウンドだ。アカウント作成後にプロジェクトを作成し、API キーを発行することで Gemma モデルへのアクセスが可能になる。公式ドキュメント(Google AI for Developers)では、まず Gemma 4 26B A4B から試すことを推奨している。このモデルは MoE アーキテクチャにより高スループットを維持しつつ、多様なタスクに対応できるためだ。

Vertex AI での本番デプロイ

本番環境でのデプロイには Vertex AI が有力な選択肢となる。Cloud Run や GKE との組み合わせによる推論サービス構築が可能で、オートスケーリングや SLA 管理を Google インフラ上で行える。

from google.cloud import aiplatform

aiplatform.init(project="your-project-id", location="us-central1")

endpoint = aiplatform.Endpoint("projects/your-project-id/locations/us-central1/endpoints/ENDPOINT_ID")

response = endpoint.predict(
    instances=[{
        "prompt": "以下の文章から主要なエンティティを抽出してください:\n...",
    }]
)
print(response.predictions)

Vertex AI 経由の場合は従量課金が発生する。費用感の詳細はGemma の料金体系解説で整理されているため、予算計画の段階で参照されたい。また他の LLM との選定比較はGemma 比較記事が参考になる。

Function Calling の実装

Gemma 4 は function calling を標準でサポートしており、外部 API やデータベースとの連携を構造化された形式で実装できる。これはエージェント型アプリケーションの構築において重要な機能要件となる。

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "指定都市の現在の天気情報を取得する",
            "parameters": {
                "type": "object",
                "properties": {
                    "city": {"type": "string", "description": "都市名(日本語可)"}
                },
                "required": ["city"]
            }
        }
    }
]

messages = [
    {"role": "user", "content": "東京の今日の天気を教えて"}
]

# Gemma 4 は system prompt ロールにも対応しているため、
# ツール利用の制約や出力形式の指定を system ロールで渡せる

Gemma 使い方(3):ファインチューニングとカスタマイズ

オープンウェイトモデルとしての Gemma の本質的な強みは、ドメイン特化のファインチューニングが自由に行える点にある。Apache 2.0 ライセンスにより、チューニング済みモデルの商用配布も可能になっている。

QLoRA による効率的なファインチューニング

フルパラメータのファインチューニングは計算コストが高い。実務では QLoRA(Quantized Low-Rank Adaptation)が標準的なアプローチとなる。

from transformers import TrainingArguments
from peft import LoraConfig, get_peft_model
from trl import SFTTrainer

lora_config = LoraConfig(
    r=16,               # ランク:値が大きいほど表現力が上がるが VRAM 消費も増加
    lora_alpha=32,
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
)

training_args = TrainingArguments(
    output_dir="./gemma4-finetuned",
    num_train_epochs=3,
    per_device_train_batch_size=2,
    gradient_accumulation_steps=8,
    learning_rate=2e-4,
    fp16=True,
    save_strategy="epoch",
    logging_steps=50,
)

trainer = SFTTrainer(
    model=model,
    train_dataset=dataset,
    peft_config=lora_config,
    args=training_args,
)
trainer.train()

LoRA の r(ランク)値はトレードオフが明確なハイパーパラメータだ。r=8〜16 が計算コストと性能のバランスとして多くのケースで採用される。ドメイン語彙が狭い専門タスクであれば r=8 でも十分な適応が得られる場合が多い。

派生モデルの活用

特定用途に向けた派生モデルが Gemma エコシステムには併存している。医療ドメインには MedGemma、安全分類には ShieldGemma 2、埋め込みベクトル生成には EmbeddingGemma(308M)が利用可能だ。ゼロからファインチューニングするよりも、用途に近い派生モデルをベースにする方が収束が早く、データ効率も高い。

深層学習の基礎設計や CNN アーキテクチャの理解については深層学習の技術解説が詳しい。また GAN ベースのデータ拡張をファインチューニングと組み合わせる手法についてはGAN の解説記事を参照されたい。

Gemma 使い方(4):実装上のトレードオフと限界

Gemma を実プロダクトへ組み込む際には、技術的なトレードオフを正確に把握しておく必要がある。

モデルサイズと推論コストのトレードオフ

31B Dense は高精度だが、float16 での推論には 60GB 以上の VRAM が必要になる。一般的な A100(80GB)1枚でぎりぎり収まる規模だ。量子化なしの本番運用には専用 GPU クラスタが現実的な前提条件となる。一方、E2B / E4B はモバイルデバイスやブラウザ上での動作を想定した設計であり、応答品質は大型モデルに比べて低下する。要件に応じたモデル選定が最初の意思決定となる。

多言語対応の実態

Gemma 4(Gemma 3 世代の特徴を継承)は 140 言語以上の多言語対応を謳っている(Google DeepMind)。ただし言語間での性能は均一ではなく、英語での精度が最も高い傾向がある。日本語タスクで本番利用する場合は、日本語コーパスを含むファインチューニングデータの追加が品質安定化に有効なケースが多い。テキストマイニングの観点からの前処理戦略についてはテキストマイニング解説も参考になる。

コンテキスト長の使いどころ

12B / 26B / 31B の 256K コンテキストは、長文ドキュメントの要約や RAG(Retrieval-Augmented Generation)のプロンプト設計において大きな利点となる。ただし、コンテキスト長が長くなるほど推論レイテンシと VRAM 消費が増加する。KV キャッシュのメモリ消費量はシーケンス長に比例するため、256K のフル活用はリソース計画の見直しを要する場面も出てくる。

Gemma とクローズド API の比較ポイント

  • データプライバシー:ローカル実行であれば入力データが外部サーバに送信されない。機密性の高いデータを扱う業務では重要な差別化要素となる。
  • 推論コスト:マネージド API は従量課金だが、大量リクエストでは自前ホスティングの方がコスト効率が高くなる逆転点が存在する。
  • 保守コスト:オープンウェイトモデルは自社でモデルの更新管理・インフラ運用を担う必要がある。これはリソースとして無視できないコストだ。
  • 性能の絶対値:最先端のクローズド API と比較すると、特定の高度な推論タスクでは Gemma が劣る場面もある。要件定義段階での性能評価を省略しないことが重要だ。

強化学習との組み合わせによる RLHF ベースのチューニング戦略については強化学習の解説記事も参照されたい。

弊社が開発するバーチャルヒューマン/AIアバターソリューション DeepAI は、実在の人物の容姿・表情・声・振る舞いをデジタル空間で再現し、接客・研修・広報といった対話シナリオに活用できる。Gemma のようなオープンウェイト LLM を RAG や対話 AI のバックエンドとして組み合わせることで、DeepAI が担うバーチャルヒューマンの応答品質や知識範囲をさらに拡張できる構成が実現可能だ。実装の相談は本サイトのサービスページから受け付けている。

各種ユースケースや最新技術動向はブログトップでも継続的に発信している。


参考文献

AIブログ購読

 
クリスタルメソッドがお届けする
AIブログの更新通知を受け取る

Study about AI

AIについて学ぶ

  • Meta インド データセンター AIインフラ——Reliance 168MW契約の深層と日本企業の実務対応

    Meta インド データセンター AIインフラ——Reliance 168MW契約の深層と日本企業の実務対応

    監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...

  • ワーナー Sureel AI 音楽 著作権——買収の意味と日本企業への示唆

    ワーナー Sureel AI 音楽 著作権——買収の意味と日本企業への示唆

    監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...

  • Vector Lakebase ベクターDB RAG——Zillizが示す統合AIデータ基盤の論点

    Vector Lakebase ベクターDB RAG——Zillizが示す統合AIデータ基盤の論点

    監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...

View more