blog
AIブログ
Gemma 環境構築・インストール|Ollama/LM Studio/transformers手順

Gemma 環境構築の前提:モデル選択とライセンスの確認
ローカルで Gemma を動かすにあたり、まずモデルの選択とライセンスを整理しておく必要がある。2026年6月時点の現行世代は Gemma 4(2026年3月31日リリース)であり、Gemma 3 以前はレガシーとして位置づけられている(出典:Gemma releases|Google AI for Developers)。
Gemma 4 のラインナップと、ローカル環境構築における推奨用途をまとめると以下のとおりだ。
| モデル | パラメータ規模 | コンテキスト長 | ローカル構築の現実的難易度 | 主な用途 |
|---|---|---|---|---|
| E2B / E4B | 実効 2B / 4B | 128K | 低(RAM 8GB 以上で動作見込み) | モバイル・エッジ・プロトタイプ |
| 12B Unified | 12B | 256K | 中(RAM/VRAM 16GB 以上推奨) | マルチモーダル主力・開発検証 |
| 26B A4B(MoE) | 26B(疎) | 256K | 中〜高(MoE構造により活性パラメータは少ない) | 高スループット推論 |
| 31B Dense | 31B | 256K | 高(VRAM 24GB 以上推奨) | 旗艦・高性能サーバ用途 |
ライセンス面では、Gemma 4 は Apache 2.0 ライセンスを初めて採用しており、ライセンス費用・Google との特別許諾なしで商用利用・ファインチューン後の再配布が可能だ(出典:Google’s Gemma 4 now available with Apache 2.0 licensing|The Decoder)。なお、Gemma 3 以前は独自の「Gemma Terms of Use」が適用されるため、ライセンスを一律に Apache 2.0 と読み替えないよう注意が必要だ。
環境構築の全体像・モデルの基礎知識については Gemma の基礎解説 を参照されたい。本番運用・量子化・GPU 設計の作り込みは別記事(Gemma ローカル運用の詳細設計)で扱う。
Gemma インストール手順①:Ollama で最速セットアップ
Ollama はモデルのダウンロード・サーバ起動・推論をワンコマンドで完結させるローカル LLM ランタイムだ。依存関係の管理が不要なため、最初の動作確認には最も手順が少ない。
インストール
macOS・Linux では以下の1行で Ollama 本体をインストールできる。
curl -fsSL https://ollama.com/install.sh | sh
Windows では 公式サイト(ollama.com/download) からインストーラをダウンロードして実行する。インストール完了後、バックグラウンドで Ollama のサーバプロセスが自動起動する。
Gemma 4 モデルの取得と起動
インストールが完了したら、以下のコマンドで Gemma 4 E4B(軽量版)を取得して対話モードを起動できる。
# E4B(軽量・RAM 8GB 程度から動作見込み)
ollama run gemma4:e4b
# 12B Unified(マルチモーダル対応の主力、VRAM/RAM 16GB 以上推奨)
ollama run gemma4:12b
初回実行時にモデルウェイトが自動ダウンロードされ、完了後すぐにプロンプトが表示される。
REST API としての利用
Ollama はデフォルトで http://localhost:11434 に OpenAI 互換のエンドポイントを公開する。既存のアプリケーションコードを最小限の変更で接続できる点が実装上の利点だ。
curl http://localhost:11434/api/generate \
-d '{
"model": "gemma4:e4b",
"prompt": "日本語でsystem promptを使う場合の注意点は?",
"stream": false
}'
注意点(トレードオフ)
Ollama は手軽さの代わりに、量子化方式やバッチサイズなどの推論パラメータを細かく制御しにくい面がある。本番用途や精度チューニングが必要な場合は、後述の transformers 経由か、専用の推論サーバ(vLLM 等)への移行を検討するべきだ。
Gemma 環境構築②:LM Studio で GUI セットアップ
LM Studio は GUI でモデルを検索・ダウンロード・実行できるデスクトップアプリだ。コマンド操作に慣れていないメンバーがいるチームや、PoC 段階での動作確認に向いている。
セットアップ手順
- lmstudio.ai から自分の OS に対応したインストーラをダウンロードしてインストールする。
- アプリを起動し、検索バーに「gemma4」と入力すると Hugging Face に公開されているモデルが一覧表示される。
- 使用する量子化バリアント(Q4_K_M など)を選択してダウンロードを開始する。VRAM・RAM の空き容量に合わせて選択すること。
- ダウンロード完了後、「Local Server」タブでサーバを起動すると
http://localhost:1234/v1に OpenAI 互換エンドポイントが立ち上がる。
接続確認
curl http://localhost:1234/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4-e4b",
"messages": [{"role": "user", "content": "こんにちは"}]
}'
注意点(トレードオフ)
LM Studio は GUI 操作が中心のため、CI/CD パイプラインへの組み込みや自動化スクリプトとの連携には不向きだ。開発環境の再現性をコードで管理したい場合は Ollama または transformers の採用を優先したほうがよい。また、利用規約(LM Studio Terms of Service)の商用利用条件は定期的に確認する必要がある。
Gemma インストール手順③:Hugging Face transformers で Python から動かす
既存の Python プロジェクトに Gemma を組み込む場合や、推論パイプラインをコードで制御したい場合は Hugging Face transformers を使う経路が適している。
前提環境の準備
python -m venv gemma-env
source gemma-env/bin/activate # Windows: gemma-env\Scripts\activate
pip install transformers accelerate torch
GPU(CUDA 対応)環境を使用する場合は、torch を PyTorch 公式サイト(pytorch.org)の CUDA 対応版に差し替えること。
Hugging Face Hub からモデルを取得する
Gemma 4 のモデルは Hugging Face Hub の google/ 名前空間に公開されている(出典:Gemma モデルを使ってみる|Google AI for Developers)。初回アクセス時は Hugging Face アカウントでのログインとモデルページでの利用規約への同意が必要だ。
pip install huggingface_hub
huggingface-cli login # アクセストークンを入力
最小動作コード
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_id = "google/gemma-4-e4b-it" # instruction-tuned 版
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16, # bfloat16 で VRAM 消費を抑制
device_map="auto" # GPU/CPU を自動割り当て
)
messages = [
{"role": "user", "content": "Gemma の function calling を Python で使う手順を教えて"}
]
inputs = tokenizer.apply_chat_template(
messages, return_tensors="pt", return_dict=True
).to(model.device)
outputs = model.generate(**inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True))
実装上のポイント
apply_chat_templateの使用は必須:Gemma 4 は system prompt のロール対応を含む独自のチャットテンプレートを持つ。生テキストを直接入力すると期待する応答が得られない。bfloat16の指定:float32と比較して VRAM・RAM 消費をほぼ半減できる。Ampere 世代以降の GPU(A100、RTX 30xx 系以降)では特に有効だ。device_map="auto":モデルのレイヤーを利用可能な GPU と CPU に自動分散する。複数 GPU 環境でも追加設定なしで機能する。- Gemma 4 の function calling:標準対応のため、ツール定義を
tools引数として渡すことで structured output を得られる。
注意点(トレードオフ)
transformers 経由は柔軟性が高い反面、環境依存のトラブルが起きやすい。特に torch のバージョンと CUDA ドライバの整合性は最初に確認すべき箇所だ。量子化(GPTQ/AWQ/GGUF)を適用して VRAM 消費をさらに抑える手法については、Gemma ローカル運用の詳細設計 を参照されたい。
なお、日本原子力研究開発機構(JAEA)が公開した技術報告書では、スーパーコンピュータ上にオープンウェイトモデルを用いたオンプレミス生成 AI 基盤を構築し、Hugging Face transformers を中心としたスタックを採用した事例が報告されている(出典:スーパーコンピュータを用いたオンプレミス生成AI基盤の構築と展開|JAEA-Technology-2025-017)。機密性の高いデータを扱う組織がオープンウェイトモデルをオンプレミスで動かす際の参考事例として一読する価値がある。
3経路の比較と選択基準
| 観点 | Ollama | LM Studio | transformers |
|---|---|---|---|
| 初期セットアップの手数 | 少(1〜2コマンド) | 少(GUI 操作のみ) | 中(pip + コード記述) |
| API エンドポイント | OpenAI 互換(自動) | OpenAI 互換(手動起動) | Python 呼び出しのみ(REST化には別途実装) |
| 推論パラメータの制御 | 中(Modelfile で設定) | 中(GUI スライダ) | 高(コードで全制御) |
| CI/CD・自動化との親和性 | 高 | 低 | 高 |
| マルチモーダル(画像入力) | モデル対応版で可 | モデル対応版で可 | コードで実装可 |
| 量子化の柔軟性 | GGUF ベース | GGUF ベース | GPTQ/AWQ/GGUF 等を選択可 |
| 推奨フェーズ | 初期検証〜PoC | 非エンジニアとの共有・デモ | プロダクト組み込み・研究 |
選択の基準をひとことで言えば、速度優先なら Ollama、GUI で完結したいなら LM Studio、コード制御が必要なら transformers だ。同一プロジェクト内でも、最初は Ollama で動作確認し、プロダクト組み込み時に transformers へ移行する段階的なアプローチが現実的なケースも多い。
Gemma 4 の詳細な機能・アーキテクチャについては Gemma の概要 を、他のモデルとの性能比較については Gemma の比較 を、API 経由でのクラウド利用については Gemma の料金・API 利用 を参照されたい。LLM の周辺技術として強化学習や深層学習の仕組みに興味があれば、強化学習の解説 や 深層学習の解説 も参考になる。
弊社クリスタルメソッドが開発するバーチャルヒューマン/AIアバターソリューション「DeepAI」は、Gemma のような大規模言語モデルを対話 AI コンポーネントとして組み合わせ、接客・研修・面接練習・広報などの用途で活用している。ローカル LLM の活用や AI アバター基盤の構築についてのご相談は、クリスタルメソッド ブログ・お問い合わせ よりご連絡いただきたい。
参考文献
- Gemma 4 model overview|Google AI for Developers: https://ai.google.dev/gemma/docs/core(2026-06-08)
- Gemma releases(リリース一覧)|Google AI for Developers: https://ai.google.dev/gemma/docs/releases(2026-06-08)
- Gemma モデルを使ってみる|Google AI for Developers(日本語): https://ai.google.dev/gemma/docs/get_started?hl=ja
- Gemma|Google DeepMind: https://deepmind.google/models/gemma/(2026-06-08)
- Gemma 4: Byte for byte, the most capable open models|Google Blog: https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/(2026-06-08)
- Google’s Gemma 4 now available with Apache 2.0 licensing|The Decoder: https://the-decoder.com/googles-gemma-4-is-now-available-with-apache-2-0-licensing-for-the-first-time/(2026-06-08)
- スーパーコンピュータを用いたオンプレミス生成AI基盤の構築と展開|JAEA-Technology-2025-017: https://jopss.jaea.go.jp/pdfdata/JAEA-Technology-2025-017.pdf
- Gemma (language model)|Wikipedia: https://en.wikipedia.org/wiki/Gemma_(language_model)(2026-06-08)
関連記事
監修
河合 継(クリスタルメソッド株式会社 代表取締役)
AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について | 編集方針
Study about AI
AIについて学ぶ
-
生成AIオンプレミス導入と規制リスク——Anthropic輸出規制が示す自社インフラ回帰の必然
Anthropicの輸出規制命令——生成AIオンプレミス導入が「規制リスク対策」に変わった瞬間 2026年6月、米国政府はAnthropicに対し、新モデル「M...
-
EU AI規制 企業対応の実務——ENISAとAnthropicの協議が示す日本企業への含意
ENISAがAnthropicと直接協議——EU AI規制の監視が生成AIへ本格移行 欧州サイバーセキュリティ機関ENISA(European Union Ag...
-
Claude障害が招く業務影響と対策——AI依存リスクの経営管理指針
Claude障害の実態:2026年6月インシデントが示すもの 2026年6月18日、AnthropicのAIチャットボット「Claude」(claude.ai)...