blog

AIブログ

Gemma 環境構築・インストール｜Ollama/LM Studio/transformers手順

Gemma 環境構築の前提：モデル選択とライセンスの確認

ローカルで Gemma を動かすにあたり、まずモデルの選択とライセンスを整理しておく必要がある。2026年6月時点の現行世代は Gemma 4（2026年3月31日リリース）であり、Gemma 3 以前はレガシーとして位置づけられている（出典：Gemma releases｜Google AI for Developers）。

Gemma 4 のラインナップと、ローカル環境構築における推奨用途をまとめると以下のとおりだ。

Gemma 4 ラインナップとローカル環境での推奨用途（2026年6月時点）
モデル	パラメータ規模	コンテキスト長	ローカル構築の現実的難易度	主な用途
E2B / E4B	実効 2B / 4B	128K	低（RAM 8GB 以上で動作見込み）	モバイル・エッジ・プロトタイプ
12B Unified	12B	256K	中（RAM/VRAM 16GB 以上推奨）	マルチモーダル主力・開発検証
26B A4B（MoE）	26B（疎）	256K	中〜高（MoE構造により活性パラメータは少ない）	高スループット推論
31B Dense	31B	256K	高（VRAM 24GB 以上推奨）	旗艦・高性能サーバ用途

ライセンス面では、Gemma 4 は Apache 2.0 ライセンスを初めて採用しており、ライセンス費用・Google との特別許諾なしで商用利用・ファインチューン後の再配布が可能だ（出典：Google’s Gemma 4 now available with Apache 2.0 licensing｜The Decoder）。なお、Gemma 3 以前は独自の「Gemma Terms of Use」が適用されるため、ライセンスを一律に Apache 2.0 と読み替えないよう注意が必要だ。

環境構築の全体像・モデルの基礎知識については Gemma の基礎解説を参照されたい。本番運用・量子化・GPU 設計の作り込みは別記事（Gemma ローカル運用の詳細設計）で扱う。

Gemma 4 をローカルで動かす3つの経路。初期検証なら Ollama、GUI 操作なら LM Studio、コード組み込みなら transformers が適している。

Gemma インストール手順①：Ollama で最速セットアップ

Ollama はモデルのダウンロード・サーバ起動・推論をワンコマンドで完結させるローカル LLM ランタイムだ。依存関係の管理が不要なため、最初の動作確認には最も手順が少ない。

インストール

macOS・Linux では以下の1行で Ollama 本体をインストールできる。

curl -fsSL https://ollama.com/install.sh | sh

Windows では公式サイト（ollama.com/download）からインストーラをダウンロードして実行する。インストール完了後、バックグラウンドで Ollama のサーバプロセスが自動起動する。

Gemma 4 モデルの取得と起動

インストールが完了したら、以下のコマンドで Gemma 4 E4B（軽量版）を取得して対話モードを起動できる。

# E4B（軽量・RAM 8GB 程度から動作見込み）
ollama run gemma4:e4b

# 12B Unified（マルチモーダル対応の主力、VRAM/RAM 16GB 以上推奨）
ollama run gemma4:12b

初回実行時にモデルウェイトが自動ダウンロードされ、完了後すぐにプロンプトが表示される。

REST API としての利用

Ollama はデフォルトで http://localhost:11434 に OpenAI 互換のエンドポイントを公開する。既存のアプリケーションコードを最小限の変更で接続できる点が実装上の利点だ。

curl http://localhost:11434/api/generate \
  -d '{
    "model": "gemma4:e4b",
    "prompt": "日本語でsystem promptを使う場合の注意点は？",
    "stream": false
  }'

注意点（トレードオフ）

Ollama は手軽さの代わりに、量子化方式やバッチサイズなどの推論パラメータを細かく制御しにくい面がある。本番用途や精度チューニングが必要な場合は、後述の transformers 経由か、専用の推論サーバ（vLLM 等）への移行を検討するべきだ。

Gemma 環境構築②：LM Studio で GUI セットアップ

LM Studio は GUI でモデルを検索・ダウンロード・実行できるデスクトップアプリだ。コマンド操作に慣れていないメンバーがいるチームや、PoC 段階での動作確認に向いている。

セットアップ手順

lmstudio.ai から自分の OS に対応したインストーラをダウンロードしてインストールする。
アプリを起動し、検索バーに「gemma4」と入力すると Hugging Face に公開されているモデルが一覧表示される。
使用する量子化バリアント（Q4_K_M など）を選択してダウンロードを開始する。VRAM・RAM の空き容量に合わせて選択すること。
ダウンロード完了後、「Local Server」タブでサーバを起動すると http://localhost:1234/v1 に OpenAI 互換エンドポイントが立ち上がる。

接続確認

curl http://localhost:1234/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4-e4b",
    "messages": [{"role": "user", "content": "こんにちは"}]
  }'

注意点（トレードオフ）

LM Studio は GUI 操作が中心のため、CI/CD パイプラインへの組み込みや自動化スクリプトとの連携には不向きだ。開発環境の再現性をコードで管理したい場合は Ollama または transformers の採用を優先したほうがよい。また、利用規約（LM Studio Terms of Service）の商用利用条件は定期的に確認する必要がある。

Gemma インストール手順③：Hugging Face transformers で Python から動かす

既存の Python プロジェクトに Gemma を組み込む場合や、推論パイプラインをコードで制御したい場合は Hugging Face transformers を使う経路が適している。

前提環境の準備

python -m venv gemma-env
source gemma-env/bin/activate          # Windows: gemma-env\Scripts\activate
pip install transformers accelerate torch

GPU（CUDA 対応）環境を使用する場合は、torch を PyTorch 公式サイト（pytorch.org）の CUDA 対応版に差し替えること。

Hugging Face Hub からモデルを取得する

Gemma 4 のモデルは Hugging Face Hub の google/ 名前空間に公開されている（出典：Gemma モデルを使ってみる｜Google AI for Developers）。初回アクセス時は Hugging Face アカウントでのログインとモデルページでの利用規約への同意が必要だ。

pip install huggingface_hub
huggingface-cli login   # アクセストークンを入力

最小動作コード

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_id = "google/gemma-4-e4b-it"   # instruction-tuned 版

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,      # bfloat16 で VRAM 消費を抑制
    device_map="auto"                 # GPU/CPU を自動割り当て
)

messages = [
    {"role": "user", "content": "Gemma の function calling を Python で使う手順を教えて"}
]
inputs = tokenizer.apply_chat_template(
    messages, return_tensors="pt", return_dict=True
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True))

実装上のポイント

apply_chat_template の使用は必須：Gemma 4 は system prompt のロール対応を含む独自のチャットテンプレートを持つ。生テキストを直接入力すると期待する応答が得られない。
bfloat16 の指定：float32 と比較して VRAM・RAM 消費をほぼ半減できる。Ampere 世代以降の GPU（A100、RTX 30xx 系以降）では特に有効だ。
device_map="auto"：モデルのレイヤーを利用可能な GPU と CPU に自動分散する。複数 GPU 環境でも追加設定なしで機能する。
Gemma 4 の function calling：標準対応のため、ツール定義を tools 引数として渡すことで structured output を得られる。

注意点（トレードオフ）

transformers 経由は柔軟性が高い反面、環境依存のトラブルが起きやすい。特に torch のバージョンと CUDA ドライバの整合性は最初に確認すべき箇所だ。量子化（GPTQ/AWQ/GGUF）を適用して VRAM 消費をさらに抑える手法については、Gemma ローカル運用の詳細設計を参照されたい。

なお、日本原子力研究開発機構（JAEA）が公開した技術報告書では、スーパーコンピュータ上にオープンウェイトモデルを用いたオンプレミス生成 AI 基盤を構築し、Hugging Face transformers を中心としたスタックを採用した事例が報告されている（出典：スーパーコンピュータを用いたオンプレミス生成AI基盤の構築と展開｜JAEA-Technology-2025-017）。機密性の高いデータを扱う組織がオープンウェイトモデルをオンプレミスで動かす際の参考事例として一読する価値がある。

ローカルLLMの導入やRAG構築をご検討の方は、AI開発会社クリスタルメソッドの無料相談をご利用ください。

3経路の比較と選択基準

Ollama / LM Studio / transformers の比較（ローカル Gemma 環境構築 2026年6月時点）
観点	Ollama	LM Studio	transformers
初期セットアップの手数	少（1〜2コマンド）	少（GUI 操作のみ）	中（pip + コード記述）
API エンドポイント	OpenAI 互換（自動）	OpenAI 互換（手動起動）	Python 呼び出しのみ（REST化には別途実装）
推論パラメータの制御	中（Modelfile で設定）	中（GUI スライダ）	高（コードで全制御）
CI/CD・自動化との親和性	高	低	高
マルチモーダル（画像入力）	モデル対応版で可	モデル対応版で可	コードで実装可
量子化の柔軟性	GGUF ベース	GGUF ベース	GPTQ/AWQ/GGUF 等を選択可
推奨フェーズ	初期検証〜PoC	非エンジニアとの共有・デモ	プロダクト組み込み・研究

選択の基準をひとことで言えば、速度優先なら Ollama、GUI で完結したいなら LM Studio、コード制御が必要なら transformers だ。同一プロジェクト内でも、最初は Ollama で動作確認し、プロダクト組み込み時に transformers へ移行する段階的なアプローチが現実的なケースも多い。

Gemma 4 の詳細な機能・アーキテクチャについては Gemma の概要を、他のモデルとの性能比較については Gemma の比較を、API 経由でのクラウド利用については Gemma の料金・API 利用を参照されたい。LLM の周辺技術として強化学習や深層学習の仕組みに興味があれば、強化学習の解説や深層学習の解説も参考になる。

弊社クリスタルメソッドが開発するバーチャルヒューマン／AIアバターソリューション「DeepAI」は、Gemma のような大規模言語モデルを対話 AI コンポーネントとして組み合わせ、接客・研修・面接練習・広報などの用途で活用している。ローカル LLM の活用や AI アバター基盤の構築についてのご相談は、クリスタルメソッドブログ・お問い合わせよりご連絡いただきたい。

参考文献

Gemma 4 model overview｜Google AI for Developers: https://ai.google.dev/gemma/docs/core（2026-06-08）
Gemma releases（リリース一覧）｜Google AI for Developers: https://ai.google.dev/gemma/docs/releases（2026-06-08）
Gemma モデルを使ってみる｜Google AI for Developers（日本語）: https://ai.google.dev/gemma/docs/get_started?hl=ja
Gemma｜Google DeepMind: https://deepmind.google/models/gemma/（2026-06-08）
Gemma 4: Byte for byte, the most capable open models｜Google Blog: https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/（2026-06-08）
Google’s Gemma 4 now available with Apache 2.0 licensing｜The Decoder: https://the-decoder.com/googles-gemma-4-is-now-available-with-apache-2-0-licensing-for-the-first-time/（2026-06-08）
スーパーコンピュータを用いたオンプレミス生成AI基盤の構築と展開｜JAEA-Technology-2025-017: https://jopss.jaea.go.jp/pdfdata/JAEA-Technology-2025-017.pdf
Gemma (language model)｜Wikipedia: https://en.wikipedia.org/wiki/Gemma_(language_model)（2026-06-08）

監修

河合継（クリスタルメソッド株式会社代表取締役）

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について｜編集方針

LLM・ローカルLLMの業務導入をご検討の方へ

クリスタルメソッドは、オープンモデル・ローカルLLMの選定からRAG構築・PoC・本番導入までのAI開発を支援しています。「機密データを外部に出さずにLLMを使いたい」「自社の業務に合うモデルを選びたい」といったご相談を承っています。

無料相談・お問い合わせ：ご相談はこちら

Study about AI

AIについて学ぶ

Claude Opus 5 活用方法と企業導入ロードマップ：コスト半減と自律運用の最適解

Anthropicが発表した「Claude Opus 5」の概要 Anthropicは、同社の最新かつ最上位のフラッグシップAIモデルである「Claude Op...
OpenAIの音声エージェント開発を企業が導入する基準：新基盤「Presence」の衝撃

OpenAIの音声エージェント開発を企業が導入する基準：新基盤「Presence」の衝撃 AI技術の進展に伴い、企業のカスタマーサポートやセールス活動における自...
AI 暴走リスクセキュリティ対策：OpenAI自律ハッキング事案から学ぶ企業の防衛策

人工知能（AI）技術の進化は、業務効率化や意思決定の迅速化に大きく貢献する一方で、これまでにない新たな脅威をもたらしています。特に、自律的に判断して行動する「A...

Gemma 環境構築・インストール｜Ollama/LM Studio/transformers手順

Gemma 環境構築の前提：モデル選択とライセンスの確認

Gemma インストール手順①：Ollama で最速セットアップ

インストール

Gemma 4 モデルの取得と起動

REST API としての利用

注意点（トレードオフ）

Gemma 環境構築②：LM Studio で GUI セットアップ

セットアップ手順

接続確認

注意点（トレードオフ）

Gemma インストール手順③：Hugging Face transformers で Python から動かす

前提環境の準備

Hugging Face Hub からモデルを取得する

最小動作コード

実装上のポイント

注意点（トレードオフ）

3経路の比較と選択基準

参考文献

LLM・ローカルLLMの業務導入をご検討の方へ

AIについて学ぶ

AIで、業務の生産性を変革しませんか？