blog

AIブログ

Gemma API 使い方完全ガイド｜セットアップから実装まで

Gemma API とは何か｜Gemini API 経由で使うオープンウェイトモデル

Gemma は Google DeepMind が開発・公開するオープンウェイトの大規模言語モデルファミリーである。重要な前提として、Gemma 自体はモデルウェイトを無料でダウンロード・自己ホストできる存在であり、月額サブスクリプションや Google との特別契約は不要だ。課金が発生するのは、Vertex AI や各種サードパーティが提供するマネージド API を利用する場合に限られる。

エンジニアが「Gemma API 使い方」を検索する場合、主に二つのユースケースがある。一つはGoogle AI Studio（ai.google.dev）の Gemini API 経由でホスト型アクセスを利用するケース、もう一つはOllama 等でローカルに立ち上げたモデルに対してOpenAI互換APIを叩くケースだ。本記事では前者を中心に解説しつつ、後者との使い分けも整理する。

現行の主力は Gemma 4（2026年3月31日リリース）である。ラインナップは以下の通り。

E2B / E4B（Effective 2B / 4B）：エッジ・モバイル・ブラウザ向け。コンテキスト 128K。マルチモーダル対応（テキスト・画像・動画・音声）
12B Unified（2026年6月3日リリース）：マルチモーダル主力。コンテキスト 256K。エンコーダフリー設計
26B A4B（MoE, Mixture-of-Experts）：高スループット推論向け。コンテキスト 256K
31B Dense：最大の旗艦モデル。コンテキスト 256K

Gemma 4 は Apache 2.0 ライセンスで提供される点が特筆に値する。Gemma 3 以前の世代は独自の「Gemma Terms of Use」だったが、Gemma 4 で初めて Apache 2.0 が採用された。これにより、ファインチューン後の再配布を含む商用利用が、より明確な条件のもとで可能になった（Google AI for Developers, 2026年6月）。

モデルの詳細な比較や料金体系については、Gemma モデル比較記事やGemma 料金解説記事も参照されたい。

図1：Gemini API を経由してアプリケーションから Gemma モデルにアクセスする構成概要

Gemma API 使い方の第一歩｜APIキー取得とセットアップ手順

Google AI Studio 経由で Gemma API を利用する手順を示す。Gemma のセットアップ詳細手順も合わせて参照することを推奨する。

ステップ1：Google AI Studio でAPIキーを発行する

ai.google.dev にアクセスし、Google アカウントでサインイン
「Get API key」→「Create API key」を選択
発行された APIキーを環境変数 GOOGLE_API_KEY に設定する

APIキーの扱いは慎重にすること。コードに直接埋め込まず、必ず環境変数またはシークレットマネージャーを用いる。なお、2026年4月1日以降、Gemini API の課金キャップが強制適用されているため、開発初期は必ずレート制限と無料枠の上限を確認した上でテストを始めることを勧める（Qiita, 2026年4月）。

ステップ2：Python SDK のインストール

# google-genai ライブラリをインストール
pip install google-genai

ステップ3：最小動作コード

import os
from google import genai

client = genai.Client(api_key=os.environ["GOOGLE_API_KEY"])

response = client.models.generate_content(
    model="gemma-4-12b-it",   # Gemma 4 12B Unified を指定
    contents="日本語でPythonの非同期処理を200字で説明してください。"
)

print(response.text)

モデル名の文字列は公式ドキュメント（ai.google.dev/gemma/docs/core）で最新の model ID を必ず確認すること。AIStudio のUI上でモデル一覧を確認するのが最も確実だ。

ステップ4：マルチターン（会話履歴）の実装

from google import genai
from google.genai import types
import os

client = genai.Client(api_key=os.environ["GOOGLE_API_KEY"])

history = [
    types.Content(role="user", parts=[types.Part(text="Pythonとは何ですか？")]),
    types.Content(role="model", parts=[types.Part(text="Pythonは汎用プログラミング言語です。")]),
]

history.append(
    types.Content(role="user", parts=[types.Part(text="非同期処理のメリットを教えてください。")])
)

response = client.models.generate_content(
    model="gemma-4-12b-it",
    contents=history,
    config=types.GenerateContentConfig(
        system_instruction="あなたは日本語で答える技術アシスタントです。",
        max_output_tokens=512,
        temperature=0.7,
    )
)

print(response.text)

Gemma 4 はシステムプロンプトのロール（system_instruction）に標準対応している。function calling も標準サポートされているため、ツール連携を要するエージェント用途にも直接適用できる。

Gemma API 使い方の選択肢比較｜マネージド vs ローカル vs サードパーティ

「Gemma API」と一口に言っても、実行環境によってコスト構造・レイテンシ・データ主権への影響が大きく異なる。以下の比較表を意思決定の参考にされたい。

表1：Gemma API 実行方式の比較（2026年6月時点）
実行方式	主なサービス	コスト	セットアップ難易度	データ主権	向くユースケース
Google AI Studio（Gemini API）	ai.google.dev	無料枠あり／超過は従量	低（APIキーのみ）	Google サーバ送信	プロトタイプ・個人開発
Google Vertex AI	cloud.google.com	従量課金（GCP料金）	中（GCPプロジェクト設定要）	GCP リージョン内	エンタープライズ本番環境
ローカル（Ollama 等）	Ollama, llama.cpp	ハードウェアコストのみ	中（GPU環境構築要）	完全オンプレ	機密データ処理・オフライン
サードパーティ API	OpenRouter, DeepInfra	概ね $0.10〜$0.70 / 100万トークン（USD）	低（APIキーのみ）	サードパーティ送信	コスト比較・マルチプロバイダ構成

サードパーティ API の単価例として、OpenRouter が公開する Gemma 4 26B A4B のブレンド単価は概ね $0.10〜$0.70 / 100万トークン（USD、2026年6月時点）である（OpenRouter 公式ページ参照）。ただしこれはプロバイダ・モデルの組み合わせにより変動するため、利用前に最新の料金表を確認すること。

他のオープンソース系 API との比較として、DeepSeek API の使い方やMistral API の解説も参考になる。コスト重視の場面では複数プロバイダの料金を横断比較することを勧める。

ローカル実行（Ollama）との使い分け

Ollama を用いたローカル実行では、OpenAI 互換エンドポイント（http://localhost:11434/v1）を利用できるため、openai ライブラリの base_url を差し替えるだけで既存コードを流用できる。機密情報を含む社内データをモデルに入力する場面では、データが外部サーバへ送信されないローカル実行を選択することがセキュリティ観点から合理的だ。

# Ollama + Gemma をローカルで動かす場合の例
# 事前に: ollama pull gemma4:12b

from openai import OpenAI

client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")

response = client.chat.completions.create(
    model="gemma4:12b",
    messages=[{"role": "user", "content": "非同期処理とは？"}]
)
print(response.choices[0].message.content)

ローカルLLMの導入やRAG構築をご検討の方は、AI開発会社クリスタルメソッドの無料相談をご利用ください。

Gemma API 使い方の応用｜マルチモーダル・Function Calling・ユースケース別設計

マルチモーダル入力（画像）

Gemma 4 の全ラインナップはネイティブのマルチモーダル対応を備える（Google AI for Developers, 2026年6月）。Gemini API 経由では以下のように画像を入力できる。

import base64
import os
from google import genai
from google.genai import types

client = genai.Client(api_key=os.environ["GOOGLE_API_KEY"])

with open("inspection_image.jpg", "rb") as f:
    image_bytes = f.read()

image_part = types.Part.from_bytes(
    data=image_bytes,
    mime_type="image/jpeg"
)

response = client.models.generate_content(
    model="gemma-4-12b-it",
    contents=[
        types.Content(role="user", parts=[
            image_part,
            types.Part(text="この画像に写っている製品の外観上の異常を指摘してください。")
        ])
    ]
)
print(response.text)

弊社が開発する DeepAI は、実在の人物の容姿・表情・声・振る舞いをデジタル空間で再現するバーチャルヒューマン／AIアバターソリューションであり、接客・研修・広報など多様な場面での活用が広がっている。こうした対話型フロントエンドに Gemma 4 のマルチモーダル推論を組み合わせることで、視覚情報を交えた自然な説明をアバターが行うアーキテクチャも技術的に実現可能だ。詳細は深層学習による画像認識の解説記事を参照されたい。

Function Calling の実装

Gemma 4 は function calling に標準対応している。ツール定義を渡すと、モデルが呼び出すべき関数名と引数を JSON で返すため、サーバサイドで実行した結果を再度モデルに渡すループを実装することで、エージェント的な挙動が得られる。

from google.genai import types

# ツール定義
tools = [
    types.Tool(function_declarations=[
        types.FunctionDeclaration(
            name="get_inventory",
            description="指定した部品コードの在庫数を取得する",
            parameters=types.Schema(
                type="OBJECT",
                properties={
                    "part_code": types.Schema(type="STRING", description="部品コード（例: ABC-001）")
                },
                required=["part_code"]
            )
        )
    ])
]

response = client.models.generate_content(
    model="gemma-4-12b-it",
    contents="ABC-001の在庫は何個ありますか？",
    config=types.GenerateContentConfig(tools=tools)
)

# モデルがツール呼び出しを選択した場合
if response.candidates[0].content.parts[0].function_call:
    fc = response.candidates[0].content.parts[0].function_call
    print(f"関数名: {fc.name}, 引数: {fc.args}")

モデル選定の指針

実装時のモデル選定は、主にスループット・コンテキスト長・推論精度の三つのトレードオフで決まる。

エッジ / ブラウザ実行が必要な場合：E2B または E4B（128K コンテキスト）
マルチモーダルを中心としたサービスで、コストと精度のバランスを取りたい場合：12B Unified（256K コンテキスト）
高スループットの推論サービスで MoE の効率を活かしたい場合：26B A4B
精度を最大化したいサーバサイド用途：31B Dense

技術的な限界と注意点

Gemma API を導入する際に把握しておくべき制限を以下に示す。

Gemini API の無料枠には RPM（リクエスト毎分）・TPD（1日あたりトークン）の上限がある。本番トラフィックを流す前に必ずレート制限を確認し、バックオフ処理を実装すること（Google AI for Developers 公式, 2026年）。
Vertex AI と Gemini API は課金体系が異なる。エンタープライズ用途では Vertex AI の SLA や VPC 境界の設定が必要になる場合がある。
ローカル実行では GPU VRAM が制約になる。31B Dense モデルを量子化なしで動かすには相応の VRAM が必要であり、Q4 量子化等のトレードオフを事前に評価すること。
マルチモーダル対応の動画・音声入力は、Gemini API 側の対応状況に依存する。公式ドキュメントで最新のサポート範囲を確認することを強く推奨する。
Gemma 3 以前のモデルはレガシー扱い。既存コードが旧モデルを指している場合、モデル名と動作の変化を確認した上で移行計画を立てること。

他のクローズド API との比較検討をする際は、Claude API の料金・使い方記事やGrok API の解説も参照することで、選択肢の全体像を把握できる。また、Gemma の基本的な概要についてはGemma 概要記事、最新情報の一覧はブログトップを参照されたい。

Gemma API は、オープンウェイトモデルとしての自由度（自己ホスト・Apache 2.0 商用利用・ファインチューン再配布）と、Gemini API を通じた低摩擦なアクセスを両立できる点が技術的に優れている。プロトタイプ段階では AI Studio の無料枠で素早く検証し、本番環境では Vertex AI またはオンプレ GPU 環境へ段階的に移行するアーキテクチャが、コストと信頼性のバランスとして現実的な選択肢となる。

弊社が開発する DeepAI は、実在の人物の容姿・表情・声・振る舞いをデジタル空間で再現するバーチャルヒューマン／AIアバターソリューションであり、リップシンク・音声合成・対話 AIを組み合わせて接客・研修・面接練習・広報等に活用されている。Gemma 4 との連携による対話品質のさらなる向上に関心をお持ちの場合は、ぜひお問い合わせいただきたい。

参考文献

Gemma 4 model overview｜Google AI for Developers: https://ai.google.dev/gemma/docs/core（2026年6月8日参照）
Gemini API で Gemma を実行する｜Google AI for Developers: https://ai.google.dev/gemma/docs/core/gemma_on_gemini_api?hl=ja（2026年6月参照）
Gemma releases（リリース一覧）｜Google AI for Developers: https://ai.google.dev/gemma/docs/releases（2026年6月8日参照）
Gemma｜Google DeepMind: https://deepmind.google/models/gemma/（2026年6月8日参照）
Gemma 4: Byte for byte, the most capable open models｜Google Blog: https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/（2026年6月8日参照）
Google’s Gemma 4 now available with Apache 2.0 licensing｜The Decoder: https://the-decoder.com/googles-gemma-4-is-now-available-with-apache-2-0-licensing-for-the-first-time/（2026年6月8日参照）
Gemma 4 26B A4B – API Pricing｜OpenRouter: https://openrouter.ai/google/gemma-4-26b-a4b-it（2026年6月8日参照）
Gemini API 課金制限2026年4月1日施行ガイド｜Qiita: https://qiita.com/kai_kou/items/cf7f309de439aec73b8e（2026年6月参照）
政府等保有データのAI学習データへの変換に係る調査研究｜デジタル庁: https://www.digital.go.jp/assets/contents/node/information/field_ref_resources/382c3937-f43c-4452-ae27-2ea7bb66ec75/2ae5ae1b/20250602_news_ai-training-data_report_01.pdf
デジタルテクノロジーの高度化とその活用に関する調査研究｜総務省: https://www.soumu.go.jp/johotsusintokei/linkdata/r06_01_houkoku.pdf

監修

河合継（クリスタルメソッド株式会社代表取締役）

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について｜編集方針

LLM・ローカルLLMの業務導入をご検討の方へ

クリスタルメソッドは、オープンモデル・ローカルLLMの選定からRAG構築・PoC・本番導入までのAI開発を支援しています。「機密データを外部に出さずにLLMを使いたい」「自社の業務に合うモデルを選びたい」といったご相談を承っています。

無料相談・お問い合わせ：ご相談はこちら

Study about AI

AIについて学ぶ

Claude Opus 5 活用方法と企業導入ロードマップ：コスト半減と自律運用の最適解

Anthropicが発表した「Claude Opus 5」の概要 Anthropicは、同社の最新かつ最上位のフラッグシップAIモデルである「Claude Op...
OpenAIの音声エージェント開発を企業が導入する基準：新基盤「Presence」の衝撃

OpenAIの音声エージェント開発を企業が導入する基準：新基盤「Presence」の衝撃 AI技術の進展に伴い、企業のカスタマーサポートやセールス活動における自...
AI 暴走リスクセキュリティ対策：OpenAI自律ハッキング事案から学ぶ企業の防衛策

人工知能（AI）技術の進化は、業務効率化や意思決定の迅速化に大きく貢献する一方で、これまでにない新たな脅威をもたらしています。特に、自律的に判断して行動する「A...