blog

Gemmaをスマホで実行する方法|オンデバイス利用の手順と注意点

監修

河合 継(クリスタルメソッド株式会社 代表取締役)

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について編集方針

GemmaをスマホでオフラインAIとして使う完全ガイド

「スマホの中でAIが動く」——数年前なら夢物語だったこの話が、GoogleのオープンモデルGemmaの登場によって現実になっています。クラウドAPIへの通信なし、月額課金なし、データをサーバーに送らずに高度な言語処理がスマホ単体で完結する——これがGemma×スマホ運用の最大の価値です。当社でも複数のデバイスとランタイムを組み合わせてGemmaのオンデバイス推論を検証してきました。本記事では、なぜスマホでGemmaが動くのか、どのモデルを選べばよいか、具体的な導入手順と実運用のコツまでを深く掘り下げます。

なぜGemmaはスマホで動くのか——モデル設計の背景

Gemmaがオンデバイス推論に適している理由は、パラメータ規模の選択幅とアーキテクチャの効率性にあります。大型LLMが70B〜数百Bのパラメータを持つのに対し、Gemmaは現行世代(Gemma 4)でも軽量バリアントとしてE2B・E4B(Effective 2B / 4B)をラインナップに持ち、量子化(INT4/INT8)を施せばスマホのRAMに収まるサイズになります。

Gemmaの概要・位置づけについては Gemmaとは何か(概要記事) で詳しく解説していますので、モデルの基本を押さえたい方はそちらを参照してください。ここではスマホ運用に絞って深掘りします。

スマホで推論が成立する「3つの条件」

① モデルサイズ
量子化INT4でE2B≒1.2GB前後。ハイエンドスマホの8〜12GB RAMに収まる
② NPU/GPU活用
Snapdragon 8 Gen系・Apple A17以降はNPUが高速推論をサポート。CPU単体より数倍速い
③ ランタイム対応
MediaPipe LLM Inference API・llama.cpp・Ollama(モバイル版)などがGemmaのGGUF/TFLite形式を正式サポート

当社の検証では、Snapdragon 8 Gen 3搭載端末でGemma 4 E2B(INT4量子化)を動かした場合、1秒あたり約18〜25トークンの生成速度を確認しています。短文の質問応答であればストレスなく使えるレベルです。一方、より大きなモデルは同端末でも約8〜12トークン/秒にとどまり、長文生成にはやや待ち時間が発生します。用途と許容レイテンシのバランスでモデルを選ぶことが重要です。

スマホ向けGemmaモデルの選び方

2026年時点でスマホ運用に現実的なGemmaモデルは以下の通りです。現行世代はGemma 4(2026年3月リリース、Apache 2.0ライセンス)で、旧世代(Gemma 3 / Gemma 2 / Gemma 1)はレガシー扱いとなっています。

モデル パラメータ規模 INT4量子化後サイズ(目安) 推奨RAM 主な用途
Gemma 4 E2B(現行) Effective 2B 約1.2〜1.5GB 6GB以上 チャットbotアシスト・要約・分類。ブラウザ/エッジ向け
Gemma 4 E4B(現行) Effective 4B 約2.5〜3.0GB 8GB以上 バランス型・ネイティブマルチモーダル(テキスト・画像・動画・音声)
Gemma 3 1B(レガシー) 1B 約0.7GB 4GB以上 ミッドレンジ端末・超低レイテンシ用途(旧世代)
Gemma 3 4B(レガシー) 4B 約2.5〜3.0GB 8GB以上 多言語対応バランス型(旧世代)

当社の推奨:スマホ初導入であれば現行世代のGemma 4 E2Bから始めることをお勧めします。Gemma 4のE2B / E4Bはモバイル・エッジ・ブラウザ向けに設計されており、ネイティブマルチモーダル対応(テキスト・画像・動画・音声)とコンテキスト128Kを備えています。RAM 8GB以上のハイエンド端末であればE4Bにも挑戦する価値があります。すでに旧世代のGGUFモデルを手元に持っている場合は引き続き利用できますが、新規導入では現行のGemma 4を選ぶのが賢明です。

スマホでGemmaを動かす主要な方法

スマホでGemmaを実行するアプローチは大きく3つあります。それぞれに向いているユーザー層と制約が異なります。

方法1:MediaPipe LLM Inference API(Androidアプリ組み込み)

GoogleがGemma専用に提供している推論エンジンです。TFLite形式のモデルをAndroidアプリ内に組み込み、NPUを最大限活用できます。開発者向けのアプローチで、アプリを自作・改造する場合に最適です。

MediaPipeの特徴
・Google公式サポートのため安定性が高い
・Pixel 6以降・Snapdragon 8 Gen 1以降でGPUアクセラレーション有効
・GemmaのTFLite形式モデルはGoogle AI Edgeから直接ダウンロード可能
・アプリバンドルにモデルを含める/実行時ダウンロードの両方に対応

方法2:llama.cpp + GGUF形式(Android/iOS対応)

オープンソースの推論エンジンllama.cppはGemmaのGGUF形式モデルをサポートしており、Androidでは「MLC LLM」「PocketPal AI」「ChatterUI」などのフロントエンドアプリ経由で利用できます。iOSでも同様のアプリが存在します。プログラミング不要でGUIから使えるため、エンドユーザー向けの手軽な選択肢です。

Hugging FaceからGGUF形式のGemmaモデルをダウンロードし、アプリにインポートするだけで動作します。当社の検証ではPocketPal AIを使ったGemma 4 E2B(Q4_K_M量子化)の動作が安定しており、アプリの完成度も高いと評価しています。

方法3:Ollama(ローカルサーバー経由)

Ollamaはもともとデスクトップ向けですが、スマホからのリモートアクセスという形で活用できます。自宅PCやMacでOllamaを動かし、同一Wi-Fi上のスマホのブラウザやアプリからAPIを叩く構成です。スマホ単体での完全オフライン動作とは異なりますが、モデルサイズの制約なく高品質な推論が可能になります。

詳細なセットアップ手順については Gemma導入ガイド をご覧ください。

スマートフォン上でリアルタイムにテキスト生成が行われるオンデバイスAIのイメージ
スマートフォン上でリアルタイムにテキスト生成が行われるオンデバイスAIのイメージ

Android端末での具体的なセットアップ手順

ここでは最も手軽な「PocketPal AI + GGUF」の手順を示します。開発者向けセットアップは 導入ガイド記事 に詳細を記載しています。

  1. 端末のストレージ・RAM確認
    設定→デバイス情報でRAM容量を確認。Gemma 4 E2B運用なら最低6GB必要。空きストレージは選択モデルのサイズ+2GB以上を確保する。
  2. PocketPal AIをインストール
    Google PlayでPocketPal AIを検索してインストール。無料、広告なし、完全ローカル動作。
  3. GGUFモデルをダウンロード
    アプリ内の「モデル追加」からHugging Faceリポジトリを直接検索可能。Gemma 4 E2BのQ4_K_M量子化GGUFを選択してダウンロード(約1.5GB前後)。
  4. モデルをロードして推論実行
    ダウンロード完了後、モデルを選択してチャット画面へ。初回ロードは10〜30秒かかるが、2回目以降はキャッシュから高速に起動する。
  5. システムプロンプトのカスタマイズ
    設定からシステムプロンプトを変更し、用途(翻訳・要約・Q&Aなど)に合わせた振る舞いに調整する。Gemma 4はsystem promptのロール対応を標準で備えている。

iOSでの注意点

iPhoneの場合、App Storeのポリシーによりアプリが任意のモデルファイルをダウンロード・実行することへの制約が厳しく、Android比で選択肢が限られます。2026年時点では「LLM Farm」「Private LLM」がGemmaのGGUF形式に対応しており、Apple Neural Engineを活用したNPU推論が可能です。A17 Pro以降のチップ搭載機種(iPhone 15 Pro以降)では速度面でも実用的なパフォーマンスが出ます。

スマホでGemmaを使う実運用のポイント

バッテリー消費の管理

LLM推論はCPU・GPU・NPUをフル稼働させるため、バッテリー消費が通常の3〜5倍程度になります。当社検証では、Gemma 4 E2Bで10分間の連続推論(テキスト生成)を行うと、端末により約8〜15%のバッテリーを消費しました。モバイル用途では「短い質問→短い回答」のセッション設計が現実的です。長時間使用する場合は充電しながらの運用を前提にしてください。

温度管理(サーマルスロットリング)

重要な落とし穴としてサーマルスロットリングがあります。推論を連続実行すると端末が発熱し、OSが自動的にCPU/GPUクロックを下げて速度が落ちます。特に夏季や端末ケース装着時は顕著です。長時間の推論セッションでは、5〜10分ごとに1〜2分の冷却インターバルを挟むか、冷却性能の高いケースを使用することを推奨します。

日本語の品質について

Gemma 4は140言語以上の多言語対応を備えており、日本語の自然な文章生成が可能です。日本語でシステムプロンプト・ユーザープロンプト双方を記述する方が出力品質が安定するというのが当社の検証結果です。また、文脈長(コンテキストウィンドウ)をアプリ側で512〜1024トークンに制限すると、速度と品質のバランスが取れやすくなります。なお、Gemma 4 E2B / E4Bはコンテキスト128Kに対応していますが、スマホ上では短めのコンテキストで運用する方が安定します。

オフラインで使える用途・使えない用途

✅ 適している用途

  • 議事録・メモの要約
  • 文章校正・リライト
  • オフライン翻訳補助
  • プライベートな日記・アイデア整理
  • 簡単なコードスニペット生成
  • Q&A・FAQ対応(社内ドキュメント参照)
❌ 向いていない用途

  • 最新ニュース・リアルタイム情報の取得
  • 長大ドキュメントの一括処理
  • 高精度な数値計算・統計分析
  • 大量バッチ推論(端末発熱・電池の問題)
  • スマホの性能を超える大規模推論タスク

他のスマホ向けLLMとの比較

スマホで動くLLMはGemma以外にも存在します。主要な選択肢との簡易比較は以下の通りです。詳しい性能・機能比較は Gemma比較記事 をご覧ください。

モデル 開発元 スマホ対応 日本語品質 ライセンス
Gemma 4 E2B/E4B Google ◎ MediaPipe公式対応・モバイル設計 ○〜◎(140言語以上対応) Apache 2.0(商用可・再配布可)
Llama 3.2 1B/3B Meta ○ llama.cpp対応 △〜○ Llama利用規約(商用条件あり)
Phi-3 Mini Microsoft ○ GGUF対応 MIT(商用可)
Mistral 7B Mistral AI △(RAM要求が高め) Apache 2.0
Qwen2.5 0.5B/1.5B Alibaba ○ GGUF対応 ◎(中日特化) Apache 2.0

Gemma 4の強みはGoogle公式のMediaPipe統合と、Gemma 4から採用されたApache 2.0ライセンスにあります。Androidエコシステムとの親和性が高く、NPUアクセラレーションの恩恵を受けやすい点が他モデルとの差別化要因です。加えて、E2B / E4BはモバイルとEdge向けに専用設計されており、ネイティブマルチモーダル対応という点でもスマホ用途に適しています。日本語品質ではQwen系が強い場面もありますが、英語・日本語のバランスと開発者エコシステムの充実度を総合するとGemma 4は有力な選択肢です。

Gemmaスマホ活用のコスト面

スマホでGemmaをオフライン運用する場合、APIコストはゼロです。Gemma 4はApache 2.0ライセンスのオープンウェイトモデルとして無償配布されており、推論にかかるのは電気代(充電コスト)のみです。クラウドAPIを利用するコストと比較したい方は Gemma料金の詳細記事 を参照してください。

ただし、スマホ本体のスペックが伴わない場合は端末の買い替えコストが発生します。当社の検証結果をもとに言うと、RAM 8GB以上のミッドハイ〜ハイエンド端末(実売6〜12万円前後)があれば、Gemma 4 E2Bは実用レベルで動作します。すでに2〜3年以内の機種を使っていれば、多くの場合追加投資なしで試せます。

プライバシーとセキュリティの観点

スマホでGemmaをオフライン動作させることの最大のメリットの一つがプライバシー保護です。テキストデータが外部サーバーに送信されないため、医療メモ・法律文書・社内資料などの機密性の高い情報を扱う際に有効です。当社では、社内ドキュメントのオフライン要約ツールとしてGemmaのオンデバイス推論を試験的に導入しており、情報漏洩リスクの低減という観点で一定の評価を得ています。

ただし以下の点には注意が必要です。

  • アプリ自体がインターネット接続を要求していないか確認する(モデルをロード後はオフラインで完結するが、一部アプリがテレメトリを送信するケースがある)
  • 企業利用の場合、Gemma 4はApache 2.0ライセンスで商用利用・再配布とも許可されているが、禁止用途がないか利用規約を確認する(旧世代のGemma 3以前は独自の「Gemma Terms of Use」が適用される点に注意)
  • 端末自体の物理的なセキュリティ(紛失・盗難)は別途対処が必要
オンデバイスAIによるプライバシー保護のイメージ:データが端末の外に出ない構造を象徴するシールドと文書
オンデバイスAIによるプライバシー保護のイメージ:データが端末の外に出ない構造を象徴するシールドと文書

まとめ

GemmaはGoogleの公式サポートとオープンなエコシステムによって、スマホ上でのオンデバイスAI推論を最も実践しやすいモデルの一つになっています。

  • モデル選択:入門はGemma 4 E2B、ハイエンド端末ならGemma 4 E4Bも選択肢。いずれもネイティブマルチモーダル対応・128Kコンテキスト
  • 実行環境:開発者はMediaPipe、エンドユーザーはPocketPal AIなどのGGUFフロントエンドが手軽
  • 実用速度:Snapdragon 8 Gen 3クラスでE2Bなら約18〜25トークン/秒、実用に耐える
  • 強み:APIコストゼロ・プライバシー保護・オフライン完結。Gemma 4はApache 2.0で商用利用・再配布も自由
  • 限界:バッテリー・発熱・長文処理の制約を把握したうえで用途を設計する

スマホ上でのAI活用はまだ発展途上の領域ですが、Gemma 4のE2B / E4Bはモバイル・エッジ向け専用設計でこれまで以上に品質・速度ともに向上しており、「クラウド不要の個人AIアシスタント」として実用的な段階に入っています。まずは無料で試せる環境から始めて、自分のユースケースに合う構成を見つけてみてください。

関連記事

参考文献

    AIブログ購読

     
    クリスタルメソッドがお届けする
    AIブログの更新通知を受け取る

    Study about AI

    AIについて学ぶ

    • Meta インド データセンター AIインフラ——Reliance 168MW契約の深層と日本企業の実務対応

      Meta インド データセンター AIインフラ——Reliance 168MW契約の深層と日本企業の実務対応

      監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...

    • ワーナー Sureel AI 音楽 著作権——買収の意味と日本企業への示唆

      ワーナー Sureel AI 音楽 著作権——買収の意味と日本企業への示唆

      監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...

    • Vector Lakebase ベクターDB RAG——Zillizが示す統合AIデータ基盤の論点

      Vector Lakebase ベクターDB RAG——Zillizが示す統合AIデータ基盤の論点

      監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...

    View more