blog

ollama 日本語モデル おすすめ|用途・VRAM別に徹底解説【2026年版】

監修

河合 継(クリスタルメソッド株式会社 代表取締役)

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について編集方針

ollama 日本語モデル おすすめ|用途・VRAM別に徹底解説【2026年版】

ollama 日本語モデル おすすめを選ぶ前に押さえるべき前提

Ollamaはモデルを自社開発するプロダクトではない。外部のオープンウェイトモデルをローカルで実行する「ランナー」が本体であり、モデルは ollama.com/library から配布される。したがって「Ollama公式モデル」という概念は存在せず、「Ollamaライブラリで配布されるQwen3 / Gemma 4 / DeepSeek等」という表現が正確である。この区別を曖昧にすると、モデルの品質評価とOllama本体の評価が混同される。

本記事が対象とするのは「Ollamaライブラリで配布されており、日本語用途で実用水準に達しているモデル」に限定する。評価軸は日本語テキスト生成精度・必要VRAM・推論速度・ライセンスの4点を中心に据える。検索結果や二次情報記事の一部では qwen2.5gemma3 を「最新」として扱っているが、2026年6月時点においてQwen系の現行最新世代は3.5・3.6、GemmaはGemma 4に移行している(出典: ollama.com/library, 2026-06-08)。モデル系列の更新サイクルは急速であり、実装前に必ずライブラリを確認する習慣が重要である。

Ollama本体(ローカル実行)は無料・オープンソースで動作し、自分のハードウェアで動かす分はサブスク不要・無制限である(出典: ollama.com/pricing, 2026-06-08)。ローカルGPUが不足する場合はOllama Cloud(月額$0〜$100)という選択肢もあるが、本記事の主眼はローカル実行環境でのモデル選定である。セットアップ手順の詳細はOllamaセットアップガイドを参照されたい。

ollama 日本語モデル選定フロー(2026年6月)

① VRAM確認 8GB / 16GB / 24GB+

② 用途特定 汎用/RAG/コーディング

③ モデル系列選定 Qwen3 / Gemma 4 等

④ pull & 動作検証 小規模タスクで確認

VRAM容量が最初の制約条件。用途を絞った上でモデル系列を選び、 Q4_K_M量子化の実動作確認で選定を完結させる。

図1: ollama 日本語モデル選定の基本フロー(2026年6月時点)

ollama 日本語モデル おすすめ一覧|用途別比較表

以下の表は、Ollamaライブラリで配布されているモデルを日本語用途で整理したものである。pullカウントは2026年6月8日時点の公式ライブラリ参照値である(出典: ollama.com/library)。「日本語適性」欄はJST Jxivに掲載された公的評価研究やコミュニティの報告に基づく定性評価であり、タスクや量子化精度によって変動する点を留意されたい。

モデル名(Ollamaタグ) 代表パラメータ 最小VRAM目安
(Q4_K_M)
日本語適性 主な用途 ライセンス
qwen3:8b 8B 約8GB 汎用・RAG・エージェント Apache 2.0
qwen3:14b 14B 約16GB 汎用・長文理解・要約 Apache 2.0
qwen3.5(マルチモーダル) 0.8B〜122B 8GB〜(サイズ依存) 文書理解・ビジョン・マルチモーダル Apache 2.0
gemma4:12b 12B 約12GB 中〜高 ビジョン・汎用・思考モード Google Gemma Terms
deepseek-r1:7b 7B 約8GB 推論・数学・コーディング MIT
gpt-oss:20b 20B 約20GB 中〜高 推論強度調整・o3-mini相当用途 MIT
qwen3-coder:30b 30B 約24GB 中(コード主体) agenticコーディング支援 Apache 2.0
llama3.2:3b 3B 約4GB 低〜中 軽量・エッジデプロイ・応答速度優先 Llama 3.2 Community

VRAM目安はQ4_K_M量子化を前提とした概算値である。量子化精度や同時実行モデル数、KVキャッシュの設定によって実際の消費量は変動する。量子化の詳細は深層学習の基礎と実装も参考にされたい。

日本語性能においてQwen3系が現時点で有力とされる背景として、Alibaba Cloudが大規模な日中英多言語コーパスで事前学習を行っている点が挙げられる。JST Jxivに掲載された「農業検定試験問題を用いた大規模言語モデルの性能評価」(2026年)では、日本語専門知識ドメインにおいて多言語大規模モデルが日本語特化モデルと遜色のない正答率を示すケースが報告されており、多言語学習量の多さが日本語性能に直結することを示唆している(出典: jxiv.jst.go.jp)。また、DevelopersIO(dev.classmethod.jp)の2026年ローカルLLM整理記事でも「日本語環境ではQwen3系が現時点では推奨」と整理されている(出典: DevelopersIO 2026-06)。

VRAM帯別・ollama 日本語モデル おすすめの選び方

8GB以下:量子化7〜8Bクラスが主戦場

コンシューマ向けGPU(RTX 3060 12GB以下、M1/M2 Macの8GBユニファイドメモリ構成など)では、Q4_K_M量子化済みの7〜8Bクラスが現実的な選択肢になる。日本語用途において最も実績が積み上がっているのはQwen3の4B〜8B系である。

一方、llama3.2:1bllama3.2:3b はパラメータ数が少ない分、日本語の文脈保持が弱く、長文要約や複雑な指示追従では精度が著しく落ちやすい。エッジデバイスへのデプロイや応答速度を絶対優先する要件でなければ、Qwen3の4B以上を選ぶ方が実装コスト対効果は明確に高い。

実行手順はシンプルである。初回実行時にモデルが自動ダウンロードされる。

# Qwen3 8Bを取得して起動する
ollama pull qwen3:8b
ollama run qwen3:8b

このVRAM帯でDeepSeek-R1:7Bを選ぶ場面は、数学・論理推論に特化した用途に限定するのが適切である。汎用的な日本語対話ではQwen3:8Bが上回るケースが多い。

16GB帯:日本語RAGの実用水準

RTX 4080 / RTX 3090 / M2 Pro以上の16GBクラスであれば、qwen3:14bgemma4:12b を実用速度で動作させることができる。この帯域は日本語RAGシステムやドキュメント要約パイプラインの実用水準として現時点でコストパフォーマンスに優れる構成である。

Gemma 4(12B)はビジョン・ツール利用・思考モードを備えており、画像を含む複合的なドキュメント処理に向く。ただしGemmaのライセンス(Google Gemma Terms of Use)はApache 2.0よりも利用制限が多く、商用サービスへの組み込みでは利用規約の精査が必要である。商用プロジェクトでライセンスの簡潔さを優先するならばApache 2.0のQwen3を選ぶ方が安全である。

24GB以上:高品質推論とコーディング特化

RTX 4090(24GB)やA10G(24GB)クラスでは、qwen3-coder:30bgpt-oss:20b が実用的なトークン生成速度で動作する。gpt-oss:20b はOpenAIのオープンウェイトモデルをOllamaが提携配布する形態であり、推論強度を調整可能なo3-mini相当の用途に位置づけられる(出典: Ollama GitHub README)。このモデルはOllamaが製造したものではなく、OpenAIの利用規約が適用される点は実装前に確認が必要である。

コーディング支援においてQwen3-Coder 30Bはagenticコーディングタスクで高い評価を得ている。外部AIエージェントサービスを使わずにオンプレ完結のコーディング支援基盤を構築したい場合、この選択肢が有力になる。また、qwen3.6:27bqwen3.6:35b(2026年6月頃リリース)はagenticコーディングと思考能力を備えた最新世代として注目されており、24GB以上の環境では選択肢に加えてよい。

日本語モデル利用時の実装上の勘所とトレードオフ

システムプロンプトで日本語応答を固定する

Qwen3やgpt-ossなどの多言語モデルは、入力が日本語であっても英語で応答するケースがある。これはモデルの事前学習において英語コーパスの比重が高い影響による。Modelfileの SYSTEM ディレクティブで明示的に応答言語を指定することで、運用上の安定性が大幅に向上する。

FROM qwen3:14b
SYSTEM """
あなたは日本語専門のアシスタントです。
ユーザーへの回答は必ず日本語で行ってください。
英語で質問されても日本語で回答してください。
"""

このModelfileを保存した後、ollama create mymodel-jp -f Modelfile でカスタムモデルとして登録する。APIの system フィールドに直接指定することも可能だが、Modelfileで固定する方が設定の一元管理という点で保守性が高い。

コンテキスト長とRAG設計のトレードオフ

Ollamaのデフォルトコンテキスト長は2048トークンである(モデルにより上限は異なる)。日本語は英語に比べてトークン消費量が多く、同じ文字数でも1.5〜2倍程度のトークンを消費するケースがある。長文要約や会話履歴を保持するチャットボット実装では、num_ctx パラメータを意図的に引き上げる必要がある。

# APIリクエストでnum_ctxを指定する例
curl http://localhost:11434/api/generate -d '{
  "model": "qwen3:14b",
  "prompt": "以下の文書を要約してください。[長文テキスト]",
  "options": { "num_ctx": 8192 }
}'

ただしコンテキスト長を増やすとVRAM消費量とKVキャッシュが比例して増大する。RAGアーキテクチャと組み合わせる場合は「検索精度(Recall@K)で品質を担保するのか、それとも長いコンテキストに文書を詰め込むのか」を設計段階で決定する必要がある。両方を追求するとVRAMが枯渇する。テキストマイニングとRAGを組み合わせた設計事例についてはテキストマイニング解説も参照されたい。

量子化精度と日本語品質の実測的な関係

GGUFフォーマットの量子化精度はQ4_K_M・Q5_K_M・Q8_0などが主流である。日本語のような形態素が豊富な言語では、低ビット量子化(Q4未満、特にQ2・Q3系)によって漢字・仮名の微妙な語彙選択が劣化しやすい傾向がある。実用的な推奨はQ4_K_M以上であり、品質重視の本番用途にはQ5_K_Mが安定している。フルプレシジョン(FP16)は性能上限を確認するベースラインとして使うが、運用コストを考慮すると量子化モデルが現実的である。

弊社が開発するDeepAIは、実在の人物の容姿・表情・声・振る舞いをデジタル空間で再現するバーチャルヒューマン/AIアバターソリューションであり、対話AIを活用した接客・研修・広報等の用途においても、応答の自然な日本語品質を担保するためにQ4_K_M以上の量子化モデルを採用している。GANを用いた学習データ拡張と組み合わせる設計についてはGAN解説記事を参照されたい。

Apple Silicon(MLX)とCUDAの使い分け

Ollama 0.30系(2026年6月時点)はApple Silicon向けにMLXエンジンを提供しており、M3 Pro / M3 Max以上のユニファイドメモリ構成では、コンシューマ向けNVIDIA GPU(RTX 4070前後)と同等程度のスループットが得られるケースがある(出典: Ollama公式ブログ, 2026-06-08)。開発端末がMacであれば、NVIDIA GPU搭載のLinuxサーバを別途用意せずとも実用水準の推論が可能である。マルチモーダルAIの実装パターンについてはマルチモーダルAI解説も参照されたい。

セキュリティとデータプライバシーの観点

ローカルLLMの本質的な優位性は、推論時のデータが外部サーバに送出されないことにある。総務省の「AIセキュリティの評価基盤構築に向けて」では、AIシステムの信頼性評価において入力データのプライバシー保護が重要な評価軸として整理されている(出典: 総務省 AIセキュリティの評価基盤構築に向けて)。個人情報保護法への準拠や社内情報の外部送信禁止ポリシーを持つ組織では、ローカルLLMはアーキテクチャ上の要件として位置づけられる。

モデル別の限界と導入時の注意点

Qwen3系:高性能だが中国企業提供のガバナンス考慮が必要

Qwen3はAlibaba Cloudが開発・公開するモデルであり、ライセンスはApache 2.0で商用利用も可能である。ただし中国の規制下にある企業が提供するモデルという点で、ガバナンス要件の厳しい組織(金融・防衛・官公庁系)では導入審査が必要になるケースがある。また32B以上の大規模バリアントはローカルGPU単体での実用速度確保が難しく、複数GPU構成(テンソル並列)かOllama Cloudの利用が現実的になる。強化学習ベースの学習手法(RLHF・GRPO等)がQwen3の推論品質を支えている背景については強化学習解説も理解の補助として有用である。

DeepSeek-R1:汎用日本語対話には不向き

DeepSeek-R1は推論特化型であり、数学・論理推論・コーディングで強みを発揮する設計である。汎用的な日本語対話タスクではQwen3系に劣る場面が多く、用途を絞らずに採用すると期待外れになりやすい。また開発元は中国企業であり、Qwen3と同様のガバナンス上の考慮が必要である。

gpt-oss:Ollamaが製造したモデルではない

gpt-oss:20b はOpenAIのオープンウェイトモデルをOllamaが提携配布する形態であり、Ollamaが製造したモデルではない(出典: Ollama GitHub README)。OpenAIの利用規約が適用されるため、商用利用前には規約確認が必須である。また20Bクラスのモデルは16GB以下の環境では速度面で制約を受けやすく、24GB以上の環境で本来の性能が発揮される。

Gemma 4:ライセンスの商用制約を確認すること

Gemma 4はGoogleが提供するマルチモーダル対応の高品質モデルだが、Google Gemma Terms of Useは再配布・派生モデルの公開に制限を設けており、Apache 2.0と比べると商用利用の自由度が低い。サービス組み込みや社内配布の前に利用規約を精読する必要がある。機械学習モデルのライフサイクル管理全般については機械学習の基礎も参照されたい。

Ollama Cloud利用時の判断基準

ローカルGPUが不足している場合、あるいは70B以上の大型モデルを一時的に評価したい場合、Ollama Cloudが選択肢になる。料金体系は2026年6月時点で以下の通りである(出典: ollama.com/pricing, 2026-06-08)。

  • Free($0):同時1モデル、軽量利用・小型モデルでの評価向け
  • Pro(月$20 / 年$200):同時3モデル、Free比50倍のクラウド利用枠、プライベートモデルのアップロード・共有が可能
  • Max(月$100):同時10モデル、Pro比5倍の利用枠、常時稼働エージェント等の重負荷向け
  • Team(近日提供予定):SSO・モデルアクセス制御・MDMインストーラ・優先サポートを含む法人向けプラン

固定サブスク制であり、従量課金による予期しない超過請求は発生しない設計になっている(出典: ollama on X)。利用枠は5時間ごと・週次でリセットされ、実消費はGPU時間ベースで計算される。なお「Ollama Turbo」は旧称であり、現行の正式名称はOllama Cloudである。Ollama Cloudの詳細な料金比較はOllama料金プラン解説を、他のローカルLLMランナーとの比較はOllama比較記事を参照されたい。


弊社が開発するDeepAIは、実在の人物の容姿・表情・声・振る舞いをデジタル空間で再現するバーチャルヒューマン/AIアバターソリューションであり、ローカルLLM基盤と組み合わせた対話AI・RAG活用の構成においても接客・研修・広報等の用途で導入実績を積んでいる。具体的な構成の検討については、クリスタルメソッドのブログから各技術解説記事を参照いただくか、直接お問い合わせいただきたい。


参考文献

AIブログ購読

 
クリスタルメソッドがお届けする
AIブログの更新通知を受け取る

Study about AI

AIについて学ぶ

  • Meta インド データセンター AIインフラ——Reliance 168MW契約の深層と日本企業の実務対応

    Meta インド データセンター AIインフラ——Reliance 168MW契約の深層と日本企業の実務対応

    監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...

  • ワーナー Sureel AI 音楽 著作権——買収の意味と日本企業への示唆

    ワーナー Sureel AI 音楽 著作権——買収の意味と日本企業への示唆

    監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...

  • Vector Lakebase ベクターDB RAG——Zillizが示す統合AIデータ基盤の論点

    Vector Lakebase ベクターDB RAG——Zillizが示す統合AIデータ基盤の論点

    監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...

View more