blog

AIブログ

ollama models 完全ガイド｜主要モデル一覧・選定基準・Modelfile実践

Q: Ollamaでモデルを切り替えるには？

OpenAI互換APIエンドポイント（http://localhost:11434/v1）の model パラメータを変えるだけで切り替えられます。頻繁に切り替える環境では OLLAMA_MAX_LOADED_MODELS（同時ロード数・既定1）と OLLAMA_KEEP_ALIVE（キャッシュ保持時間）を調整します。

ollama models 完全ガイド｜主要モデル一覧・選定基準・Modelfile実践

ollama models の全体像――ライブラリの構造と位置づけ

Ollama自体はモデルの開発元ではない。外部のオープンウェイトモデルをollama.com/libraryで配布・管理するローカル実行環境であり、「Ollama公式モデル」という概念は存在しない。正確には「Ollamaライブラリで配布されるQwen3 / gpt-oss / DeepSeek / Gemma 4等」と理解するのが出発点だ（Ollama GitHub README、2026-06-08確認）。

本記事では、2026年6月時点でollama.com/libraryに収録されている主要モデルの特性と選定基準、GGUF量子化のトレードオフ、Modelfileによるカスタムモデルの作成、そして複数モデルを用途別に切り替えるオーケストレーション設計まで、実装を前提に掘り下げる。Ollama全体の概要や初期設定についてはOllamaとは何かおよびOllama導入ガイドを参照してほしい。

Ollamaライブラリから複数モデルをpullしてタスク別に切り替える構成のイメージ図 — Ollamaライブラリから複数モデルをpullしてタスク別に切り替える構成のイメージ

Ollamaにおける「モデルユニット」は単なるウェイトファイルではない。Modelfile（設定記述ファイル）・量子化済みGGUFウェイト・システムプロンプト・推論テンプレートがひとまとまりになったパッケージだ。この構造を把握することが、単にpullするだけでなく、用途特化モデルを自ら設計する前提条件になる。

OllamaモデルユニットはModelfile・GGUFウェイト・プロンプト設定の合成体

ollama models ライブラリの主要モデル一覧（2026年6月時点）

以下はOllama公式ライブラリ（2026-06-08確認）に収録されている主要モデルを用途カテゴリ別に整理したものだ。pull数はライブラリ上の表示値であり、人気・実績の参考指標として示す。

カテゴリ	モデル名	規模	ライセンス	主な特徴	pull数目安
汎用・推論	Qwen3系（現行最新: 3.5 / 3.6）	0.6B〜235B（dense・MoE）	Apache 2.0等	多言語・推論・agenticコーディング。Thinking対応。3.6は27B/35Bが対象	30.4M+
	gpt-oss（OpenAIオープンウェイト）	20B / 120B	要確認	調整可能な推論強度。o3-mini級とされる。Ollamaと提携配布	—
	DeepSeek-R1	多サイズ（MoE含む）	MIT	推論特化。CoT型の思考連鎖が強み	87.1M+
マルチモーダル	Gemma 4（Google、現行最新）	12B / 26B / 31B	Apache 2.0（Gemma 4）	vision＋tools＋thinking統合。旧gemma3からの世代交代済み	—
マルチモーダル	Qwen3-VL	要確認	Apache 2.0系	Qwen3系のビジョン対応バリアント	—
コーディング	Qwen3-Coder	30B級	Apache 2.0系	agenticコーディング・thinking対応の現行定番	—
	Qwen2.5-Coder（旧世代）	1.5B〜32B	Apache 2.0	多言語コーディング・FIM（Fill-in-the-Middle）対応。現行はQwen3-Coder推奨	—
	DeepSeek-Coder-V2	16B / 236B（MoE）	要確認	コード補完・バグ検出。MoE版は大容量環境向け	—
軽量・エッジ向け	Llama 3.2（旧世代・参考）	1B / 3B	Meta Llama Community	pull数は多いが現行最新世代ではない。8GB以下の環境向け	115.6M+（旧世代）
軽量・エッジ向け	Qwen3 0.6B〜数B	0.6B〜4B	Apache 2.0系	現行世代の軽量選択肢。日本語性能でLlama 3.2を上回りやすい	—
Embedding	nomic-embed-text	137M	Apache 2.0	RAGパイプライン用の定番。コンテキスト長8192トークン	—

注意点として、モデル系列の更新速度は速い。Qwen の現行世代は 3.5 / 3.6 であり、qwen2.5 や初代 qwen3 を「最新の主力」と扱わないこと。Gemma の現行は Gemma 4 であり gemma3 は旧世代。Llama 3.1 / 3.2 はpull数が多いが旧世代に相当する（いずれもOllama公式ライブラリ、2026-06-08確認）。

DeepSeek-V4-FlashはMoE 284B（総パラメータ）/13B（活性パラメータ）、最大1Mコンテキストのプレビューとして公開されている。本番採用時はライブラリの詳細ページで最新ステータスを確認してほしい。

GGUF量子化の選び方――精度・速度・VRAMのトレードオフ

Ollamaが内部で使用するllama.cppはGGUF形式のウェイトを扱う。量子化ビット数の選択は、推論品質・速度・メモリ消費の三者間トレードオフを直接左右するため、用途ごとに意識的に選ぶ必要がある。

量子化タイプ	実効ビット数	精度への影響	VRAMへの影響	推奨シナリオ
Q4_K_M	4bit（Kグループ・中精度）	軽微な劣化	最小級	8〜16GB VRAM／日常的な対話・要約・分類
Q5_K_M	5bit（Kグループ・中精度）	Q4より低い劣化	Q4比+25%程度	16GB VRAM／高精度優先タスク
Q8_0	8bit	float16とほぼ同等	Q4比約2倍	24GB+ VRAM／数値推論・コード精度重視
F16	16bit（非量子化）	劣化なし	最大	研究・ファインチューン後の評価用途

Q4量子化で「精度劣化が軽微」と表現されることは多いが、数値推論・論理タスク・コード生成では劣化が顕在化しやすい。実際のユースケースで Q4 と Q8 の出力を並べて評価し、許容範囲かどうかを確認してからタグを固定することを推奨する。

タグ指定によるバージョン固定の例を示す。本番環境では :latest を避け、明示的なタグを指定すること。pullのたびにウェイトが更新されると出力の再現性が失われる。

# Qwen3 MoE 30B・Q4_K_M量子化を明示的に指定
ollama pull qwen3:30b-a3b-q4_K_M

# gpt-oss 20Bのデフォルトタグ
ollama pull gpt-oss:20b

# Embeddingモデル（バージョン固定推奨）
ollama pull nomic-embed-text:latest

Apple Siliconを使う場合、Ollama 0.30系（2026年6月時点の現行バージョン）ではMLXエンジンも提供されており、統合メモリを活かした推論が可能だ（Ollama公式ブログ、2026-06-08確認）。

ハードウェア別・用途別のモデル選定フレームワーク

「最大パラメータ数のモデルを選べば良い」という考えは実装上の誤りだ。短文分類やキーワード抽出では小型モデルで十分な精度が出る場合が多く、速度とコストで明確に有利になる。以下の判断軸を順に適用することで、無駄な試行錯誤を減らせる。

ハードウェア確認：利用可能なVRAM / 統合メモリ量を把握する
タスク定義：対話 / コード補完 / RAG / 推論 / Embeddingのどれか
言語要件：日本語の出力品質がどの程度重要か
ライセンス確認：商用利用・再配布・SaaS組み込みの可否
複数モデルでABテスト：実タスクでベンチマークを取り、タグを固定する

ハードウェア別の現実的な選択肢

環境	VRAM / メモリ目安	推奨モデル（例）	補足
MacBook Air（M2/M3 8GB）	8GB統合メモリ	Qwen3 0.6B〜1.7B、Llama 3.2 3B	16GB版なら7B〜14B程度も可
MacBook Pro / Mac Studio（32〜64GB）	32〜64GB統合メモリ	Qwen3 14B〜30B（Q4_K_M）、gpt-oss:20b	統合メモリはVRAMと共有。大型モデルに強い
Linux PC（RTX 3090 / 4090）	24GB VRAM	Qwen3 14B〜30B、Qwen3-Coder 30B（Q4_K_M）	Q4量子化で大型MoEも試行可能。推論速度は最速クラス
Linux サーバー（A100×2）	80GB×2 VRAM	gpt-oss:120b、DeepSeek-R1大型版	複数GPUはGPULayersで分散処理
CPU only（16GB RAM）	VRAM不要	Qwen3 0.6B〜数B	速度は遅い。軽量タスク専用と割り切る

ライセンス確認の実務ポイント

社内ツールやSaaS組み込みでの商用利用を検討する場合、ライセンスの確認は選定フローから外せない。

Apache 2.0（Qwen3系多数、Mistral等）：商用利用・改変・再配布とも自由。制約が最も少ない
MIT（DeepSeek-R1等）：商用利用可。帰属表示が必要
Meta Llama Community License（Llama 3.x系）：月間アクティブユーザー7億人超のサービスは別途申請が必要。それ未満は商用利用可
Gemma Terms of Use（Gemma 4等）：商用利用可だが、競合するAIサービスへの組み込みや危険コンテンツ生成に制限。詳細はGoogle公式を確認
gpt-oss：ライセンス詳細は公式ページで確認が必要（要確認）

Ollamaの料金体系と商用利用のコスト比較では、ローカル実行・Ollama Cloud各プランのコスト構造を整理している。ライセンスコストの観点と合わせて参照してほしい。

なお、Ollamaはローカル実行環境として無料・オープンソースで提供されており、自分のハードウェアで動かす分は常に無制限・サブスク不要だ。大型モデルをローカルGPUなしで動かしたい場合向けに「Ollama Cloud」（ホスト型推論サブスク）が $0 / $20 / $100 の固定料金で提供されている（Ollama公式 pricing、2026-06-08確認）。

ローカルLLMの導入やRAG構築をご検討の方は、AI開発会社クリスタルメソッドの無料相談をご利用ください。

Modelfileで用途特化モデルを作る――実践的な構造と設定値

Ollamaの実装上の強みは、Modelfileによってベースモデルにシステムプロンプトや推論パラメータを焼き込んだ「専用ユニット」を作れる点にある。ModelfileはDockerfileに着想を得た設定記述ファイルで、ollama createで再現性のある独自モデルを生成できる。

日本語要約アシスタントの作成例

FROM qwen3:14b

PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192
PARAMETER repeat_penalty 1.12

SYSTEM """
あなたは日本語に特化したテキスト要約アシスタントです。
入力されたテキストを、箇条書き3点で簡潔に要約してください。
"""

上記を Modelfile として保存後、ollama create my-summarizer -f ./Modelfile を実行すると独自モデルユニットが生成される。チーム共有やバージョン管理はModelfileをGit管理するだけで完結する。

主要パラメータと実運用での設定指針

パラメータ	意味	低い値の効果	高い値の効果	実運用の目安
temperature	出力のランダム性	決定論的・一貫性高	多様・創造的	分類・抽出：0.1〜0.3　創作：0.7〜1.0
top_p	サンプリング幅	高確率トークンに絞る	幅広く選択	temperatureと組み合わせて調整。0.9が汎用
num_ctx	コンテキストウィンドウ長（トークン）	メモリ節約	長文処理可能	RAG用途：8192〜16384。増やすとVRAMが増加
repeat_penalty	繰り返し抑制	同じ表現が続きやすい	多様な表現を強制	1.1〜1.15で繰り返しを自然に抑制

num_ctx の設定ミスは実務でよく見るトラブルの原因になる。モデルが対応するネイティブコンテキスト長と、Ollamaの num_ctx 設定は独立している。長文RAGで「途中から回答精度が下がる」場合、num_ctx 不足が原因であることが多い。ollama show モデル名 で実際の設定値を確認し、必要に応じてModelfileで明示的に上書きすること。

Hugging FaceのGGUFモデルを取り込む

Ollamaライブラリに存在しないモデルも、GGUF形式ならModelfileで直接参照できる。

# ローカルGGUFファイルを参照
FROM /path/to/your-model.gguf

SYSTEM "日本語特化モデルです。"

Hugging Faceから直接pullする方法（ollama run hf.co/username/repo-name）も存在するが、対応フォーマットはGGUFのみだ。PyTorchやsafetensors形式はllama.cppによる変換が必要になる。

RAGパイプラインの構築文脈では、JST J-Globalに収録されている研究（「自動車産業PDFチャットボットのためのRAG技法の最適化」、JST J-Global）でも、ローカルLLMとEmbeddingモデルの組み合わせによるRAG構成の有効性が示されている。ドメイン特化のシステムプロンプトとEmbeddingモデルの選定は、出力品質に直結する要素だ。

複数モデルの切り替え設計――オーケストレーションの実装パターン

実務では「1モデルですべてのタスクをこなす」構成は非効率になりやすい。タスクの性質に応じてモデルを切り替えるオーケストレーションが、推論コストと品質の両立につながる。

OpenAI互換APIを使ったモデル切り替え

OllamaはOpenAI互換のAPIエンドポイント（http://localhost:11434/v1）を提供している。modelパラメータを変えるだけで実行モデルを切り替えられるため、LangChainやLlamaIndexとの統合が容易だ。タスクの入力長・複雑度・言語に応じてモデルを動的に選択するルーターを構築できる。

メモリ管理の設定値

複数モデルを頻繁に切り替える環境では、以下の環境変数を用途に合わせて調整する。

OLLAMA_MAX_LOADED_MODELS：同時にメモリにロードするモデル数の上限（デフォルト1）
OLLAMA_KEEP_ALIVE：モデルのメモリキャッシュ保持時間（デフォルト5分）。=0 で推論後即アンロードしてVRAMを解放
用途が異なる複数モデルを常時並列稼働させる場合は、DockerでOllamaインスタンスを分けて起動する構成も検討に値する

タスク別のモデル役割分担例

タスク	推奨モデル例	選定理由
高速分類・フィルタリング	Qwen3 数B（Q4_K_M）	低レイテンシ優先。大型モデルを使う必要がない
日本語テキスト要約・構造化抽出	Qwen3 14B（Q4_K_M）	多言語性能と8〜16GB VRAMへの収まりやすさのバランス
コードレビュー補助	Qwen3-Coder 30B（Q4_K_M）	agentic対応・thinking機能が複雑なコード解析に効く
RAGのEmbedding生成	nomic-embed-text	軽量・高速。8192トークンのコンテキスト長
複雑な推論・品質評価	gpt-oss:20b または DeepSeek-R1 大型版	高品質優先。推論コストが増えても精度を確保したいタスク向け

全タスクを大型モデルで処理するより、タスクの性質に応じた役割分担のほうが推論コストを抑えやすい傾向がある。ただし実際の効果は環境・ワークロードによるため、本番採用前にベンチマークで確認することが重要だ。

他のローカルLLMツールとの比較についてはOllama比較記事で整理している。また、深層学習の基礎的な仕組みを理解した上でモデル選定を行いたい場合はディープラーニング解説記事も参照してほしい。

弊社が開発するDeepAI（バーチャルヒューマン・AIアバターソリューション）では、リップシンク・表情生成・音声合成・対話AIを組み合わせた実装を行っており、対話AIコンポーネントの選定にあたってもローカルLLMと商用APIのトレードオフを検討する場面がある。モデルのレイテンシ特性と出力品質のバランスは、インタラクティブな用途では特に重要な設計要素になる。

なお、テキストマイニングの観点からモデル選定を考える場合はテキストマイニング解説記事も参考になる。Claudeシリーズとの特性比較についてはClaudeモデル比較記事を、Mistralシリーズの詳細についてはMistralモデル解説記事を参照してほしい。

Ollama モデルに関するよくある質問

Ollamaのモデル一覧はどこで確認できますか？

利用可能なモデルは Ollama公式ライブラリ（ollama.com/library）に用途カテゴリ別で収録されています。手元にインストール済みのモデルは ollama list コマンドで一覧確認できます。

Ollamaで使える主要モデルは何ですか？（2026年）

汎用・推論では Qwen3系（Apache 2.0）・gpt-oss・DeepSeek-R1（MIT）、マルチモーダルでは Gemma 4 などが主要です。ライセンスと規模が用途別に異なるため、選定時は本文の一覧表で確認してください。

Ollamaでモデルを切り替えるには？

OpenAI互換APIエンドポイント（http://localhost:11434/v1）の model パラメータを変えるだけで切り替えられます。頻繁に切り替える環境では OLLAMA_MAX_LOADED_MODELS（同時ロード数・既定1）と OLLAMA_KEEP_ALIVE（キャッシュ保持時間）を調整します。

Ollamaで日本語に使えるモデルは？

Qwen3系など多言語対応モデルが利用でき、Modelfile の system プロンプトを日本語に設定することで日本語要約アシスタントなどを構築できます。

ollama models 選定・管理のまとめ

Ollamaライブラリで利用できるモデルの選定は、パラメータ数の大小ではなく、ハードウェア制約・タスク要件・ライセンス条件・量子化設定の組み合わせで判断する問題だ。実装上の要点を整理する。

Ollamaはモデル開発元ではなく、外部オープンウェイトモデルをライブラリで配布するローカル実行環境である
現行世代の主力はQwen3系（3.5 / 3.6）・gpt-oss・DeepSeek-R1・Gemma 4。qwen2.5・gemma3・llama3.1系は旧世代
量子化はQ4_K_Mが8〜16GB VRAM環境の現実的な選択肢。数値推論・コードではQ8_0との比較評価を推奨
本番環境では:latestタグを避け、明示的なタグで固定して再現性を確保する
Modelfileでシステムプロンプト・パラメータを焼き込んだ用途特化モデルを作ることで、実務品質が引き上がる
RAG構築ではEmbeddingモデル（nomic-embed-text等）をテキスト生成モデルとは別に選定・管理する
タスク別にモデルを使い分けるオーケストレーション設計が、コストと品質の最適化につながる

Ollamaの全体像や初期設定についてはOllamaとは何かおよびOllama導入ガイドを参照してほしい。

AIの業務活用・導入をご検討の方へ

クリスタルメソッドは、各種LLM・ローカルAI・RAG・AIアバターを活用した業務へのAI導入を支援しています。「自社の業務でどう使えるか」をまずはお気軽にご相談ください。

無料相談・お問い合わせ：ご相談はこちら
基礎から知る：Ollamaとは

参考文献

Ollama公式ライブラリ: https://ollama.com/library（2026-06-08確認）
Ollama公式ライブラリ（最新順）: https://ollama.com/library?sort=newest（2026-06-08確認）
Ollama GitHub README: https://github.com/ollama/ollama（2026-06-08確認）
Ollama公式 pricing: https://ollama.com/pricing（2026-06-08確認）
Ollama公式ブログ: https://ollama.com/blog（2026-06-08確認）
JST J-Global「自動車産業PDFチャットボットのためのRAG技法の最適化」: https://jglobal.jst.go.jp/detail?JGLOBAL_ID=202402211663346024
DevelopersIO「2026年のローカルLLM事情を整理してみた」: https://dev.classmethod.jp/articles/local-llm-guide-2026/

監修

河合継（クリスタルメソッド株式会社代表取締役）

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について｜編集方針

AIについて学ぶ

Claude Opus 5 活用方法と企業導入ロードマップ：コスト半減と自律運用の最適解

Anthropicが発表した「Claude Opus 5」の概要 Anthropicは、同社の最新かつ最上位のフラッグシップAIモデルである「Claude Op...
OpenAIの音声エージェント開発を企業が導入する基準：新基盤「Presence」の衝撃

OpenAIの音声エージェント開発を企業が導入する基準：新基盤「Presence」の衝撃 AI技術の進展に伴い、企業のカスタマーサポートやセールス活動における自...
AI 暴走リスクセキュリティ対策：OpenAI自律ハッキング事案から学ぶ企業の防衛策

人工知能（AI）技術の進化は、業務効率化や意思決定の迅速化に大きく貢献する一方で、これまでにない新たな脅威をもたらしています。特に、自律的に判断して行動する「A...