blog

ollama models 完全ガイド|主要モデル一覧・選定基準・Modelfile実践

ollama models 完全ガイド|主要モデル一覧・選定基準・Modelfile実践

ollama models の全体像――ライブラリの構造と位置づけ

Ollama自体はモデルの開発元ではない。外部のオープンウェイトモデルをollama.com/libraryで配布・管理するローカル実行環境であり、「Ollama公式モデル」という概念は存在しない。正確には「Ollamaライブラリで配布されるQwen3 / gpt-oss / DeepSeek / Gemma 4等」と理解するのが出発点だ(Ollama GitHub README、2026-06-08確認)。

本記事では、2026年6月時点でollama.com/libraryに収録されている主要モデルの特性と選定基準、GGUF量子化のトレードオフ、Modelfileによるカスタムモデルの作成、そして複数モデルを用途別に切り替えるオーケストレーション設計まで、実装を前提に掘り下げる。Ollama全体の概要や初期設定についてはOllamaとは何かおよびOllama導入ガイドを参照してほしい。

Ollamaライブラリから複数モデルをpullしてタスク別に切り替える構成のイメージ図
Ollamaライブラリから複数モデルをpullしてタスク別に切り替える構成のイメージ

Ollamaにおける「モデルユニット」は単なるウェイトファイルではない。Modelfile(設定記述ファイル)・量子化済みGGUFウェイト・システムプロンプト・推論テンプレートがひとまとまりになったパッケージだ。この構造を把握することが、単にpullするだけでなく、用途特化モデルを自ら設計する前提条件になる。

Modelfile FROM / SYSTEM PARAMETER / TEMPLATE + GGUFウェイト 量子化済みモデル Q4_K_M / Q8_0 等 + プロンプト設定 システムプロンプト チャットテンプレート モデルユニット ollama create で生成 再現性・共有可能

OllamaモデルユニットはModelfile・GGUFウェイト・プロンプト設定の合成体

ollama models ライブラリの主要モデル一覧(2026年6月時点)

以下はOllama公式ライブラリ(2026-06-08確認)に収録されている主要モデルを用途カテゴリ別に整理したものだ。pull数はライブラリ上の表示値であり、人気・実績の参考指標として示す。

カテゴリ モデル名 規模 ライセンス 主な特徴 pull数目安
汎用・推論 Qwen3系(現行最新: 3.5 / 3.6) 0.6B〜235B(dense・MoE) Apache 2.0等 多言語・推論・agenticコーディング。Thinking対応。3.6は27B/35Bが対象 30.4M+
gpt-oss(OpenAIオープンウェイト) 20B / 120B 要確認 調整可能な推論強度。o3-mini級とされる。Ollamaと提携配布
DeepSeek-R1 多サイズ(MoE含む) MIT 推論特化。CoT型の思考連鎖が強み 87.1M+
マルチモーダル Gemma 4(Google、現行最新) 12B / 26B / 31B Apache 2.0(Gemma 4) vision+tools+thinking統合。旧gemma3からの世代交代済み
Qwen3-VL 要確認 Apache 2.0系 Qwen3系のビジョン対応バリアント
コーディング Qwen3-Coder 30B級 Apache 2.0系 agenticコーディング・thinking対応の現行定番
Qwen2.5-Coder(旧世代) 1.5B〜32B Apache 2.0 多言語コーディング・FIM(Fill-in-the-Middle)対応。現行はQwen3-Coder推奨
DeepSeek-Coder-V2 16B / 236B(MoE) 要確認 コード補完・バグ検出。MoE版は大容量環境向け
軽量・エッジ向け Llama 3.2(旧世代・参考) 1B / 3B Meta Llama Community pull数は多いが現行最新世代ではない。8GB以下の環境向け 115.6M+(旧世代)
Qwen3 0.6B〜数B 0.6B〜4B Apache 2.0系 現行世代の軽量選択肢。日本語性能でLlama 3.2を上回りやすい
Embedding nomic-embed-text 137M Apache 2.0 RAGパイプライン用の定番。コンテキスト長8192トークン

注意点として、モデル系列の更新速度は速い。Qwen の現行世代は 3.5 / 3.6 であり、qwen2.5 や初代 qwen3 を「最新の主力」と扱わないこと。Gemma の現行は Gemma 4 であり gemma3 は旧世代。Llama 3.1 / 3.2 はpull数が多いが旧世代に相当する(いずれもOllama公式ライブラリ、2026-06-08確認)。

DeepSeek-V4-FlashはMoE 284B(総パラメータ)/13B(活性パラメータ)、最大1Mコンテキストのプレビューとして公開されている。本番採用時はライブラリの詳細ページで最新ステータスを確認してほしい。

GGUF量子化の選び方――精度・速度・VRAMのトレードオフ

Ollamaが内部で使用するllama.cppはGGUF形式のウェイトを扱う。量子化ビット数の選択は、推論品質・速度・メモリ消費の三者間トレードオフを直接左右するため、用途ごとに意識的に選ぶ必要がある。

量子化タイプ 実効ビット数 精度への影響 VRAMへの影響 推奨シナリオ
Q4_K_M 4bit(Kグループ・中精度) 軽微な劣化 最小級 8〜16GB VRAM/日常的な対話・要約・分類
Q5_K_M 5bit(Kグループ・中精度) Q4より低い劣化 Q4比+25%程度 16GB VRAM/高精度優先タスク
Q8_0 8bit float16とほぼ同等 Q4比約2倍 24GB+ VRAM/数値推論・コード精度重視
F16 16bit(非量子化) 劣化なし 最大 研究・ファインチューン後の評価用途

Q4量子化で「精度劣化が軽微」と表現されることは多いが、数値推論・論理タスク・コード生成では劣化が顕在化しやすい。実際のユースケースで Q4 と Q8 の出力を並べて評価し、許容範囲かどうかを確認してからタグを固定することを推奨する。

タグ指定によるバージョン固定の例を示す。本番環境では :latest を避け、明示的なタグを指定すること。pullのたびにウェイトが更新されると出力の再現性が失われる。

# Qwen3 MoE 30B・Q4_K_M量子化を明示的に指定
ollama pull qwen3:30b-a3b-q4_K_M

# gpt-oss 20Bのデフォルトタグ
ollama pull gpt-oss:20b

# Embeddingモデル(バージョン固定推奨)
ollama pull nomic-embed-text:latest

Apple Siliconを使う場合、Ollama 0.30系(2026年6月時点の現行バージョン)ではMLXエンジンも提供されており、統合メモリを活かした推論が可能だ(Ollama公式ブログ、2026-06-08確認)。

ハードウェア別・用途別のモデル選定フレームワーク

「最大パラメータ数のモデルを選べば良い」という考えは実装上の誤りだ。短文分類やキーワード抽出では小型モデルで十分な精度が出る場合が多く、速度とコストで明確に有利になる。以下の判断軸を順に適用することで、無駄な試行錯誤を減らせる。

  1. ハードウェア確認:利用可能なVRAM / 統合メモリ量を把握する
  2. タスク定義:対話 / コード補完 / RAG / 推論 / Embeddingのどれか
  3. 言語要件:日本語の出力品質がどの程度重要か
  4. ライセンス確認:商用利用・再配布・SaaS組み込みの可否
  5. 複数モデルでABテスト:実タスクでベンチマークを取り、タグを固定する

ハードウェア別の現実的な選択肢

環境 VRAM / メモリ目安 推奨モデル(例) 補足
MacBook Air(M2/M3 8GB) 8GB統合メモリ Qwen3 0.6B〜1.7B、Llama 3.2 3B 16GB版なら7B〜14B程度も可
MacBook Pro / Mac Studio(32〜64GB) 32〜64GB統合メモリ Qwen3 14B〜30B(Q4_K_M)、gpt-oss:20b 統合メモリはVRAMと共有。大型モデルに強い
Linux PC(RTX 3090 / 4090) 24GB VRAM Qwen3 14B〜30B、Qwen3-Coder 30B(Q4_K_M) Q4量子化で大型MoEも試行可能。推論速度は最速クラス
Linux サーバー(A100×2) 80GB×2 VRAM gpt-oss:120b、DeepSeek-R1大型版 複数GPUはGPULayersで分散処理
CPU only(16GB RAM) VRAM不要 Qwen3 0.6B〜数B 速度は遅い。軽量タスク専用と割り切る

ライセンス確認の実務ポイント

社内ツールやSaaS組み込みでの商用利用を検討する場合、ライセンスの確認は選定フローから外せない。

  • Apache 2.0(Qwen3系多数、Mistral等):商用利用・改変・再配布とも自由。制約が最も少ない
  • MIT(DeepSeek-R1等):商用利用可。帰属表示が必要
  • Meta Llama Community License(Llama 3.x系):月間アクティブユーザー7億人超のサービスは別途申請が必要。それ未満は商用利用可
  • Gemma Terms of Use(Gemma 4等):商用利用可だが、競合するAIサービスへの組み込みや危険コンテンツ生成に制限。詳細はGoogle公式を確認
  • gpt-oss:ライセンス詳細は公式ページで確認が必要(要確認)

Ollamaの料金体系と商用利用のコスト比較では、ローカル実行・Ollama Cloud各プランのコスト構造を整理している。ライセンスコストの観点と合わせて参照してほしい。

なお、Ollamaはローカル実行環境として無料・オープンソースで提供されており、自分のハードウェアで動かす分は常に無制限・サブスク不要だ。大型モデルをローカルGPUなしで動かしたい場合向けに「Ollama Cloud」(ホスト型推論サブスク)が $0 / $20 / $100 の固定料金で提供されている(Ollama公式 pricing、2026-06-08確認)。

Modelfileで用途特化モデルを作る――実践的な構造と設定値

Ollamaの実装上の強みは、Modelfileによってベースモデルにシステムプロンプトや推論パラメータを焼き込んだ「専用ユニット」を作れる点にある。ModelfileはDockerfileに着想を得た設定記述ファイルで、ollama createで再現性のある独自モデルを生成できる。

日本語要約アシスタントの作成例

FROM qwen3:14b

PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192
PARAMETER repeat_penalty 1.12

SYSTEM """
あなたは日本語に特化したテキスト要約アシスタントです。
入力されたテキストを、箇条書き3点で簡潔に要約してください。
"""

上記を Modelfile として保存後、ollama create my-summarizer -f ./Modelfile を実行すると独自モデルユニットが生成される。チーム共有やバージョン管理はModelfileをGit管理するだけで完結する。

主要パラメータと実運用での設定指針

パラメータ 意味 低い値の効果 高い値の効果 実運用の目安
temperature 出力のランダム性 決定論的・一貫性高 多様・創造的 分類・抽出:0.1〜0.3 創作:0.7〜1.0
top_p サンプリング幅 高確率トークンに絞る 幅広く選択 temperatureと組み合わせて調整。0.9が汎用
num_ctx コンテキストウィンドウ長(トークン) メモリ節約 長文処理可能 RAG用途:8192〜16384。増やすとVRAMが増加
repeat_penalty 繰り返し抑制 同じ表現が続きやすい 多様な表現を強制 1.1〜1.15で繰り返しを自然に抑制

num_ctx の設定ミスは実務でよく見るトラブルの原因になる。モデルが対応するネイティブコンテキスト長と、Ollamaの num_ctx 設定は独立している。長文RAGで「途中から回答精度が下がる」場合、num_ctx 不足が原因であることが多い。ollama show モデル名 で実際の設定値を確認し、必要に応じてModelfileで明示的に上書きすること。

Hugging FaceのGGUFモデルを取り込む

Ollamaライブラリに存在しないモデルも、GGUF形式ならModelfileで直接参照できる。

# ローカルGGUFファイルを参照
FROM /path/to/your-model.gguf

SYSTEM "日本語特化モデルです。"

Hugging Faceから直接pullする方法(ollama run hf.co/username/repo-name)も存在するが、対応フォーマットはGGUFのみだ。PyTorchやsafetensors形式はllama.cppによる変換が必要になる。

RAGパイプラインの構築文脈では、JST J-Globalに収録されている研究(「自動車産業PDFチャットボットのためのRAG技法の最適化」、JST J-Global)でも、ローカルLLMとEmbeddingモデルの組み合わせによるRAG構成の有効性が示されている。ドメイン特化のシステムプロンプトとEmbeddingモデルの選定は、出力品質に直結する要素だ。

複数モデルの切り替え設計――オーケストレーションの実装パターン

実務では「1モデルですべてのタスクをこなす」構成は非効率になりやすい。タスクの性質に応じてモデルを切り替えるオーケストレーションが、推論コストと品質の両立につながる。

OpenAI互換APIを使ったモデル切り替え

OllamaはOpenAI互換のAPIエンドポイント(http://localhost:11434/v1)を提供している。modelパラメータを変えるだけで実行モデルを切り替えられるため、LangChainやLlamaIndexとの統合が容易だ。タスクの入力長・複雑度・言語に応じてモデルを動的に選択するルーターを構築できる。

メモリ管理の設定値

複数モデルを頻繁に切り替える環境では、以下の環境変数を用途に合わせて調整する。

  • OLLAMA_MAX_LOADED_MODELS:同時にメモリにロードするモデル数の上限(デフォルト1)
  • OLLAMA_KEEP_ALIVE:モデルのメモリキャッシュ保持時間(デフォルト5分)。=0 で推論後即アンロードしてVRAMを解放
  • 用途が異なる複数モデルを常時並列稼働させる場合は、DockerでOllamaインスタンスを分けて起動する構成も検討に値する

タスク別のモデル役割分担例

タスク 推奨モデル例 選定理由
高速分類・フィルタリング Qwen3 数B(Q4_K_M) 低レイテンシ優先。大型モデルを使う必要がない
日本語テキスト要約・構造化抽出 Qwen3 14B(Q4_K_M) 多言語性能と8〜16GB VRAMへの収まりやすさのバランス
コードレビュー補助 Qwen3-Coder 30B(Q4_K_M) agentic対応・thinking機能が複雑なコード解析に効く
RAGのEmbedding生成 nomic-embed-text 軽量・高速。8192トークンのコンテキスト長
複雑な推論・品質評価 gpt-oss:20b または DeepSeek-R1 大型版 高品質優先。推論コストが増えても精度を確保したいタスク向け

全タスクを大型モデルで処理するより、タスクの性質に応じた役割分担のほうが推論コストを抑えやすい傾向がある。ただし実際の効果は環境・ワークロードによるため、本番採用前にベンチマークで確認することが重要だ。

他のローカルLLMツールとの比較についてはOllama比較記事で整理している。また、深層学習の基礎的な仕組みを理解した上でモデル選定を行いたい場合はディープラーニング解説記事も参照してほしい。

弊社が開発するDeepAI(バーチャルヒューマン・AIアバターソリューション)では、リップシンク・表情生成・音声合成・対話AIを組み合わせた実装を行っており、対話AIコンポーネントの選定にあたってもローカルLLMと商用APIのトレードオフを検討する場面がある。モデルのレイテンシ特性と出力品質のバランスは、インタラクティブな用途では特に重要な設計要素になる。

なお、テキストマイニングの観点からモデル選定を考える場合はテキストマイニング解説記事も参考になる。Claudeシリーズとの特性比較についてはClaudeモデル比較記事を、Mistralシリーズの詳細についてはMistralモデル解説記事を参照してほしい。

ollama models 選定・管理のまとめ

Ollamaライブラリで利用できるモデルの選定は、パラメータ数の大小ではなく、ハードウェア制約・タスク要件・ライセンス条件・量子化設定の組み合わせで判断する問題だ。実装上の要点を整理する。

  • Ollamaはモデル開発元ではなく、外部オープンウェイトモデルをライブラリで配布するローカル実行環境である
  • 現行世代の主力はQwen3系(3.5 / 3.6)・gpt-oss・DeepSeek-R1・Gemma 4。qwen2.5・gemma3・llama3.1系は旧世代
  • 量子化はQ4_K_Mが8〜16GB VRAM環境の現実的な選択肢。数値推論・コードではQ8_0との比較評価を推奨
  • 本番環境では:latestタグを避け、明示的なタグで固定して再現性を確保する
  • Modelfileでシステムプロンプト・パラメータを焼き込んだ用途特化モデルを作ることで、実務品質が引き上がる
  • RAG構築ではEmbeddingモデル(nomic-embed-text等)をテキスト生成モデルとは別に選定・管理する
  • タスク別にモデルを使い分けるオーケストレーション設計が、コストと品質の最適化につながる

Ollamaの全体像や初期設定についてはOllamaとは何かおよびOllama導入ガイドを参照してほしい。

AIの業務活用・導入をご検討の方へ

クリスタルメソッドは、各種LLM・ローカルAI・RAG・AIアバターを活用した業務へのAI導入を支援しています。「自社の業務でどう使えるか」をまずはお気軽にご相談ください。

参考文献

監修

河合 継(クリスタルメソッド株式会社 代表取締役)

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について編集方針


あわせて読みたい

AIブログ購読

 
クリスタルメソッドがお届けする
AIブログの更新通知を受け取る

Study about AI

AIについて学ぶ

  • 大学・高校の面接でよく聞かれる質問と答え方|回答が通用するか確かめる方法

    大学・高校の面接でよく聞かれる質問と答え方|回答が通用するか確かめる方法

    面接の本番まで残り1〜3週間。志望理由書は書き終えたのに、「実際に何を聞かれるか」「自分の答えで大丈夫か」という不安だけが夜になると膨らむ──そういう状態の人に...

  • バイト面接の質問と答え方|面接官が本当に見ているポイント

    バイト面接の質問と答え方|面接官が本当に見ているポイント

    バイト面接の質問と答え方|面接官が本当に見ているポイントをAI開発者が解説 「どんな質問が来るか」はもう調べた。でも、いざ答えようとすると言葉が出てこない——そ...

  • 面接の逆質問|採用する側が評価している視点と、刺さる質問の設計法

    面接の逆質問|採用する側が評価している視点と、刺さる質問の設計法

    「何か質問はありますか?」——この一言を聞くたびに頭が真っ白になる人は少なくない。事前に例文を調べても、どれも使い回し感があって自分の状況に合うか自信が持てない...

View more