blog

ollama インストール方法 完全ガイド【2026年6月最新】OS別手順と実装の勘所

監修

河合 継(クリスタルメソッド株式会社 代表取締役)

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について編集方針

ollama インストール方法 完全ガイド【2026年6月最新】OS別手順と実装の勘所

ollama インストール方法の全体像と前提知識

Ollama は、オープンウェイトの大規模言語モデル(LLM)をローカル環境で実行するためのランナーツールである。モデル自体を開発・提供するサービスではなく、ollama.com/library に集約された Qwen3・gpt-oss・DeepSeek・Gemma 4 などのモデルを、単一のコマンドで取得・実行する「実行環境」が本体だ。本体(ローカル実行)は無料・オープンソースで提供されており、自分のハードウェアで動かす限りサブスクリプションは不要である(出典: Ollama 公式 pricing、2026-06-08閲覧)。

2026年6月時点の最新バージョンは Ollama 0.30 系で、GGUF / llama.cpp 対応が強化され、Apple Silicon 向けには MLX エンジンも提供されている(出典: Ollama 公式 blog、2026-06-08閲覧)。対応プラットフォームは macOS・Windows・Linux の3系統。インストール後は REST API(デフォルト http://localhost:11434)が自動起動し、curl・Python・任意のフロントエンドから呼び出せる構造になっている。

インストール前に、以下のハードウェア要件を把握しておくことが望ましい。

  • RAM: 7B パラメータクラスのモデルを量子化(4bit)で動かす場合、最低 8GB が目安となる。70B クラスでは 40GB 以上が必要なケースが多い。
  • VRAM(GPU 推論時): モデルのパラメータ数と量子化ビット幅の積がおおよその所要VRAMとなる。4bit 量子化 7B モデルであれば約 4〜5GB が目安だ。
  • ストレージ: モデルはデフォルトで ~/.ollama/models に保存される。7B モデルで数GB、70B モデルで 40GB 超を要するため、十分な空き容量を確保しておく。

以下の図は Ollama のアーキテクチャを簡略化したものである。

クライアント curl / Python / UI

Ollama サーバー REST API :11434 llama.cpp / MLX

モデル GGUF / Safetensors ~/.ollama/models

図1: Ollama のアーキテクチャ概要。クライアントは REST API 経由でサーバーと通信し、モデルはローカルストレージに保存される。

なお、Ollama にはローカル実行に加え、大型モデルをクラウド上で動かす Ollama Cloud(ホスト型推論サブスクリプション)も提供されている。料金体系の詳細については Ollama の料金プラン解説 を参照してほしい。本稿ではまずローカルインストールの手順に集中する。

OS別 ollama インストール方法(macOS・Windows・Linux)

Ollama のインストール方法はプラットフォームによって異なる。それぞれの手順と、実装上で見落としやすい注意点を以下にまとめる。

macOS へのインストール

macOS では GUI インストーラーが提供されている。手順は次のとおりだ。

  1. https://ollama.com/download にアクセスし、”Download for macOS” をクリックして ZIP ファイルを取得する。
  2. ZIP を展開し、Ollama.app/Applications フォルダへ移動する。
  3. アプリを起動するとメニューバーにアイコンが現れ、バックグラウンドで REST API サーバーが自動起動する。
  4. ターミナルで動作確認を行う。
# バージョン確認
ollama --version

# モデルを取得して対話実行(軽量モデルで動作確認する場合)
ollama run llama3.2:3b

Apple Silicon(M1 以降)では MLX バックエンドが自動選択され、Metal GPU を活用した高速推論が可能だ。Intel Mac の場合は CPU 実行となる。重要な注意点として、macOS の Gatekeeper により初回起動時に「開発元を確認できない」旨の警告が表示される場合がある。その際は「システム設定 > プライバシーとセキュリティ」から実行を許可する必要がある。

Windows へのインストール

Windows では専用インストーラーが提供されている(出典: Ollama 公式 blog)。

  1. https://ollama.com/download/windows から OllamaSetup.exe をダウンロードする。
  2. 実行ファイルを起動し、UAC プロンプトを承認する。
  3. インストール完了後、Ollama はシステム起動時に自動スタートする設定になる。
  4. コマンドプロンプトまたは PowerShell で確認する。
ollama --version
ollama run qwen3:4b

NVIDIA GPU を搭載した環境では、CUDA ドライバーが導入済みであれば GPU 推論が自動で有効になる。GPU メモリが不足する場合は自動的に CPU ロードにフォールバックする仕組みだ。AMD GPU(ROCm 対応)も一部サポートされているが、NVIDIA に比べて動作実績の報告が限られる点には留意が必要だ。

また、Windows Subsystem for Linux(WSL2)経由での導入も選択肢となる。WSL2 環境では後述の Linux 向けインストール手順がそのまま適用でき、CUDA over WSL2 によって GPU も活用可能だ。ただし WSL2 のメモリ割り当て設定(.wslconfigmemory パラメータ)が不十分な場合、大型モデルのロードに失敗することがある。

Linux へのインストール

Linux ではワンライナーのシェルスクリプトが最も手軽な方法である(出典: Ollama GitHub README)。

curl -fsSL https://ollama.com/install.sh | sh

スクリプトはディストリビューションを自動判別し、systemd サービスとして登録する。NVIDIA GPU がある場合は CUDA ランタイムの有無を検出してセットアップを分岐させる設計になっている。インストール後のサービス起動確認は以下で行う。

systemctl status ollama
ollama --version

本番環境やセキュリティポリシーの厳格な環境で curl | sh によるインストールを避けたい場合は、GitHub Releases からバイナリを直接ダウンロードする手順が代替として利用できる。また、Docker 公式イメージ(ollama/ollama)も Docker Hub で配布されており、コンテナ環境での利用も可能だ。GPU パススルーが必要な場合は --gpus all フラグを付与する。

# GPU パススルーありの Docker 起動例
docker run -d --gpus all \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  ollama/ollama

日本原子力研究開発機構(JAEA)が公開した技術報告書「スーパーコンピュータを用いたオンプレミス生成AI基盤の構築と展開」(jopss.jaea.go.jp)でも、オンプレミスのHPC環境でローカルLLMを動かす際の構成・展開方法が報告されている。機密データを扱うシステムへの組み込みを検討する際の参考になる。

インストール後の基本操作:モデル取得から REST API 活用まで

主要コマンドの概要

Ollama CLI の主要コマンドを以下の表に整理する。

コマンド 説明 使用例
ollama pull モデルをライブラリから取得(実行はしない) ollama pull qwen3:8b
ollama run モデルを取得して対話セッションを開始 ollama run gpt-oss:20b
ollama list ローカルに保存済みのモデル一覧を表示 ollama list
ollama show モデルのメタ情報・パラメータ数を表示 ollama show deepseek-r1
ollama rm ローカルのモデルを削除 ollama rm llama3.1
ollama serve APIサーバーをフォアグラウンドで起動 ollama serve
ollama ps 現在メモリにロードされているモデルを確認 ollama ps
ollama cp ローカルモデルをコピー(カスタムモデルの作成起点に使用) ollama cp qwen3:8b mymodel

モデル選定の指針(2026年6月時点)

Ollama ライブラリにおける主要モデル系列の概要を以下に整理する(出典: Ollama 公式 libraryOllama GitHub README、2026-06-08閲覧)。

  • 汎用・推論(最人気級): Qwen3 系(30.4M+ pulls。dense と MoE の両アーキテクチャを提供、0.6B〜235B)。最新世代の Qwen3.6(27B/35B、agentic コーディング・thinking 対応)および Qwen3.5(マルチモーダル、0.8B〜122B)が現行主力だ。初代 qwen3qwen2.5 を「最新世代」と扱わないよう注意する。
  • gpt-oss: OpenAI のオープンウェイトモデルで、Ollama と提携して配布されている。gpt-oss:20b が推論用途の定番(o3-mini 級、推論強度を調整可能)。あくまで OpenAI 製であり「Ollama 製モデル」ではない。
  • 推論特化: deepseek-r1(87.1M pulls)、DeepSeek-V4-Flash(MoE 284B 総パラメータ / 13B 活性、1M context プレビュー)。
  • コーディング: qwen3-coder(30B 級が定番)、deepseek-coder-v2、Codestral。
  • マルチモーダル: Gemma 4(12B/26B/31B、vision・tools・thinking 対応の現行世代)、qwen3-vlgemma3 を最新世代と扱わないよう注意する。
  • 8GB GPU 前後の軽量環境向け: llama3.2(1B/3B)、Qwen3 の 0.6B〜数B。なお llama3.1 は pull 数こそ多い(115.6M pulls)が旧世代モデルに属する。

農業検定試験問題を用いた大規模言語モデルの性能評価(JST・jxiv、jxiv.jst.go.jp)のように、ドメイン特化の用途では採用前にベンチマーク評価を行い、モデルの適合性を定量的に確認するアプローチが実装品質の担保に有効だ。

REST API の呼び出しと OpenAI 互換エンドポイント

Ollama サーバーが起動していれば、以下のように curl で直接推論を実行できる。

# 非ストリーミング推論
curl http://localhost:11434/api/generate \
  -d '{
    "model": "qwen3:8b",
    "prompt": "Pythonで素数を列挙するコードを書いてください",
    "stream": false
  }'

# チャット形式(マルチターン対応)
curl http://localhost:11434/api/chat \
  -d '{
    "model": "qwen3:8b",
    "messages": [
      {"role": "user", "content": "Pythonで素数を列挙するコードを書いてください"}
    ]
  }'

OpenAI 互換エンドポイント(/v1/chat/completions)も提供されており、既存の OpenAI SDK のベース URL を差し替えるだけで流用できる。

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama",  # 任意の文字列でよい
)

response = client.chat.completions.create(
    model="qwen3:8b",
    messages=[{"role": "user", "content": "素数を列挙するPythonコードを書いてください"}]
)
print(response.choices[0].message.content)

この互換性により、既存の OpenAI ベースアプリケーションをほぼ無改修でローカル LLM に接続できる。RAG システムや検索連動型活用の実装については テキストマイニング関連の解説記事、および Dify を用いた図書館サービス向け RAG 型システムの構築事例(J-Stage 掲載: jstage.jst.go.jp)も参考になる。

Modelfile によるカスタムモデルの作成

Ollama ではベースモデルにシステムプロンプト・パラメータ・テンプレートを付加した「カスタムモデル」を Modelfile で定義できる。本番運用で特定のロールやトーンを固定したい場合に有効だ。

# Modelfile の例
FROM qwen3:8b

SYSTEM """
あなたは製造業の品質管理を支援するAIアシスタントです。
日本語で回答し、専門用語には補足説明を付けてください。
"""

PARAMETER temperature 0.3
PARAMETER top_p 0.9
# カスタムモデルを作成・実行
ollama create quality-assistant -f ./Modelfile
ollama run quality-assistant

トラブルシュートとオンプレミス運用の注意点

よくある問題と診断手順

GPU が認識されない(Linux/Windows): NVIDIA の場合は nvidia-smi でドライバーが正常に動作していることを確認する。CUDA バージョンと Ollama のランタイム要件が整合していない場合、CPU ロードにフォールバックするため推論速度が著しく低下する。ollama ps を実行し、GPU 列が正しく表示されているかを確認するのが最初の診断ステップだ。Linux では環境変数 OLLAMA_DEBUG=1 を設定してサーバーを起動すると、GPU 検出の詳細ログが出力される。

モデルのロードが遅い・Out of Memory: モデルサイズ(パラメータ数 × 量子化ビット幅)に対して VRAM / RAM が不足している場合に発生する。ollama show <model> でモデルのメモリ要件を確認し、4bit 量子化(:q4_K_M)など小さいバリアントに切り替えることで解消できる場合が多い。量子化バリアントはタグで指定する(例: ollama pull qwen3:8b-q4_K_M)。

API に接続できない: ollama serve が起動しているか systemctl status ollama(Linux)やタスクトレイ(macOS/Windows)で確認する。デフォルトポートは 11434 で、ファイアウォールがブロックしている場合も接続不可になる。外部ホストからアクセスする場合は OLLAMA_HOST=0.0.0.0 を設定する必要があるが、セキュリティ上のリスクを伴うため本番環境では認証レイヤーの付加が必須だ。

モデルの応答が突然途切れる: ストリーミングモードで長文生成中にネットワークや接続が切れた際に発生する。stream: false で非ストリーミング推論に切り替えるか、タイムアウト値を延長する。

ローカル実行と Ollama Cloud の使い分け

ローカル GPU がない環境、あるいは 120B 級以上の大型モデルを試したい場合には、Ollama Cloud(ホスト型推論)の利用が現実的な選択肢となる。Free プランは $0、Pro プランは月 $20(約3,000円)、Max プランは月 $100(約15,000円)の固定サブスクリプション制で、従量超過請求が発生しない設計になっている(出典: Ollama 公式 pricing、2026-06-08閲覧)。なお一部の二次情報が「Max=$200」と誤記しているが、公式の現行価格は月 $100 である。

観点 ローカル実行 Ollama Cloud(Free) Ollama Cloud(Pro $20/月) Ollama Cloud(Max $100/月)
コスト ハードウェア初期投資あり、ランニングコスト低 $0(超過請求なし) 月$20固定 月$100固定
同時モデル数 VRAM依存(基本1モデル推奨) 1モデル 3モデル同時 10モデル同時
プライバシー 完全オフライン可、データ外部送信なし データがクラウドを経由する
モデルサイズ上限 ローカルGPU容量に依存 軽量モデル向け より強力なクラウドモデル利用可 常時稼働エージェント等の重負荷対応
レイテンシ ネットワーク遅延なし ネットワーク往復が発生
運用負荷 モデル管理・更新を自前で行う インフラ管理不要
プライベートモデル 完全にローカル管理 不可 アップロード・共有可 アップロード・共有可

詳細な料金比較については Ollama 料金プランの詳細解説 を参照してほしい。また他のローカル LLM ランナーとの比較は 他ツールとの比較記事 にまとめている。

オンプレミス運用における設計上の注意

機密データを扱う社内システムへの組み込みでは、Ollama のローカル完結性が強みとなる一方、以下の点を設計段階で確認しておく必要がある。

  • モデルの更新管理: ollama pull の再実行でモデルを更新できるが、ライブラリ側のタグ管理はモデル提供者依存であり、バージョン固定が必要な本番運用ではタグの固定化とモデルハッシュの記録が望ましい。
  • 量子化による精度劣化: デフォルトでダウンロードされるモデルは量子化済みのものが多い。精度優先の用途では full precision モデルとの品質差を事前に評価し、VRAM 要件とのトレードオフを意思決定に組み込むべきだ。
  • 商用利用ライセンス: Ollama 本体は MIT ライセンスだが、各モデルのライセンス(Llama Community License・Apache 2.0・その他)は個別に確認が必要だ。商用展開前にモデルのライセンス条項を精査することは必須の手順となる。
  • API の認証: デフォルト設定では localhost からの接続のみ受け付けるが、外部公開する際は認証レイヤー(リバースプロキシ + 認証ミドルウェア等)を必ず追加する。

マルチモーダル・RAG への発展的な活用と実装事例

ビジョンモデルと画像認識への応用

Ollama ライブラリではテキストのみならず画像入力に対応したモデルも提供されている。現行世代の Gemma 4(12B/26B/31B)は vision・tools・thinking をすべてサポートしており、画像キャプション生成や視覚的 QA を単一モデルで処理できる(出典: Ollama 公式 library)。qwen3-vl 系も同様にマルチモーダル対応だ。

弊社が開発する DeepAI は、実在の人物の容姿・表情・声・振る舞いをデジタル空間で再現するバーチャルヒューマン/AIアバターソリューションであり、リップシンク・表情生成・音声合成・対話 AIなどを組み合わせ、接客・研修・広報といった用途に活用されている。ローカル LLM のビジョンモデルと、こうした対話 AI 基盤を組み合わせた構成は、データをクラウドに送出せずに完結させたいオンプレミス環境のユースケースで有力な選択肢となる。マルチモーダル AI の詳細な技術解説は マルチモーダル AI の解説記事 を参照してほしい。

RAG・エージェント構成との連携

Ollama の REST API は LangChain・LlamaIndex・Dify などの主要なオーケストレーションフレームワークと統合できる。社内ドキュメントへの質問応答システム(RAG)を構築する際は、ベクトル DB(Chroma・Qdrant 等)と組み合わせてローカル完結の検索拡張生成を実現できる。

J-Stage に掲載された「Dify で作成した図書館サービスへの質問に回答する RAG 型システム」(jstage.jst.go.jp)は、ローカル LLM を活用した RAG 構成の実装事例として参考になる。

深層学習の基礎から応用への理解を深めたい場合は 深層学習の解説記事、機械学習全般のアーキテクチャ選定については 機械学習の基礎解説 を参照することで、モデル選定の判断軸を補強できる。GAN 技術の活用事例は GAN の解説ページ、強化学習との組み合わせは 強化学習の解説記事 にまとめている。

ollama インストール後の次のステップ

インストールと基本操作の確認が完了したら、以下の順序でシステム構築を進めることを推奨する。

  1. ベースモデルの評価: 用途に合ったモデルを複数選定し、代表的なテストケースで応答品質・速度・メモリ消費を比較する。
  2. Modelfile によるカスタマイズ: システムプロンプト・温度・トップ P を調整して、用途特化のカスタムモデルを作成する。
  3. フレームワーク統合: LangChain や LlamaIndex との連携を実装し、RAG パイプラインやエージェント構成を構築する。
  4. 本番向けの認証・監視: リバースプロキシによる認証付与、ログ収集、モデルのバージョン固定を行い、本番運用体制を整える。

Ollama のセットアップ詳細については Ollama セットアップ詳細解説 も合わせて参照されたい。弊社ブログ全体の技術記事一覧は こちら から閲覧できる。


ローカル LLM との対話 AI 基盤の構築を検討している場合、弊社が開発する DeepAI(実在の人物の容姿・表情・声・振る舞いをデジタル空間で再現するバーチャルヒューマン/AIアバターソリューション)についてもご参照いただきたい。リップシンク・音声合成などを組み合わせた、接客・研修・広報向けの構成についてご相談を承っている。


参考文献

AIブログ購読

 
クリスタルメソッドがお届けする
AIブログの更新通知を受け取る

Study about AI

AIについて学ぶ

  • Meta インド データセンター AIインフラ——Reliance 168MW契約の深層と日本企業の実務対応

    Meta インド データセンター AIインフラ——Reliance 168MW契約の深層と日本企業の実務対応

    監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...

  • ワーナー Sureel AI 音楽 著作権——買収の意味と日本企業への示唆

    ワーナー Sureel AI 音楽 著作権——買収の意味と日本企業への示唆

    監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...

  • Vector Lakebase ベクターDB RAG——Zillizが示す統合AIデータ基盤の論点

    Vector Lakebase ベクターDB RAG——Zillizが示す統合AIデータ基盤の論点

    監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...

View more