blog

OllamaをWindowsにインストールする方法|初期設定まで解説【2026年版】

監修

河合 継(クリスタルメソッド株式会社 代表取締役)

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について編集方針

OllamaをWindowsで使う完全ガイド:インストールから実践活用まで

OllamaはQwen3・DeepSeek・Gemma 4などのオープンウェイトLLMをローカル環境で動かせるツールです。クラウドAPIへの依存なし、通信コストゼロ、データが外部に出ない——この三拍子がそろうことで、業務利用での採用が急速に広がっています。本記事ではWindows環境への導入から、コマンド操作・API連携・実務で使えるモデル選びまでを一気通貫で解説します。Ollamaの概要を先に把握したい場合は Ollamaとは何か をご覧ください。

Windows版Ollamaの動作要件を確認する

インストール前に、自分のPCが要件を満たしているかを確認しましょう。要件を満たしていないまま進めると、モデルのロードが極端に遅くなるか、そもそも起動しないケースがあります。

項目 最低要件 推奨(実用レベル)
OS Windows 10(64bit) Windows 11
RAM 8GB 16GB以上
ストレージ(空き) 10GB 50GB以上(複数モデル格納)
GPU(NVIDIA) 不要(CPUのみ可) VRAM 8GB以上・CUDA対応
GPU(AMD) 不要 ROCm対応カード(実験的)
インターネット接続 初回モデルDLのみ必要

実運用の経験では、7Bパラメータのモデルをストレスなく使うにはRAM 16GBが実質的な下限です。8GBだとシステム用メモリと競合し、応答が止まる場面が出てきます。GPU非搭載でもCPUのみで動きますが、応答速度は5〜10倍程度遅くなります。コード補完や質問応答などの対話用途では、VRAM 8GB以上のGPUがあると体感がまったく変わります。

Windows版OllamaのインストールとGPU有効化

インストール自体は非常にシンプルです。詳細な手順は Ollamaの導入手順 にまとめていますが、ここではWindows固有の注意点を中心に解説します。

インストール手順

  1. 公式サイト(ollama.com)にアクセスし、「Download for Windows」からインストーラー(OllamaSetup.exe)を取得する。
  2. インストーラーを実行する。管理者権限は不要だが、UACプロンプトが出た場合は許可する。
  3. インストールが完了すると、タスクトレイにOllamaのアイコンが表示され、バックグラウンドでサービスが起動する。
  4. コマンドプロンプト(cmd)またはPowerShellを開き、ollama --version を実行してバージョンが表示されれば成功。

インストール後、モデルデータのデフォルト保存先は C:\Users\(ユーザー名)\.ollama\models です。Cドライブの空きが少ない場合は、環境変数 OLLAMA_MODELS を別ドライブのパスに設定しておくと、後々の容量管理がスムーズになります。

NVIDIA GPU(CUDA)を有効化する

Ollamaは対応GPUを自動検出します。NVIDIAの場合、事前に最新のGPUドライバーとCUDA Toolkitをインストールしておく必要があります。

  1. NVIDIA公式からGPUドライバー(最新版推奨)をインストール。
  2. CUDA Toolkit(12.x系)をインストール。
  3. Ollamaを(再)起動後、ollama run qwen3:8b などで任意のモデルを実行。
  4. 別のターミナルで ollama ps を実行し、出力の「PROCESSOR」列に「100% GPU」と表示されていれば、GPU推論が有効になっている。

「GPU利用率が0%のままになる」という問題は、ドライバーのバージョン不一致が原因であることが多いです。nvidia-smi コマンドでドライバーが正しく認識されているか確認し、それでも解決しない場合はOllamaを一度アンインストールして再インストールすると改善するケースがほとんどです。

基本コマンドの使い方:モデルの取得から対話まで

OllamaはCLI(コマンドラインインターフェース)を中心に操作します。よく使うコマンドを体系的に押さえておくと、日々の作業効率が大幅に上がります。

モデルの取得と起動

コマンド 動作
ollama pull <モデル名> モデルをダウンロード(起動せず) ollama pull qwen3:8b
ollama run <モデル名> モデルをDL+対話モードで起動 ollama run gemma4:12b
ollama list ローカルに保存済みのモデル一覧を表示
ollama ps 現在メモリに展開中のモデルを確認
ollama rm <モデル名> モデルを削除(ストレージ解放) ollama rm mistral
ollama show <モデル名> モデルの詳細情報を表示 ollama show qwen3:8b

対話モードの操作

ollama run を実行すると対話モードに入ります。プロンプトを入力してEnterを押すと応答が返ってきます。対話モードでよく使う操作は以下のとおりです。

  • /bye:対話を終了してシェルに戻る
  • /clear:会話履歴をリセットする
  • /set system <テキスト>:システムプロンプト(モデルへの役割指示)をその場で設定する
  • Ctrl+D:強制終了(応答が止まったときなど)

単発でプロンプトを渡す(非対話モード)

スクリプトから呼び出したい場合など、対話モードを使わずに単発でプロンプトを渡すには、パイプ(|)またはエコーを使います。

echo "Pythonでフィボナッチ数列を出力するコードを書いて" | ollama run qwen3:8b

これにより、応答が標準出力に流れ、テキストファイルへのリダイレクト(> output.txt)も簡単にできます。バッチ処理や他ツールとの連携に便利です。

Windows固有のトラブルと対処法

Ollamaは主にLinux・macOS向けに開発が進んでおり、Windows版には特有の問題がいくつか存在します。遭遇した際に素早く対処できるよう、頻出パターンを整理しておきます。

「ollama」コマンドが認識されない(コマンドが見つからない)

インストール後にシェルを開きなおさずにコマンドを打った場合や、環境変数PATHが更新されていない場合に起こります。対処は以下のいずれかです。

  • コマンドプロンプト/PowerShellを一度閉じ、再度開く。
  • Windowsを再起動する。
  • それでも解決しない場合、C:\Users\(ユーザー名)\AppData\Local\Programs\Ollama が環境変数PATHに含まれているかを確認し、手動で追加する。

モデルのロード中にクラッシュする

最も多い原因はRAM不足です。タスクマネージャーでメモリ使用率を確認し、他のアプリを閉じてから再試行してください。それでも発生する場合は、より小さいモデル(例:8Bから3Bへ)や量子化(Quantize)済みのモデル(Q4など)に切り替えると安定します。

ファイアウォールがAPIポートをブロックする

OllamaはデフォルトでTCPポート11434を使用します。外部ツール(Open WebUIなど)から接続できない場合、Windowsファイアウォールの受信規則に11434を追加してください。ローカルマシン内で完結する場合は基本的に不要です。

モデルダウンロードが途中で止まる

回線の不安定さや一時的なネットワークエラーが原因です。Ollamaは中断したダウンロードを再開する機能を持っているため、ollama pull を再実行するだけで続きから取得されます。完全に壊れている場合は ollama rm <モデル名> で一度削除してから取り直してください。

REST APIを使ってアプリケーションと連携する

Ollamaの強みのひとつが、OpenAI互換のREST APIを提供している点です。既存のOpenAI連携コードをほぼそのまま使えるため、社内ツールへの組み込みが非常にスムーズです。

基本的なAPIリクエスト(curl)

PowerShellまたはcurlが使える環境で以下を実行します。

curl http://localhost:11434/api/generate -d "{\"model\": \"qwen3:8b\", \"prompt\": \"日本語で自己紹介してください\", \"stream\": false}"

stream: false にすると応答がまとめて返ってきます。stream: true(デフォルト)の場合はトークンが逐次ストリーミングされます。

OpenAI互換エンドポイント

OpenAI SDKをそのまま使いたい場合は、エンドポイントを http://localhost:11434/v1 に向けるだけで動きます。

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 任意の文字列でOK
)

response = client.chat.completions.create(
    model="qwen3:8b",
    messages=[{"role": "user", "content": "Pythonのリスト内包表記を説明して"}]
)
print(response.choices[0].message.content)

自社での実運用では、社内ドキュメント検索・コード補完・FAQ応答などのユースケースでこの構成を活用しています。OpenAI APIとの切り替えが一行のURL変更で済むため、検証環境としても非常に扱いやすいです。

APIの主要エンドポイント一覧

エンドポイント 用途
POST /api/generate テキスト生成(単発プロンプト)
POST /api/chat チャット形式(会話履歴を含む)
POST /api/embeddings 埋め込みベクトルの生成
GET /api/tags ローカルモデル一覧の取得
POST /v1/chat/completions OpenAI互換チャット

WindowsでのGUIフロントエンド:Open WebUIの導入

CLIが苦手な方や、ChatGPTのようなUIで使いたい場合は、Open WebUIが事実上の標準フロントエンドです。Dockerを使うのが最も簡単です。

OllamaサービスをWindowsで起動
Docker Desktop起動
Open WebUIコンテナ起動
ブラウザからhttp://localhost:3000でアクセス

Docker Desktopインストール後、PowerShellで以下を実行します。

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

起動後、ブラウザで http://localhost:3000 にアクセスすると、アカウント作成画面が表示されます。最初に作成したアカウントが管理者になります。Ollamaと同じマシンで動かす場合、接続先を http://host.docker.internal:11434 に設定することでモデル一覧が自動的に取得されます。

Windowsで使えるモデルの選び方

モデル選びはマシンスペックと用途で決まります。Ollamaのモデルライブラリ(ollama.com/library)には数百のモデルが掲載されており、Qwen3・DeepSeek・Gemma 4など新世代のモデルが続々と追加されています。

モデル名 サイズ目安 必要VRAM 得意な用途
llama3.2:3b 2GB 4GB〜 軽量・高速な質問応答
qwen3:8b 約5GB 8GB〜 汎用対話・日本語・推論
gemma4:12b 約8GB 12GB〜 推論・ビジョン・多言語
mistral:7b 4.1GB 8GB〜 英語コード・指示追従
qwen3-coder:8b 約5GB 8GB〜 コーディング・日本語対応
deepseek-r1:8b 4.9GB 8GB〜 数学・推論チェーン
nomic-embed-text 274MB 埋め込み生成(RAG用途)

日本語の文章生成・要約・翻訳を主目的とする場合、現時点ではQwen3系が実用的な精度のバランスに優れています。コード補完には qwen3-coderdeepseek-coder-v2 が強みを持ちます。RAGシステムを構築する際は埋め込み専用モデル(nomic-embed-text、mxbai-embed-largeなど)を別途用意して使い分けるのが定石です。

Modelfileでカスタムモデルを作る

Ollamaには「Modelfile」という仕組みがあり、既存モデルにシステムプロンプトや設定を焼き込んだカスタムモデルを作成できます。社内FAQ対応ボットやコーディングアシスタントを固定の役割で動かしたいときに重宝します。

Modelfileの例(Modelfileという名前でテキストファイルを作成):

FROM qwen3:8b

SYSTEM """
あなたは社内技術ドキュメントの専門家アシスタントです。
質問には日本語で、箇条書きを使って簡潔に回答してください。
"""

PARAMETER temperature 0.3
PARAMETER top_p 0.9

作成後、以下のコマンドでモデルとして登録します。

ollama create my-assistant -f ./Modelfile
ollama run my-assistant

temperatureを下げると出力がより決定論的(ブレが少ない)になり、事実確認や社内FAQ対応に向きます。創作や発散的なアイデア出しには0.7〜1.0程度に上げるのが有効です。

料金・コスト面の考え方

Ollama本体はオープンソースであり、ローカル実行は無料・無制限です。コストはモデルのダウンロードに使うインターネット通信費と、推論に使う電力費のみです。なお、ローカルGPUを持たない環境向けには、ホスト型推論サービス「Ollama Cloud」が提供されており、Free($0)・Pro(月$20、約3,000円)・Max(月$100、約15,000円)の固定サブスクプランから選べます(出典:ollama.com/pricing)。クラウドAPIと比較した際のコスト構造については Ollamaの料金体系と他サービスとのコスト比較 で詳しく解説しています。他ツールとの機能比較は Ollamaと競合ツールの比較 を参照してください。

Windowsローカル環境でLLMが推論を処理するイメージ
Windowsローカル環境でLLMが推論を処理するイメージ

まとめ

OllamaをWindowsで使う際のポイントを整理します。

  • 動作要件:RAM 16GB以上、NVIDIAならCUDA対応GPUがあると実用的な速度で動く。
  • インストール:公式インストーラーを実行するだけ。GPUはドライバー更新で自動認識される。
  • 基本操作ollama pullollama run がベース。ollama psでGPU利用確認を忘れずに。
  • API連携localhost:11434のREST APIとOpenAI互換エンドポイントで既存コードにそのまま組み込める。
  • フロントエンド:Open WebUI(Docker)でChatGPTライクなUIを追加できる。
  • モデル選び:用途・スペックに合わせてQwen3・Gemma 4・DeepSeek・Mistralなどを使い分ける。
  • Modelfile:システムプロンプトやパラメータを固定したカスタムモデルを簡単に作れる。

ローカルLLMはセキュリティ・コスト・レイテンシの観点から、業務用途での採用が急増しています。まずは小さいモデルで動作を確認し、用途に合わせてモデルとパラメータを調整していくアプローチが最も失敗が少ないです。Ollamaの全体像については Ollamaとは何か からご確認ください。

関連記事

参考文献

    AIブログ購読

     
    クリスタルメソッドがお届けする
    AIブログの更新通知を受け取る

    Study about AI

    AIについて学ぶ

    • ChatGPT スーパーアプリ活用のメリットと注意点——日本企業の導入判断ガイド

      ChatGPT スーパーアプリ活用のメリットと注意点——日本企業の導入判断ガイド

      監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...

    • Ollama AIエージェント完全ガイド――構築・選定・運用の要点

      Ollama AIエージェント完全ガイド――構築・選定・運用の要点

      監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...

    • ollama rag 構築の完全ガイド|設計・実装・本番運用まで

      ollama rag 構築の完全ガイド|設計・実装・本番運用まで

      監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...

    View more