blog

ollama windowsでローカルLLMを動かす|動作要件・セットアップ・API連携

ollama windowsでローカルLLMを動かす|動作要件・セットアップ・API連携

ollama windowsを動かす前に確認すべき動作要件

OllamaはオープンウェイトのローカルLLMランナーであり、本体(ローカル実行)は無料・無制限で使える(出典:Ollama公式 pricing、2026年6月8日確認)。Windowsへの導入はインストーラーを実行するだけで完結するが、事前に動作要件を把握しておかないとモデルのロードが極端に遅くなるか、メモリ競合でクラッシュする。

項目 最低要件 推奨(実用レベル)
OS Windows 10(64bit) Windows 11
RAM 8GB 16GB以上
ストレージ(空き) 10GB 50GB以上(複数モデル格納時)
GPU(NVIDIA) 不要(CPUのみ可) VRAM 8GB以上・CUDA対応
GPU(AMD) 不要 ROCm対応カード(実験的サポート)
インターネット接続 初回モデルDL時のみ必要

RAM 8GBは「起動する」という意味での最低値に過ぎない。7Bパラメータクラスのモデルを実用的な応答速度で扱うには、OSおよびバックグラウンドプロセスとの競合を考慮してRAM 16GBが実質的な下限と考えたほうがよい。GPU非搭載でもCPUのみで推論は動くが、同規模モデルでGPU推論と比べてトークン生成速度が大きく落ちる。コード補完や対話用途にはVRAM 8GB以上のNVIDIA製GPUが推奨される。

なお、2026年6月時点のOllama本体は0.30系(GGUF/llama.cpp対応強化)で、Apple silicon向けのMLXエンジンも提供されているが、本稿はWindows環境に絞って解説する(出典:Ollama公式ブログ、2026年6月8日確認)。Ollamaの概要・位置づけを先に把握したい場合は、Ollamaとは何か を参照されたい。

ollama windows 動作要件の構成図RAM確認16GB以上推奨GPU確認CUDA対応推奨ストレージ50GB以上推奨インストール可能OllamaSetup.exe実行要件を順に確認してからインストールに進む
ollama windowsインストール前の確認フロー

ollama windowsのインストール手順とGPU有効化

インストール自体はシンプルだが、Windows固有の設定とGPU認識の確認手順を省くと後々問題が起きやすい。詳細な手順はOllamaの導入手順に整理しているが、ここではWindows環境に固有の注意点を中心に記す。

インストール手順

  1. 公式サイト(ollama.com)から「Download for Windows」を選択し、OllamaSetup.exe を取得する。
  2. インストーラーを実行する。UACプロンプトが表示された場合は許可する。管理者権限は原則不要だが、企業端末では権限ポリシーの確認が必要な場合がある。
  3. インストール完了後、タスクトレイにOllamaアイコンが表示され、バックグラウンドサービスが起動する。
  4. コマンドプロンプト(cmd)またはPowerShellを開き、ollama --version を実行する。バージョン番号が表示されれば正常に動作している。

モデルデータのデフォルト保存先は C:\Users\(ユーザー名)\.ollama\models だ。Cドライブの空きが少ない環境では、環境変数 OLLAMA_MODELS を別ドライブのパスに設定しておくと容量管理が楽になる。システム環境変数として設定したうえでOllamaを再起動することで反映される。

NVIDIA GPU(CUDA)の有効化

Ollamaは対応GPUを自動検出するが、ドライバーが古いと認識されない。以下の手順で確認する。

  1. NVIDIAの公式サイトから最新のGPUドライバーをインストールする。
  2. CUDA Toolkit(12.x系)をインストールする。
  3. Ollamaを(再)起動後、任意のモデルを実行する(例:ollama run qwen3:8b)。
  4. 別ターミナルで ollama ps を実行し、「PROCESSOR」列に「100% GPU」と表示されていればGPU推論が有効化されている。

GPU利用率が0%のまま変わらない場合は、nvidia-smi でドライバーが正しく認識されているか確認する。それでも解消しない場合は、Ollamaをアンインストールして再インストールすると改善するケースが多い。

基本コマンドと主要モデルの選び方

OllamaはCLIを中心に操作する。頻出コマンドを体系的に把握しておくことで、モデル管理の手間が大幅に減る。

コマンド 動作 使用例
ollama pull <モデル名> モデルをダウンロード(起動しない) ollama pull qwen3:8b
ollama run <モデル名> DL+対話モードで起動 ollama run gemma4:12b
ollama list ローカル保存済みモデルの一覧
ollama ps メモリに展開中のモデルを確認 GPU利用率の確認に使う
ollama rm <モデル名> モデルを削除してストレージを解放 ollama rm mistral
ollama show <モデル名> モデルの詳細情報を表示 ollama show qwen3:8b

対話モードで使う主なコマンドは /bye(終了)、/clear(履歴リセット)、/set system <テキスト>(システムプロンプト設定)だ。スクリプトから単発で呼び出す場合はパイプを使う。

echo "Pythonでフィボナッチ数列を出力するコードを書いて" | ollama run qwen3:8b

Windows環境でのモデル選定指針

Ollamaはモデルを作らず、外部のオープンウェイトモデルをライブラリ(ollama.com/library)で配布する(出典:Ollama GitHub README、2026年6月8日確認)。2026年6月時点の主要モデルを用途別に整理する。

モデル サイズ目安 必要VRAM目安 得意な用途
Qwen3:8b 約5GB 8GB以上 汎用対話・日本語・推論
Gemma 4:12b 約8GB 12GB以上 推論・ビジョン・多言語
qwen3-coder:30b 約20GB 24GB以上 コーディング・agenticタスク
deepseek-r1:8b 約5GB 8GB以上 数学・推論チェーン
llama3.2:3b 約2GB 4GB以上 軽量・高速な質問応答
nomic-embed-text 274MB 埋め込み生成(RAG構築)

日本語の文章生成・要約・翻訳を主目的とする場合、2026年6月時点ではQwen3系が実用的な精度バランスを持つ。llama3.1やqwen2.5は依然としてpull数が多いが旧世代であり、新規導入では現行世代を選ぶほうが合理的だ(出典:Ollama公式ライブラリ、2026年6月8日確認)。RAGシステムを構築する際は、nomic-embed-textやmxbai-embed-largeなどの埋め込み専用モデルを対話モデルと使い分けるのが標準的な構成だ。ディープラーニングやモデルの動作原理に関する理解を深めたい場合はディープラーニングの仕組みも参照されたい。

なお、Ollamaのモデル系列は更新が速い。2026年6月時点では、旗艦クラスについてはQwen 3.5(マルチモーダル)・Qwen 3.6(agenticコーディング・thinking)が現行であり、Gemmaも4が最新世代だった。

ollama windowsのREST API連携とトラブル対処

OllamaのもっともエンジニアリングTとして重要な特徴が、localhost:11434でOpenAI互換のREST APIを提供している点だ。既存のOpenAI連携コードをほぼそのままローカルLLMに切り替えられる。

APIエンドポイントの構成

エンドポイント 用途
POST /api/generate テキスト生成(単発プロンプト)
POST /api/chat チャット形式(会話履歴を含む)
POST /api/embeddings 埋め込みベクトルの生成
GET /api/tags ローカルモデル一覧の取得
POST /v1/chat/completions OpenAI互換チャット

PowerShellまたはcurlで基本的なリクエストを確認するには以下のようにする。

curl http://localhost:11434/api/generate -d "{\"model\": \"qwen3:8b\", \"prompt\": \"日本語で自己紹介してください\", \"stream\": false}"

OpenAI SDKをそのまま流用したい場合は、base_urlhttp://localhost:11434/v1 に向けるだけで動作する。

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 任意の文字列
)

response = client.chat.completions.create(
    model="qwen3:8b",
    messages=[{"role": "user", "content": "Pythonのリスト内包表記を説明して"}]
)
print(response.choices[0].message.content)

このアーキテクチャにより、クラウドAPIとローカルLLMの切り替えがエンドポイント変更一行で済む。検証環境・開発環境でのコスト削減策として有効だ。APIの詳細な活用方法についてはOllamaの概要と活用パターンも参照されたい。

弊社が開発するDeepAI(バーチャルヒューマン/AIアバターソリューション)では、リップシンク・表情生成・対話AIを組み合わせた構成を採っているが、ローカルLLMとAPI互換レイヤーを活用するアーキテクチャは、このような複合AIシステムの検証フェーズでの導入コスト抑制にも適用できる考え方だ。

Windows固有のトラブルと対処法

Ollamaの開発はLinux・macOSを主軸に進んでおり、Windows版には特有の問題がいくつか存在する。頻出パターンを以下に整理する。

「ollama」コマンドが認識されない:インストール後にシェルを開きなおさずにコマンドを打った場合や、PATHが更新されていない場合に発生する。コマンドプロンプト/PowerShellを再起動するか、Windowsを再起動する。それでも解決しない場合は C:\Users\(ユーザー名)\AppData\Local\Programs\Ollama が環境変数PATHに含まれているかを確認し、手動で追加する。

モデルのロード中にクラッシュする:RAM不足が最も多い原因だ。タスクマネージャーでメモリ使用率を確認し、他のアプリを終了してから再試行する。それでも発生する場合は、より小さいモデルへの変更や量子化済みモデル(Q4など)への切り替えで安定することが多い。

ファイアウォールがAPIポートをブロックする:OllamaはデフォルトでTCPポート11434を使用する。Open WebUIなど外部ツールから接続できない場合は、Windowsファイアウォールの受信規則に11434を追加する。ローカルマシン内で完結する用途であれば基本的に不要だ。

モデルダウンロードが途中で止まる:Ollamaは中断したダウンロードを再開する機能を持つため、ollama pull を再実行するだけで続きから取得される。完全に破損している場合は ollama rm <モデル名> で削除してから取り直す。

セキュリティ観点では、IPA(独立行政法人情報処理推進機構)が脆弱性対策情報を定期的に公開している(出典:IPA 脆弱性対策情報)。ローカルLLMをイントラネットで公開する構成を取る場合は、ポート公開範囲の制限とアクセス制御を適切に設定することが求められる。

Modelfileによるカスタムモデルの作成とコスト構造

OllamaにはModelfileという仕組みがあり、既存モデルにシステムプロンプトや生成パラメータを焼き込んだカスタムモデルを作成できる。社内FAQ対応ボットやコーディングアシスタントを固定の役割で動かすユースケースに適している。

FROM qwen3:8b

SYSTEM """
あなたは社内技術ドキュメントの専門家アシスタントです。
質問には日本語で、箇条書きを使って簡潔に回答してください。
"""

PARAMETER temperature 0.3
PARAMETER top_p 0.9
ollama create my-assistant -f ./Modelfile
ollama run my-assistant

temperature を低く設定するほど出力が決定論的になり、事実確認や社内FAQ対応に向く。創作やアイデア出しには0.7〜1.0程度が適している。GUIで使いたい場合は、Open WebUIをDockerコンテナで起動し http://localhost:3000 からアクセスする構成が事実上の標準だ。GUIフロントエンドの詳細はOllamaとは何かを参照されたい。

コスト構造の考え方

Ollama本体はオープンソースであり、ローカル実行は無料・無制限で使える。コストはモデルダウンロード時の通信費と推論時の電力費のみだ。ローカルGPUを持たない環境向けには、ホスト型推論サービス「Ollama Cloud」が提供されており、固定サブスクで従量超過請求が発生しない設計になっている(出典:Ollama公式 pricing、2026年6月8日確認)。

プラン 月額 同時モデル数 主な用途
Free $0 1 チャット・モデル評価・小型モデルのコーディング
Pro $20(約3,000円) 3 Free比50倍のクラウド利用枠・プライベートモデル共有
Max $100(約15,000円) 10 Pro比5倍の利用枠・常時稼働エージェント等の重負荷
Team Coming soon SSO・MDMインストーラ・優先サポート

料金はUSD基準で円は概算。なお、一部の二次情報でMaxプランが「$200/月」と誤記されているケースが確認されているが、公式価格は$100/月だ(出典:Ollama公式 pricing)。クラウドAPIとのコスト比較についてはOllamaの料金体系と他サービスとのコスト比較で詳しく解説している。他ツールとの機能比較はOllamaと競合ツールの比較も参照されたい。

ollama windowsでローカルLLMが推論を処理するアーキテクチャのイメージ
ollama windowsでローカルLLMが推論を処理するアーキテクチャのイメージ

機械学習やテキストマイニングなど、ローカルLLMと組み合わせる周辺技術についてはテキストマイニング機械学習の基礎も参考になる。

AIの業務活用・導入をご検討の方へ

クリスタルメソッドは、各種LLM・ローカルAI・RAG・AIアバターを活用した業務へのAI導入を支援しています。「自社の業務でどう使えるか」をまずはお気軽にご相談ください。

参考文献

監修

河合 継(クリスタルメソッド株式会社 代表取締役)

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について編集方針

AIブログ購読

 
クリスタルメソッドがお届けする
AIブログの更新通知を受け取る

Study about AI

AIについて学ぶ

  • 大学・高校の面接でよく聞かれる質問と答え方|回答が通用するか確かめる方法

    大学・高校の面接でよく聞かれる質問と答え方|回答が通用するか確かめる方法

    面接の本番まで残り1〜3週間。志望理由書は書き終えたのに、「実際に何を聞かれるか」「自分の答えで大丈夫か」という不安だけが夜になると膨らむ──そういう状態の人に...

  • バイト面接の質問と答え方|面接官が本当に見ているポイント

    バイト面接の質問と答え方|面接官が本当に見ているポイント

    バイト面接の質問と答え方|面接官が本当に見ているポイントをAI開発者が解説 「どんな質問が来るか」はもう調べた。でも、いざ答えようとすると言葉が出てこない——そ...

  • 面接の逆質問|採用する側が評価している視点と、刺さる質問の設計法

    面接の逆質問|採用する側が評価している視点と、刺さる質問の設計法

    「何か質問はありますか?」——この一言を聞くたびに頭が真っ白になる人は少なくない。事前に例文を調べても、どれも使い回し感があって自分の状況に合うか自信が持てない...

View more