blog

AIブログ

ollama windowsでローカルLLMを動かす｜動作要件・セットアップ・API連携

ollama windowsを動かす前に確認すべき動作要件

本稿はローカルLLMランナー Ollama をWindowsで動かす手順に絞って解説する。Ollama自体の概要・ライセンス・料金体系はOllamaとは何かに譲る。Windowsへの導入はインストーラーを実行するだけで完結するが、事前に動作要件を把握しておかないとモデルのロードが極端に遅くなるか、メモリ競合でクラッシュする。

項目	最低要件	推奨（実用レベル）
OS	Windows 10（64bit）	Windows 11
RAM	8GB	16GB以上
ストレージ（空き）	10GB	50GB以上（複数モデル格納時）
GPU（NVIDIA）	不要（CPUのみ可）	VRAM 8GB以上・CUDA対応
GPU（AMD）	不要	ROCm対応カード（実験的サポート）
インターネット接続	初回モデルDL時のみ必要	—

RAM 8GBは「起動する」という意味での最低値に過ぎない。7Bパラメータクラスのモデルを実用的な応答速度で扱うには、OSおよびバックグラウンドプロセスとの競合を考慮してRAM 16GBが実質的な下限と考えたほうがよい。GPU非搭載でもCPUのみで推論は動くが、同規模モデルでGPU推論と比べてトークン生成速度が大きく落ちる。コード補完や対話用途にはVRAM 8GB以上のNVIDIA製GPUが推奨される。

なお、2026年6月時点のOllama本体は0.30系（GGUF/llama.cpp対応強化）で、Apple silicon向けのMLXエンジンも提供されているが、本稿はWindows環境に絞って解説する（出典：Ollama公式ブログ、2026年6月8日確認）。Ollamaの概要・位置づけを先に把握したい場合は、Ollamaとは何かを参照されたい。

ollama windowsインストール前の確認フロー

ollama windowsのインストール手順とGPU有効化

インストール自体はシンプルだが、Windows固有の設定とGPU認識の確認手順を省くと後々問題が起きやすい。詳細な手順はOllamaの導入手順に整理しているが、ここではWindows環境に固有の注意点を中心に記す。

インストール手順

公式サイト（ollama.com）から「Download for Windows」を選択し、OllamaSetup.exe を取得する。
インストーラーを実行する。UACプロンプトが表示された場合は許可する。管理者権限は原則不要だが、企業端末では権限ポリシーの確認が必要な場合がある。
インストール完了後、タスクトレイにOllamaアイコンが表示され、バックグラウンドサービスが起動する。
コマンドプロンプト（cmd）またはPowerShellを開き、ollama --version を実行する。バージョン番号が表示されれば正常に動作している。

モデルデータのデフォルト保存先は C:\Users\（ユーザー名）\.ollama\models だ。Cドライブの空きが少ない環境では、環境変数 OLLAMA_MODELS を別ドライブのパスに設定しておくと容量管理が楽になる。システム環境変数として設定したうえでOllamaを再起動することで反映される。

NVIDIA GPU（CUDA）の有効化

Ollamaは対応GPUを自動検出するが、ドライバーが古いと認識されない。以下の手順で確認する。

NVIDIAの公式サイトから最新のGPUドライバーをインストールする。
CUDA Toolkit（12.x系）をインストールする。
Ollamaを（再）起動後、任意のモデルを実行する（例：ollama run qwen3:8b）。
別ターミナルで ollama ps を実行し、「PROCESSOR」列に「100% GPU」と表示されていればGPU推論が有効化されている。

GPU利用率が0%のまま変わらない場合は、nvidia-smi でドライバーが正しく認識されているか確認する。それでも解消しない場合は、Ollamaをアンインストールして再インストールすると改善するケースが多い。

基本コマンドと主要モデルの選び方

OllamaはCLIを中心に操作する。頻出コマンドを体系的に把握しておくことで、モデル管理の手間が大幅に減る。

コマンド	動作	使用例
`ollama pull <モデル名>`	モデルをダウンロード（起動しない）	`ollama pull qwen3:8b`
`ollama run <モデル名>`	DL＋対話モードで起動	`ollama run gemma4:12b`
`ollama list`	ローカル保存済みモデルの一覧	—
`ollama ps`	メモリに展開中のモデルを確認	GPU利用率の確認に使う
`ollama rm <モデル名>`	モデルを削除してストレージを解放	`ollama rm mistral`
`ollama show <モデル名>`	モデルの詳細情報を表示	`ollama show qwen3:8b`

対話モードで使う主なコマンドは /bye（終了）、/clear（履歴リセット）、/set system <テキスト>（システムプロンプト設定）だ。スクリプトから単発で呼び出す場合はパイプを使う。

echo "Pythonでフィボナッチ数列を出力するコードを書いて" | ollama run qwen3:8b

Windows環境でのモデル選定指針

Ollamaはモデルを作らず、外部のオープンウェイトモデルをライブラリ（ollama.com/library）で配布する（出典：Ollama GitHub README、2026年6月8日確認）。2026年6月時点の主要モデルを用途別に整理する。

モデル	サイズ目安	必要VRAM目安	得意な用途
Qwen3:8b	約5GB	8GB以上	汎用対話・日本語・推論
Gemma 4:12b	約8GB	12GB以上	推論・ビジョン・多言語
qwen3-coder:30b	約20GB	24GB以上	コーディング・agenticタスク
deepseek-r1:8b	約5GB	8GB以上	数学・推論チェーン
llama3.2:3b	約2GB	4GB以上	軽量・高速な質問応答
nomic-embed-text	274MB	—	埋め込み生成（RAG構築）

日本語の文章生成・要約・翻訳を主目的とする場合、2026年6月時点ではQwen3系が実用的な精度バランスを持つ。llama3.1やqwen2.5は依然としてpull数が多いが旧世代であり、新規導入では現行世代を選ぶほうが合理的だ（出典：Ollama公式ライブラリ、2026年6月8日確認）。RAGシステムを構築する際は、nomic-embed-textやmxbai-embed-largeなどの埋め込み専用モデルを対話モデルと使い分けるのが標準的な構成だ。ディープラーニングやモデルの動作原理に関する理解を深めたい場合はディープラーニングの仕組みも参照されたい。

なお、Ollamaのモデル系列は更新が速い。2026年6月時点では、旗艦クラスについてはQwen 3.5（マルチモーダル）・Qwen 3.6（agenticコーディング・thinking）が現行であり、Gemmaも4が最新世代だった。

ローカルLLMの導入やRAG構築をご検討の方は、AI開発会社クリスタルメソッドの無料相談をご利用ください。

ollama windowsのREST API連携とトラブル対処

OllamaのもっともエンジニアリングTとして重要な特徴が、localhost:11434でOpenAI互換のREST APIを提供している点だ。既存のOpenAI連携コードをほぼそのままローカルLLMに切り替えられる。

APIエンドポイントの構成

エンドポイント	用途
`POST /api/generate`	テキスト生成（単発プロンプト）
`POST /api/chat`	チャット形式（会話履歴を含む）
`POST /api/embeddings`	埋め込みベクトルの生成
`GET /api/tags`	ローカルモデル一覧の取得
`POST /v1/chat/completions`	OpenAI互換チャット

PowerShellまたはcurlで基本的なリクエストを確認するには以下のようにする。

curl http://localhost:11434/api/generate -d "{\"model\": \"qwen3:8b\", \"prompt\": \"日本語で自己紹介してください\", \"stream\": false}"

OpenAI SDKをそのまま流用したい場合は、base_url を http://localhost:11434/v1 に向けるだけで動作する。

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 任意の文字列
)

response = client.chat.completions.create(
    model="qwen3:8b",
    messages=[{"role": "user", "content": "Pythonのリスト内包表記を説明して"}]
)
print(response.choices[0].message.content)

このアーキテクチャにより、クラウドAPIとローカルLLMの切り替えがエンドポイント変更一行で済む。検証環境・開発環境でのコスト削減策として有効だ。APIの詳細な活用方法についてはOllamaの概要と活用パターンも参照されたい。

弊社が開発するDeepAI（バーチャルヒューマン／AIアバターソリューション）では、リップシンク・表情生成・対話AIを組み合わせた構成を採っているが、ローカルLLMとAPI互換レイヤーを活用するアーキテクチャは、このような複合AIシステムの検証フェーズでの導入コスト抑制にも適用できる考え方だ。

Windows固有のトラブルと対処法

Ollamaの開発はLinux・macOSを主軸に進んでおり、Windows版には特有の問題がいくつか存在する。頻出パターンを以下に整理する。

「ollama」コマンドが認識されない：インストール後にシェルを開きなおさずにコマンドを打った場合や、PATHが更新されていない場合に発生する。コマンドプロンプト／PowerShellを再起動するか、Windowsを再起動する。それでも解決しない場合は C:\Users\（ユーザー名）\AppData\Local\Programs\Ollama が環境変数PATHに含まれているかを確認し、手動で追加する。

モデルのロード中にクラッシュする：RAM不足が最も多い原因だ。タスクマネージャーでメモリ使用率を確認し、他のアプリを終了してから再試行する。それでも発生する場合は、より小さいモデルへの変更や量子化済みモデル（Q4など）への切り替えで安定することが多い。

ファイアウォールがAPIポートをブロックする：OllamaはデフォルトでTCPポート11434を使用する。Open WebUIなど外部ツールから接続できない場合は、Windowsファイアウォールの受信規則に11434を追加する。ローカルマシン内で完結する用途であれば基本的に不要だ。

モデルダウンロードが途中で止まる：Ollamaは中断したダウンロードを再開する機能を持つため、ollama pull を再実行するだけで続きから取得される。完全に破損している場合は ollama rm <モデル名> で削除してから取り直す。

セキュリティ観点では、IPA（独立行政法人情報処理推進機構）が脆弱性対策情報を定期的に公開している（出典：IPA 脆弱性対策情報）。ローカルLLMをイントラネットで公開する構成を取る場合は、ポート公開範囲の制限とアクセス制御を適切に設定することが求められる。

Modelfileによるカスタムモデルの作成とコスト構造

OllamaにはModelfileという仕組みがあり、既存モデルにシステムプロンプトや生成パラメータを焼き込んだカスタムモデルを作成できる。社内FAQ対応ボットやコーディングアシスタントを固定の役割で動かすユースケースに適している。

FROM qwen3:8b

SYSTEM """
あなたは社内技術ドキュメントの専門家アシスタントです。
質問には日本語で、箇条書きを使って簡潔に回答してください。
"""

PARAMETER temperature 0.3
PARAMETER top_p 0.9

ollama create my-assistant -f ./Modelfile
ollama run my-assistant

temperature を低く設定するほど出力が決定論的になり、事実確認や社内FAQ対応に向く。創作やアイデア出しには0.7〜1.0程度が適している。GUIで使いたい場合は、Open WebUIをDockerコンテナで起動し http://localhost:3000 からアクセスする構成が事実上の標準だ。GUIフロントエンドの詳細はOllamaとは何かを参照されたい。

コスト構造の考え方

Ollama本体はオープンソースであり、ローカル実行は無料・無制限で使える。コストはモデルダウンロード時の通信費と推論時の電力費のみだ。ローカルGPUを持たない環境向けには、ホスト型推論サービス「Ollama Cloud」が提供されており、固定サブスクで従量超過請求が発生しない設計になっている（出典：Ollama公式 pricing、2026年6月8日確認）。

プラン	月額	同時モデル数	主な用途
Free	$0	1	チャット・モデル評価・小型モデルのコーディング
Pro	$20（約3,000円）	3	Free比50倍のクラウド利用枠・プライベートモデル共有
Max	$100（約15,000円）	10	Pro比5倍の利用枠・常時稼働エージェント等の重負荷
Team	Coming soon	—	SSO・MDMインストーラ・優先サポート

料金はUSD基準で円は概算。なお、一部の二次情報でMaxプランが「$200/月」と誤記されているケースが確認されているが、公式価格は$100/月だ（出典：Ollama公式 pricing）。クラウドAPIとのコスト比較についてはOllamaの料金体系と他サービスとのコスト比較で詳しく解説している。他ツールとの機能比較はOllamaと競合ツールの比較も参照されたい。

ollama windowsでローカルLLMが推論を処理するアーキテクチャのイメージ

機械学習やテキストマイニングなど、ローカルLLMと組み合わせる周辺技術についてはテキストマイニングや機械学習の基礎も参考になる。

AIの業務活用・導入をご検討の方へ

クリスタルメソッドは、各種LLM・ローカルAI・RAG・AIアバターを活用した業務へのAI導入を支援しています。「自社の業務でどう使えるか」をまずはお気軽にご相談ください。

無料相談・お問い合わせ：ご相談はこちら
基礎から知る：Ollamaとは

参考文献

Ollama公式 pricing：https://ollama.com/pricing（2026年6月8日確認）
Ollama公式ライブラリ（newest）：https://ollama.com/library?sort=newest（2026年6月8日確認）
Ollama公式ブログ：https://ollama.com/blog（2026年6月8日確認）
Ollama GitHub README：https://github.com/ollama/ollama（2026年6月8日確認）
IPA 独立行政法人情報処理推進機構脆弱性対策情報：https://www.ipa.go.jp/security/vuln/index.html

インストール完全ガイド

監修

河合継（クリスタルメソッド株式会社代表取締役）

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について｜編集方針

Study about AI

AIについて学ぶ

Claude Opus 5 活用方法と企業導入ロードマップ：コスト半減と自律運用の最適解

Anthropicが発表した「Claude Opus 5」の概要 Anthropicは、同社の最新かつ最上位のフラッグシップAIモデルである「Claude Op...
OpenAIの音声エージェント開発を企業が導入する基準：新基盤「Presence」の衝撃

OpenAIの音声エージェント開発を企業が導入する基準：新基盤「Presence」の衝撃 AI技術の進展に伴い、企業のカスタマーサポートやセールス活動における自...
AI 暴走リスクセキュリティ対策：OpenAI自律ハッキング事案から学ぶ企業の防衛策

人工知能（AI）技術の進化は、業務効率化や意思決定の迅速化に大きく貢献する一方で、これまでにない新たな脅威をもたらしています。特に、自律的に判断して行動する「A...