blog

Ollamaの導入手順|Mac・Windows・Linux別インストールガイド

監修

河合 継(クリスタルメソッド株式会社 代表取締役)

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について編集方針

本ページはOllamaの「導入・インストール手順」に特化し、macOS・Windows・Linuxそれぞれの具体的な手順とつまずきやすい点を解説します。Ollamaそのものの仕組みや全体像はOllamaとは?仕組み・活用を分かりやすく解説を、WindowsでのGPU有効化や運用の詳細はOllamaをWindowsで使う完全ガイドをご覧ください。

Ollamaとは何か――ローカルLLM実行環境の決定版

Ollamaは、Qwen3・DeepSeek・Gemma 4・gpt-ossといったオープンウェイトの大規模言語モデル(LLM)をインターネット接続なしに自分のマシン上で動かすためのオープンソースランタイムです。コマンド一本でモデルをダウンロードし、即座にチャットやAPI呼び出しが可能になるため、「ローカルLLMを試したいが環境構築で挫折した」という方が最初に選ぶツールとして定番化しています。

本記事では、Ollamaの概要から、macOS・Windows・Linux別の具体的な導入手順、GPU/CPUの動作要件、モデルの取得・管理方法、REST APIの使い方、そしてよくあるトラブルの解消法まで、導入に必要なすべての情報を一記事に網羅します。クラウドAPIに依存せずに社内データを扱いたい開発者・エンジニアの方はぜひ最後まで参照してください。

Ollamaの仕組みとアーキテクチャ

OllamaはGo言語で書かれたサーバープロセスとCLIクライアントで構成されています。内部的にはllama.cppをバックエンドとして利用しており、GGUF形式の量子化モデルを高効率に推論できます。2026年6月時点の最新版はOllama 0.30系で、llama.cpp互換を維持しつつ全体的な推論性能が改善されています。また、Apple Silicon環境ではMLXエンジンを併用することでさらに高速な推論が可能になりました。

CLIコマンド
ollama run / pull / list
Ollamaデーモン
:11434 でHTTP待受
llama.cpp / MLX
GGUF推論エンジン
GPU / CPU
Metal+MLX / CUDA / CPU

デーモンが起動するとhttp://localhost:11434でREST APIが公開されます。CLIはそのAPIへのラッパーに過ぎないため、curlやPythonのrequestsからも直接呼び出し可能です。モデルファイルはGGUF形式で~/.ollama/models/以下に保存され、複数モデルをローカルに蓄積して切り替えて使えます。Apple Siliconマシンでは、Ollama 0.30系からMLXエンジンが活用されることで従来よりも効率的な推論が実現しています。

動作要件と推奨スペック

Ollamaは幅広い環境で動作しますが、快適に使うにはメモリとストレージの確保が重要です。モデルサイズ別の目安を以下にまとめます。

モデル規模 代表例 必要RAM(CPU推論) 必要VRAM(GPU推論) ストレージ
〜3B llama3.2 1B/3B、Qwen3 0.6B〜数B 8 GB以上 4 GB以上 約2〜3 GB
7〜8B Qwen3 8B、deepseek-r1 8B 16 GB以上 8 GB以上 約4〜5 GB
13〜14B Gemma 4 12B、GLM-5.1 14Bなど 32 GB以上 12〜16 GB 約8〜10 GB
70B以上 Qwen3 72B、Kimi-K2.6、deepseek-r1 70B以上 64 GB以上 40 GB以上(複数GPU可) 約40〜45 GB

GPUはNVIDIA(CUDA 11.3以降)・AMD(ROCm 5.7以降)・Apple Silicon(Metal+MLX)をサポートします。GPU非搭載のマシンでもCPUのみで動作しますが、7Bモデルで1トークン/秒程度と推論速度が大幅に落ちます。日常的なコーディング補助や軽いチャット用途には、Apple SiliconのMacBook ProやM4 Mac miniが費用対効果の高い選択肢です。

macOSへの導入手順

macOSはOllamaが最も丁寧にサポートするプラットフォームです。Apple SiliconとIntel両対応のユニバーサルバイナリが配布されており、Ollama 0.30系ではApple SiliconのMLXエンジンを活用した高速推論が利用できます。

  1. インストーラーをダウンロードする
    https://ollama.com/download からmacOS用DMGをダウンロードし、アプリをApplicationsフォルダに移動します。
  2. アプリを起動する
    LaunchpadまたはSpotlightから「Ollama」を起動すると、メニューバーにラマのアイコンが表示されます。この時点でデーモンが自動的に:11434で起動します。
  3. ターミナルでモデルを取得・実行する
    ollama run qwen3:8b を実行すると、モデルのダウンロードが開始し、完了次第インタラクティブなチャットプロンプトが表示されます。

Homebrewを好む場合は以下のコマンドでも導入できます。

brew install ollama
brew services start ollama

Homebrewでインストールした場合はメニューバーアイコンは表示されず、バックグラウンドサービスとして動作します。

Windowsへの導入手順

Windows版のOllamaは安定版として正式サポートされています(要:Windows 10/11 64bit)。NVIDIAのGPUを持つWindowsマシンでは特に高速な推論が期待できます。

  1. インストーラーを取得する
    https://ollama.com/download からWindows用EXEをダウンロードして実行します。インストーラーが自動的にOllamaをシステムに展開し、タスクトレイにアイコンが常駐します。
  2. NVIDIAドライバーを最新化する(GPU使用の場合)
    CUDA対応のためにはNVIDIAドライバー 527.41以降が必要です。GeForce ExperienceまたはNVIDIA公式サイトから更新してください。
  3. PowerShellまたはコマンドプロンプトでモデルを実行する
    ollama run qwen3:8b を実行します。初回は数GBのモデルデータがダウンロードされます。

Windowsでの注意点として、モデルの保存先はデフォルトで%USERPROFILE%\.ollama\modelsになります。Cドライブの空き容量が少ない場合は、環境変数OLLAMA_MODELSに任意のパス(例:D:\ollama\models)を設定することで保存先を変更できます。

Linuxへの導入手順

Linuxへの導入は公式スクリプト一行で完結します。Ubuntu 22.04 LTS / 24.04 LTS・Debian・Fedoraで動作確認されています。

  1. インストールスクリプトを実行する
    curl -fsSL https://ollama.com/install.sh | sh
    スクリプトはアーキテクチャ(x86_64 / arm64)を自動判別し、バイナリを/usr/local/bin/ollamaに配置、systemdサービスとして登録します。インストールされるバージョンは常に最新安定版(現時点では0.30系)です。
  2. サービスの状態を確認する
    systemctl status ollama
    Active: active (running)と表示されれば成功です。
  3. モデルを起動する
    ollama run gemma4

NVIDIA GPUをLinuxで使う場合の追加設定

公式スクリプトはCUDAランタイムを自動検出します。ただしNVIDIAドライバーが未インストールの場合は先に導入が必要です。

# Ubuntuの場合
sudo apt install -y nvidia-driver-535
sudo reboot

再起動後にnvidia-smiでGPUが認識されていることを確認してからollama runを実行してください。ollama run実行中にgpu layers: 33/33のような表示が出ればGPUオフロードが有効になっています。

AMD GPUをLinuxで使う場合

ROCm対応GPUの場合はROCm 5.7以降をインストールしたうえで同じインストール手順で動作します。rocm-smiでデバイスが認識されていれば自動的にROCmバックエンドが使われます。

基本的なモデル操作コマンド

導入後の日常操作に使うCLIコマンドを整理します。

コマンド 説明
ollama run <model> モデルを取得(未取得なら自動ダウンロード)してチャット開始 ollama run qwen3:8b
ollama pull <model> モデルをダウンロードのみ(起動しない) ollama pull qwen3:8b
ollama list ローカルに保存済みのモデル一覧を表示 ollama list
ollama rm <model> ローカルのモデルを削除 ollama rm deepseek-r1
ollama show <model> モデルのメタ情報(パラメーター数・量子化など)を表示 ollama show gemma4
ollama ps 現在メモリにロード中のモデルを表示 ollama ps
ollama serve デーモンのみ起動(CLIと分離して使う際) ollama serve

タグ指定によるモデルバリアントの選択

モデル名の後に:タグを付けることで、量子化レベルやコンテキスト長のバリアントを指定できます。例えばqwen3:8b-instruct-q4_K_Mのように指定すると4bit量子化版を取得できます。タグを省略した場合はデフォルト推奨バリアント(多くはQ4_K_Mまたは相当)が取得されます。

ローカル環境でテキストを処理するLLMのイメージ図
ローカル環境でテキストを処理するLLMのイメージ図

REST APIの使い方

OllamaのデーモンはシンプルなHTTP APIを提供しており、どの言語からでも呼び出せます。主要なエンドポイントは以下の3つです。

/api/generate(テキスト生成)

curl http://localhost:11434/api/generate \
  -d '{
    "model": "gemma4",
    "prompt": "量子コンピュータを小学生向けに説明してください",
    "stream": false
  }'

stream: falseを指定すると完全なレスポンスをJSON一つで受け取れます。stream: true(デフォルト)にするとトークンごとにSSEストリームで流れます。

/api/chat(会話履歴管理)

curl http://localhost:11434/api/chat \
  -d '{
    "model": "gemma4",
    "messages": [
      {"role": "user", "content": "こんにちは、自己紹介してください"}
    ]
  }'

OpenAIの/v1/chat/completionsと同等のmessages形式で会話履歴を渡せます。

OpenAI互換エンドポイント

Ollamaは/v1/chat/completionsなどOpenAI互換のエンドポイントも提供しています。OpenAI公式クライアントやLangChain・LlamaIndexを使っているコードをベースURLだけ変更してそのまま流用できます。

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="dummy"  # Ollamaはキー不要のためダミー値
)

response = client.chat.completions.create(
    model="qwen3:8b",
    messages=[{"role": "user", "content": "Pythonでfizzbuzzを書いて"}]
)
print(response.choices[0].message.content)

カスタムモデルの作成(Modelfile)

Ollamaでは「Modelfile」という設定ファイルを使って、ベースモデルにシステムプロンプトやパラメーターを組み込んだカスタムモデルを作成できます。これにより、特定の役割に特化したモデルをollama run 自社モデル名で呼び出せるようになります。

# Modelfile の例
FROM gemma4

SYSTEM """
あなたはクリスタルメソッドのサポートエージェントです。
AIやバーチャルヒューマンに関する技術的な質問に日本語で丁寧に答えてください。
不明な点は「確認が必要です」と正直に答えてください。
"""

PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 8192

Modelfileを用意したら以下でビルドします。

ollama create crystal-support -f ./Modelfile
ollama run crystal-support

主なModelfileパラメーターの意味は以下の通りです。

パラメーター 意味 推奨値の目安
temperature 出力のランダム性(高いほど創造的、低いほど確定的) 0.1〜0.3(事実応答)/ 0.7〜1.0(創作)
num_ctx コンテキストウィンドウ(処理できるトークン数) 4096〜131072(モデル依存)
top_p 累積確率でトークン候補を絞るnucleus sampling 0.9(汎用)
repeat_penalty 同じトークンの繰り返しを抑制する係数 1.1〜1.3

主要な対応モデル一覧

Ollamaのライブラリ(ollama.com/library)には2026年6月時点で300以上のモデルが公開されています。Qwen3系・gpt-oss・DeepSeek・Gemma 4・Kimi-K2.6・GLM-5.1といった最新世代のオープンウェイトモデルもローカルで実行可能です。よく使われるものを用途別に整理します。

カテゴリ モデル名 特徴
汎用チャット qwen3、gemma4、gpt-oss:20b 指示追従性が高く日本語も一定対応
コーディング qwen3-coder、deepseek-coder-v2、gpt-oss コード補完・デバッグに特化
日本語対応 qwen3:8b、command-r 日本語トークナイザーが充実
軽量・高速 qwen3:0.6b〜数B、llama3.2:1b/3b 4〜8GBのRAMでも動作
推論・論理 deepseek-r1、gpt-oss:20b、kimi-k2.6 思考連鎖(CoT)を内部で展開
大規模・高精度 qwen3:72b、gpt-oss:120b、glm-5.1 高VRAM環境向け最高品質モデル
マルチモーダル gemma4(vision対応版)、qwen3-vl、llava 画像入力に対応
埋め込み生成 nomic-embed-text、mxbai-embed-large RAGのベクトル化に使用

便利なUI・連携ツール

OllamaはAPIを公開しているため、さまざまなフロントエンドやツールと組み合わせることができます。

Open WebUI

Ollamaと最も相性が良いWebチャットUIです。ChatGPT風のインターフェースでモデル切り替え・会話履歴管理・RAG設定が可能です。Dockerがある環境なら以下のコマンドで即座に起動できます。

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

起動後はhttp://localhost:3000にアクセスするとWeb UIが表示されます。

VS Code拡張・Continue

「Continue」はVS Code・JetBrainsのコーディング補助拡張で、バックエンドにOllamaを指定することでGitHub Copilot相当の補完をローカル完結で実現できます。

LangChain / LlamaIndex

どちらもOllamaをネイティブサポートしています。RAGパイプラインや複雑なエージェントをローカルLLMで構築する際の定番です。

トラブルシューティング

「could not connect to ollama app」エラーが出る

デーモンが起動していない状態でCLIコマンドを実行した際に発生します。macOSならアプリを起動、Linux・Homebrewならollama serveまたはsystemctl start ollamaでデーモンを先に起動してください。

モデルのダウンロードが途中で止まる

ネットワーク切断やディスク容量不足が原因のことが多いです。ollama pullはレジュームに対応しているため、再度同じコマンドを実行することで続きからダウンロードを再開できます。

GPUが認識されていない(Linuxの場合)

ollama run実行時のログにcpu layers: 33のように全レイヤーがCPU扱いになっていたら、CUDAドライバーが正しく認識されていません。nvidia-smiを実行してドライバーを確認し、Ollamaデーモンを再起動してください。

推論が遅い・応答が返ってこない

RAM不足でスワップが発生している可能性があります。ollama psでどのモデルがメモリを占有しているか確認し、不要なモデルを/api/generate"keep_alive": 0を送って即時アンロードするか、より小さいモデル(Qを下げたバリアント)に切り替えてください。

外部からAPIにアクセスできない

デフォルトではlocalhost(127.0.0.1)のみバインドされています。LAN内の別のマシンからアクセスしたい場合は環境変数OLLAMA_HOST=0.0.0.0:11434を設定してデーモンを再起動してください。セキュリティ上、インターネット公開する場合は必ずNginx等でリバースプロキシ+認証を設定してください。

ローカルサーバーとモデルデータの流れを示すイメージ
ローカルサーバーとモデルデータの流れを示すイメージ

セキュリティとプライバシーの考慮事項

Ollamaを企業・業務環境で使う最大のメリットは、入力データがOllamaの外部に一切送信されない点です。クラウドLLMサービスへのデータ送信が規約上・コンプライアンス上難しい社内文書・個人情報・機密情報を扱う際に特に有効です。

  • モデルデータはローカルディスクに保存されるため、Ollama社のサーバーに依存しない
  • OLLAMA_HOSTのデフォルトがlocalhostなため、意図せず外部公開されるリスクが低い
  • 使用するモデルのライセンスを確認すること(OpenAI、Google、Alibaba(Qwen)、DeepSeek、MistralAI各社ごとに利用条件が異なる)
  • Ollamaデーモン自体はAPIキー認証を標準では持たないため、ネットワーク境界での制御が重要

まとめ

Ollama 0.30系は「コマンド一本でローカルLLMを動かす」という体験を最大限シンプルにしたツールです。macOS・Windows・Linux共に導入は数分で完了し、llama.cppをバックエンドに持つことでApple SiliconからNVIDIA GPU、CPUオンリーの環境まで幅広くカバーします。Apple SiliconではMLXエンジンの併用により、従来よりも高速な推論が実現しています。

Qwen3系・gpt-oss・DeepSeek・Gemma 4・Kimi-K2.6・GLM-5.1といった2026年時点の最新世代オープンウェイトモデルにも対応しており、ローカル環境でも最先端モデルを試せる環境が整っています。導入後はollama run モデル名でチャット、REST APIで自前アプリへの組み込み、Modelfileでロール定義済みカスタムモデルの作成、と段階的に活用範囲を広げられます。Open WebUIとの組み合わせでノンエンジニアにも使いやすいUI環境を用意するのも容易です。

クラウドAPIに依存せず、自社データを社外に出さずにLLMを活用したい場合、Ollamaはその入口として最も現実的な選択肢の一つです。まずはollama run gemma4ollama run qwen3:8bで動作確認し、用途に合わせてモデルとパラメーターを調整してみてください。

関連記事

関連記事

参考文献

    AIブログ購読

     
    クリスタルメソッドがお届けする
    AIブログの更新通知を受け取る

    Study about AI

    AIについて学ぶ

    • Meta インド データセンター AIインフラ——Reliance 168MW契約の深層と日本企業の実務対応

      Meta インド データセンター AIインフラ——Reliance 168MW契約の深層と日本企業の実務対応

      監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...

    • ワーナー Sureel AI 音楽 著作権——買収の意味と日本企業への示唆

      ワーナー Sureel AI 音楽 著作権——買収の意味と日本企業への示唆

      監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...

    • Vector Lakebase ベクターDB RAG——Zillizが示す統合AIデータ基盤の論点

      Vector Lakebase ベクターDB RAG——Zillizが示す統合AIデータ基盤の論点

      監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...

    View more