blog

ollama インストール完全ガイド|OS別概要とLinux/サーバ導入を詳説

ollama インストール完全ガイド|OS別概要とLinux/サーバ導入を詳説

ollamaインストール前に把握すべき前提と構成

Ollamaは、オープンウェイトLLMをローカル環境で動かすためのランナーツールだ。モデルを自社開発しているわけではなく、Qwen3・gpt-oss・DeepSeek・Gemma 4といった外部のオープンウェイトモデルをollama.com/libraryから取得し、単一コマンドで推論まで完結させる実行基盤として機能する。本体(ローカル実行)は無料・オープンソースであり、自前のハードウェアで動かす限りコストは発生しない(Ollama公式pricing、2026-06-08確認)。

2026年6月時点の本体バージョンは0.30系。GGUF/llama.cpp対応が強化され、Apple Silicon向けにはMLXエンジンも提供されている(Ollama公式blog、2026-06-08確認)。インストール手順自体は単純だが、Linux/サーバ環境では「systemdサービスとしての常駐」「GPU認識と適切なドライバ構成」「外部API公開とセキュリティ」という三つのレイヤーで設計判断が必要になる。本記事はこの三点を軸にLinux導入を詳説する。

Ollamaのアーキテクチャや概念を事前に把握しておきたい場合はOllamaの概要・仕組み解説を参照されたい。インストール後のモデル操作・API呼び出しの実践はOllamaセットアップ・使い方ガイドで扱う。

macOSDMGインストーラまたは curl スクリプトMLXエンジン対応詳細は別記事へWindowsOllamaSetup.exeワンクリック完了CUDA/ROCm自動検出詳細は別記事へLinux / サーバ(本記事で詳説)curl install.sh → systemd自動生成NVIDIA CUDA / AMD ROCm 自動認識環境変数で外部API公開・並列制御Docker/コンテナ構成にも対応セキュリティ:認証レイヤーの追加必須バージョン: 0.30系(2026-06時点)
Ollamaのインストール構成概要。macOS・WindowsはGUI主体の簡易手順、Linux/サーバはsystemd統合・GPU設定・セキュリティの三層で判断が必要になる。

OS別インストール手順の概要と選択指針

macOS

Apple Silicon(M1〜M4系)とIntel Mac双方をサポートする。公式サイトからDMGパッケージをダウンロードしてアプリケーションフォルダに配置する方法が主流だ。インストール後はシステムトレイにアイコンが常駐し、モデルのバックグラウンド待機(デフォルトで最終リクエストから5分後にアンロード)が自動管理される。Apple Silicon向けにはMLXエンジンが提供されており、Metal GPUの性能を直接活かせる。macOS固有のパフォーマンスチューニングは別記事に譲る。

Windows

ollama.com/download/windowsからOllamaSetup.exeを取得し、UACプロンプトを承認して実行するだけで完了する。NVIDIA GPU(CUDA)とAMD GPU(ROCm)を自動検出するが、ドライバのバージョン要件が存在するため事前確認が必要だ。Windows固有の注意点やWSL2との使い分けは別記事で詳説する。

Linux・サーバ環境

本記事が詳説する対象。インストールスクリプトがsystemdサービスを自動生成し、GPU検出からAPI公開まで一貫して設定できる。開発機・推論サーバ・オンプレRAGシステムのいずれにも対応できる柔軟さを持つ。日本原子力研究開発機構(JAEA)の技術報告書では、スーパーコンピュータを用いたオンプレミス生成AI基盤としてOllamaベースの構成が検討されており、Linux環境での大規模導入の実用性が示されている(JAEA-Technology-2025-017、jopss.jaea.go.jp)。

LinuxへのOllamaインストール:手順と詳細設定

1. インストールスクリプトの実行

公式が推奨するインストール方法は以下の一行だ(Ollama GitHub、2026-06-08確認)。

curl -fsSL https://ollama.com/install.sh | sh

このスクリプトは次を自動で処理する。

  • アーキテクチャ(x86_64 / arm64)の検出と対応バイナリの取得
  • NVIDIA CUDAライブラリの存在確認とGPUサポートの有効化
  • AMD ROCmの検出(対応GPUがあれば自動構成)
  • /etc/systemd/system/ollama.serviceの生成と専用ユーザollamaの作成
  • systemctl enable --now ollamaの実行によるサービスの即時起動

インストール完了後、ollama run qwen3:4bのように実行するとモデルのダウンロードと推論が開始される。初回は数GBのダウンロードが発生するため、ディスク残量と帯域を事前に確認しておくこと。

2. GPUの認識確認と失敗時の対処

NVIDIAの場合、インストール完了後にjournalctl -u ollama -n 50でログを確認し、GPU: NVIDIAの記載があれば認識済だ。認識されない主因は次の二点に絞られる。

  • CUDAドライバが古い、または未インストールnvidia-smiでドライババージョンを確認し、不足ならapt install nvidia-driver-***等で更新する
  • ドライバインストール後に再起動していない:カーネルモジュールの再ロードが必要なため、スクリプト実行前にrebootを挟む

AMDの場合はROCmランタイムのバージョン要件を公式GitHubのREADMEで確認する。GPUが認識されないままでもCPUフォールバックで動作するが、推論速度は大幅に低下するため、本番サーバでは必ずログを確認してから運用に入ること。

3. systemdサービスのカスタマイズ(drop-in方式)

自動生成されたサービスファイルを直接編集すると、パッケージ更新時に上書きされるリスクがある。サーバ用途では以下のようにdrop-inファイルで上書きするのが保守しやすい。

sudo mkdir -p /etc/systemd/system/ollama.service.d
sudo tee /etc/systemd/system/ollama.service.d/override.conf <<'EOF'
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_MODELS=/mnt/models"
Environment="OLLAMA_NUM_PARALLEL=4"
EOF
sudo systemctl daemon-reload && sudo systemctl restart ollama

4. 主要な環境変数と用途

OllamaをLinuxサーバで運用する際の主要環境変数(2026-06時点、公式GitHub準拠)
環境変数 デフォルト値 主な用途
OLLAMA_HOST 127.0.0.1:11434 外部からのAPI受け付け。0.0.0.0:11434で全インターフェース公開(後述のセキュリティ設定が必須)
OLLAMA_MODELS /usr/share/ollama/.ollama/models モデル保存先を大容量ディスクへ変更。NFS・外付けSSDへのマウントポイント指定に使う
OLLAMA_NUM_PARALLEL 1(CPU時) 並列リクエスト数の上限。複数クライアントから同時アクセスする構成では調整が必要
OLLAMA_MAX_LOADED_MODELS 1(GPU時) VRAM内に同時保持するモデル数。複数モデルを切り替えて使う場合に増やす
OLLAMA_KEEP_ALIVE 5m 最終リクエスト後にモデルをVRAMに保持する時間。常駐させたい場合は-1(無制限)を指定
OLLAMA_ORIGINS (制限あり) CORS許可オリジンの設定。フロントエンドから直接APIを呼ぶ構成で必要になる

5. 外部公開時のセキュリティ設計

OLLAMA_HOST=0.0.0.0で公開する場合、11434番ポートには認証機構が標準では存在しない。インターネットに直接露出させると、不正なAPIアクセスやモデルの無制限利用を招くリスクがある。IPAが示す脆弱性対策の観点からも、ネットワーク境界での制御と認証レイヤーの追加は必須だ(IPA 脆弱性対策情報、ipa.go.jp)。

  • ファイアウォール(ufw / iptables / クラウドのセキュリティグループ)で11434番ポートを信頼済みIPに制限する
  • 外部公開が必要な場合はnginxをリバースプロキシとして前段に置き、Basic認証またはトークン認証を追加する
  • Dockerコンテナで動かす場合は--networkオプションで不要な公開を抑え、コンテナ間通信に留める

6. Dockerでのインストール

systemdが使えないコンテナ基盤や、既存のDocker Composeスタックに組み込む場合は公式Dockerイメージを利用する。

# CPU版
docker run -d \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama ollama/ollama

# NVIDIA GPU版(nvidia-container-toolkitが前提)
docker run -d \
  --gpus=all \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama ollama/ollama

ボリュームをホストの実ディレクトリに変更することで、コンテナを再作成してもモデルの再ダウンロードが不要になる。図書館サービスへのRAG型チャットボット構築事例でもDockerベースのOllama構成が採用されており(Difyで作成した図書館サービスへの質問に回答するRAG型チャットボット、jstage.jst.go.jp)、実用環境でのコンテナ化の有効性が確認されている。

インストール後の動作確認とトレードオフの整理

基本的な動作確認手順

# サービスの状態確認
systemctl status ollama

# APIエンドポイントの応答確認(タグ一覧が返ればサービス起動済)
curl http://localhost:11434/api/tags

# モデルの取得と推論(初回はダウンロードが走る)
ollama run qwen3:4b "日本語で自己紹介してください"

よくある失敗パターンと対処

GPUが認識されずCPUで動く:CUDAドライバが古い、またはROCmランタイム未インストールが主因だ。journalctl -u ollama -n 50でエラー行を特定し、ドライバを更新して再起動する。

モデルダウンロードが中断されるOLLAMA_MODELSが指すディスクの空き容量不足が多い。4Bクラスのモデルで約2〜3GB、8Bクラスで約5GB、32Bクラスでは20GB以上を要する。ダウンロードは中断箇所から再開できるため、容量を確保したうえで再実行すればよい。

外部からAPIに到達しないOLLAMA_HOSTがデフォルトの127.0.0.1のままか、ファイアウォールが11434番を遮断している。前者はdrop-inファイルで修正し、後者はufw allow from <信頼IP> to any port 11434等で対処する。

バージョンが古く新モデルが動かないollama --versionで確認し、0.30系未満であれば再度インストールスクリプトを実行するか、公式GitHubからバイナリを直接取得して差し替える。Zennの解説記事でも「Ollamaは活発に開発されており、バージョンは随時確認を」と注意喚起されている(§2 Ollamaの導入|Ollamaで体験する国産LLM入門、zenn.dev)。

ローカル運用 vs Ollama Cloud:選択のトレードオフ

サーバ維持コストや管理負荷が課題になる場合、Ollama Cloudのホスト型推論という選択肢がある。料金は固定制でFree($0)・Pro(月$20)・Max(月$100)の三プランが提供されており、従量による予期せぬ課金は発生しない設計だ(Ollama公式pricing)。ただしデータをクラウドに送信するため、機密情報を扱う環境やプライバシー要件が厳しいシステムではローカル運用が原則となる。料金体系の詳細はOllama料金・プラン比較で整理している。

OllamaをベースにしたローカルLLM活用の技術的な文脈については機械学習の活用ガイドディープラーニング実践解説も参考になる。テキストデータの前処理・活用に取り組む場合はテキストマイニング解説も合わせて参照されたい。

弊社クリスタルメソッドが開発するDeepAIは、実在人物の容姿・表情・声・振る舞いをデジタル空間で再現するバーチャルヒューマン/AIアバターソリューションだ。接客・研修・面接練習・広報用途での活用を想定しており、ローカルLLMとバーチャルヒューマンの統合に関心のある技術担当者はCrystal Methodブログを参照されたい。


AIの業務活用・導入をご検討の方へ

クリスタルメソッドは、各種LLM・ローカルAI・RAG・AIアバターを活用した業務へのAI導入を支援しています。「自社の業務でどう使えるか」をまずはお気軽にご相談ください。

参考文献

監修

河合 継(クリスタルメソッド株式会社 代表取締役)

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について編集方針

AIブログ購読

 
クリスタルメソッドがお届けする
AIブログの更新通知を受け取る

Study about AI

AIについて学ぶ

  • Grokのコンパニオンモード(Ani)とは?使い方と注意点をやさしく解説【2026年版】

    Grokのコンパニオンモード(Ani)とは?使い方と注意点をやさしく解説【2026年版】

    「Grokのアプリに、アニメ風のキャラクターと会話できる機能があるらしい」——それがGrokのコンパニオンモードです。代表キャラクターのAni(アニ)を中心に、...

  • チャットGPTの危険性とは?5つのリスクと安全に使う判断基準【2026年版】

    チャットGPTの危険性とは?5つのリスクと安全に使う判断基準【2026年版】

    チャットGPTの危険性を正しく理解するために 「ChatGPTは危険なのか」という問いに、単純なyes/noは存在しない。正確に言えば、使い方と文脈によってリス...

  • ChatGPTプロンプトの書き方と用途別の例文集【2026年版】

    ChatGPTプロンプトの書き方と用途別の例文集【2026年版】

    ChatGPTプロンプトを構成する4要素と基本フレーム ChatGPTに良質なアウトプットを出させるには、プロンプト(指示文)の構造を整えることが最初の一歩とな...

View more