blog

AIブログ

Ollama 使い方完全ガイド｜モデル実行・管理・API連携の基本操作

Ollama 使い方の全体像：インストール後に最初に覚えるコマンド

Ollama はローカル環境でオープンウェイトLLMを動かすためのランナーツールだ。インストールが完了した後、実際の業務で使いこなすには「モデルの取得・実行・管理」と「APIによるプログラム連携」の二軸を押さえれば大半のユースケースに対応できる。

インストール手順そのものは別記事に譲る（Ollama セットアップ手順、および Ollama の基礎知識を参照）。この記事では「インストール済みの状態から、どう動かすか」に集中する。

まず Ollama の基本操作フローを俯瞰する。

図1：Ollama の基本操作フロー。pull でモデルを取得し、run で実行、list で管理、REST API でプログラムから呼び出す。（出典：Ollama公式 GitHub README、https://github.com/ollama/ollama、2026-06-08取得）

以下、各ステップを順に解説する。

ollama pull / run / list：Ollama 使い方の基本コマンド

モデルを取得する：ollama pull

モデルはまず ollama pull でローカルに落とすことから始まる。

ollama pull llama3.2
ollama pull qwen3:8b
ollama pull deepseek-r1:7b

モデル名の後ろにコロンでタグ（パラメータ数やバリアント）を指定する。タグを省略すると、そのモデルのデフォルトタグが選ばれる。利用可能なモデルとタグの一覧は ollama.com/library（Ollama公式ライブラリ）で確認できる（出典：Ollama公式 GitHub README、https://github.com/ollama/ollama、2026-06-08取得）。

2026年6月時点でプル数の多い主要モデル系列は Qwen3（30.4M+ pulls）、DeepSeek-R1（87.1M+ pulls）などだ（出典：Ollama公式ライブラリ、https://ollama.com/library、2026-06-08取得）。ただし、モデル系列の更新は速く、現行の主力は Qwen3.5/3.6 や Gemma 4 など新世代に移っている点に注意が必要だ。

なお、Ollama 自体はモデルを開発しておらず、外部のオープンウェイトモデルをライブラリ経由で配布する役割を担う。「Ollama 公式モデル」という概念はなく、正確には「Ollama ライブラリで配布される Qwen3 / DeepSeek / Gemma 等」と理解すると混乱しない。

モデルを実行する：ollama run

# インタラクティブな対話モードで起動
ollama run qwen3:8b

# プロンプトを引数に渡して一発実行
ollama run qwen3:8b "日本語で要約してください：（本文）"

ollama run はモデルがローカルになければ自動的に pull してから起動する。引数なしで実行するとインタラクティブな対話モードに入り、引数にプロンプトを渡すと一発実行して終了する。

対話モードで頻繁に使うコマンドは以下の通りだ。

/bye：セッションを終了する
/clear：会話履歴をリセットする
/set system "..."：システムプロンプトをその場で設定する
/show info：現在読み込まれているモデル情報を表示する

複数行にわたる長いプロンプトは三重クォートで囲む方法が実務では扱いやすい。

ollama run qwen3:8b """
以下の文章を3点に箇条書きでまとめてください。

（本文をここに貼り付ける）
"""

この書式は、ドキュメント要約・コードレビュー依頼・長文翻訳など、テキストをそのままモデルに流し込む場面で特に便利だ（出典：saiteki-ai.com「ollama runの使い方完全ガイド」、https://saiteki-ai.com/basics/ai-tool/ollama/ollama-run/、2026-06取得）。

ローカルモデルを管理する：ollama list / rm / cp / ps

# 取得済みモデルの一覧表示
ollama list

# 不要なモデルの削除
ollama rm llama3.1:8b

# モデルのコピー（Modelfileのベースとして使う場合など）
ollama cp qwen3:8b my-qwen3-tuned

# 現在メモリに読み込まれているモデルと使用量の確認
ollama ps

ollama list は名前・タグ・サイズ・更新日時を一覧表示する。モデルファイルはサイズが大きく（7〜8B の量子化済みモデルで 4〜5GB 程度）、ストレージを圧迫しやすい。使わなくなったモデルは定期的に rm で整理する習慣を持つと、ディスクの無駄遣いを防げる。ollama ps はメモリ使用状況のトラブルシューティングにも有効だ。

Modelfile で Ollama の使い方を応用する：カスタムモデルのビルド

Ollama の実用上の強みの一つが Modelfile だ。Dockerfile に似た宣言的な書式で、ベースモデル・システムプロンプト・パラメータ・停止シーケンスを定義し、専用モデルとしてビルドできる。

以下は、日本語での応答を基本とするカスタムモデルの Modelfile 例だ。

FROM qwen3:8b

SYSTEM """
あなたは日本語専門のテクニカルライターです。
簡潔・正確・丁寧な文体で回答してください。
"""

PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER stop "User:"
PARAMETER stop "AI:"

作成後は ollama create でビルドし、通常通り run で呼び出せる。

ollama create my-jp-writer -f ./Modelfile
ollama run my-jp-writer

Modelfile が特に力を発揮するのは次のような場面だ。

チームで同じシステムプロンプト設定を共有したい場合
アプリケーションに組み込む際のデフォルト挙動をコードとして固定したい場合
用途ごとに temperature や stop シーケンスを変えた複数の「キャラクター」を管理したい場合

Modelfile はテキストファイルなので Git で差分管理できる。プロンプトエンジニアリングの試行錯誤をバージョン管理に乗せられる点は、チーム運用において評価されやすい。

なお、Modelfile の FROM に指定できるのは、ローカルに取得済みのモデルタグか、Ollama ライブラリに登録されているモデル名だ。存在しないタグを指定するとビルドエラーになるため、事前に ollama list または公式ライブラリで確認する。

REST API・OpenAI互換API：Ollama 使い方のプログラム統合

Ollama はモデルを起動すると、デフォルトで http://localhost:11434 にHTTPサーバーが立ち上がる。このエンドポイントに REST API を叩くことで、任意のプログラムからモデルを利用できる。

ネイティブ REST API

テキスト生成には /api/generate、チャット形式には /api/chat を使う。

# テキスト生成（ストリーミングなし）
curl http://localhost:11434/api/generate \
  -d '{
    "model": "qwen3:8b",
    "prompt": "Pythonでフィボナッチ数列を実装してください",
    "stream": false
  }'

# チャット形式（複数ターン）
curl http://localhost:11434/api/chat \
  -d '{
    "model": "qwen3:8b",
    "messages": [
      {"role": "user", "content": "こんにちは"}
    ],
    "stream": false
  }'

stream: false で完全な応答をまとめて受け取る。デフォルト（stream: true）ではトークン単位でストリーミングされる。バッチ処理では stream: false の方が扱いやすい場面が多い。

OpenAI互換APIによる呼び出し

Ollama は OpenAI の Chat Completions API と互換性のあるエンドポイント（/v1/chat/completions）を提供している。既存の OpenAI SDK やライブラリの base_url を差し替えるだけで、ローカルモデルへの切り替えが可能だ（出典：DevelopersIO「2026年のローカルLLM事情を整理してみた」、https://dev.classmethod.jp/articles/local-llm-guide-2026/、2026-06取得）。

Python（openai ライブラリ）での実装例：

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama",  # ローカルでは認証不要のため任意の文字列でよい
)

response = client.chat.completions.create(
    model="qwen3:8b",
    messages=[
        {"role": "system", "content": "簡潔に答えてください"},
        {"role": "user", "content": "Ollamaの特徴を3行で説明してください"}
    ]
)
print(response.choices[0].message.content)

LangChain や LlamaIndex など主要なLLMオーケストレーションフレームワークも、Ollama の OpenAI互換エンドポイントを直接サポートしている。既存の OpenAI ベースのコードベースをほぼそのままローカルに移植できる点は、移行コストを抑える上で大きな利点だ。

主要モデルの用途別選定目安（2026年6月時点）

どのモデルを ollama pull すべきか迷うことは多い。以下に実用的な選定目安を示す。サイズはおおよその目安であり、タグ・量子化レベルによって変動する。

用途	推奨モデル例	目安サイズ	備考
汎用・日本語テキスト	qwen3:8b	〜5GB	8GB RAM 環境でも動作しやすい
推論・ステップ思考	deepseek-r1:7b	〜4.5GB	thinking モード内蔵
コーディング	qwen3-coder:30b deepseek-coder-v2	16GB+ 推奨	GPU 搭載環境が快適
マルチモーダル（画像入力）	gemma4:12b	〜8GB	vision + tools 対応（2026年最新世代）
軽量・リソース制限環境	llama3.2:1b qwen3:0.6b	1GB 未満	低スペック環境でも動作しやすい

※モデルのサイズ・タグは 2026-06-08 時点の目安。実際のタグは公式ライブラリ（https://ollama.com/library）で確認してから pull することを推奨する。

ローカルLLMの導入やRAG構築をご検討の方は、AI開発会社クリスタルメソッドの無料相談をご利用ください。

現場での運用上の注意点：Ollama 使い方でよくある失敗と対処

メモリ不足によるクラッシュ・速度低下

現場で最も頻発するトラブルがモデルのパラメータ数と RAM/VRAM の不一致だ。量子化（Q4）済みの 7〜8B モデルは 8GB RAM を目安に、30B 前後は 16〜24GB が必要になる。ollama ps で現在読み込まれているモデルとメモリ使用量を確認し、明らかに大きすぎるモデルを選んでいないか確認することが最初の診断手順だ。GPU が搭載されていない環境では、CPU 推論にフォールバックするため応答速度が大幅に落ちる点も念頭に置く。

モデルが自動アンロードされるタイミングと keep_alive

Ollama はデフォルトで最後のリクエストから 5 分後にモデルをメモリからアンロードする。API 呼び出し間隔が長いバッチ処理を組む場合、毎回ロードのオーバーヘッドが発生し処理が遅くなる。keep_alive パラメータでアンロードまでの時間を制御できる。

# 30 分間メモリに保持する
curl http://localhost:11434/api/generate \
  -d '{
    "model": "qwen3:8b",
    "prompt": "test",
    "keep_alive": "30m"
  }'

# レスポンス後に即座にアンロード（メモリ節約）
curl http://localhost:11434/api/generate \
  -d '{
    "model": "qwen3:8b",
    "prompt": "test",
    "keep_alive": 0
  }'

外部公開時のセキュリティ

デフォルトでは 127.0.0.1:11434 にバインドされ外部からアクセスできない。環境変数 OLLAMA_HOST=0.0.0.0:11434 を設定すると外部からのアクセスを許可できるが、Ollama 本体に認証機能は含まれていない。外部公開する場合は、ファイアウォールやリバースプロキシ（nginx など）でアクセス制御を設けることが不可欠だ。開発環境でうっかり外部公開したまま放置するケースが実務では起きやすく、注意が必要だ。

よく使う環境変数は以下の通りだ。

OLLAMA_HOST：リッスンするホスト・ポートの指定
OLLAMA_MODELS：モデルの保存ディレクトリの変更（デフォルトは ~/.ollama/models）
OLLAMA_NUM_PARALLEL：並列リクエスト数の上限

ローカルで動かしきれない大型モデルへの対応

Ollama 本体（ローカル実行）は無料・無制限だが、大型モデルを動かすには相応のハードウェアが必要だ。GPU 非搭載の環境で高精度な推論を行いたい場合や、チームで共有したい場合は Ollama Cloud のホスト型推論も選択肢になる。料金は Free（$0）・Pro（月$20）・Max（月$100）の固定制で、従量課金による予期しない請求が発生しない設計だ（出典：Ollama公式 pricing、https://ollama.com/pricing、2026-06-08取得）。ローカルとクラウドを用途で使い分ける構成は実務で採用しやすい。料金体系の詳細は Ollama の料金解説記事で扱っている。

また、日本原子力研究開発機構（JAEA）が 2025 年に公開した技術報告書では、スーパーコンピュータを用いたオンプレミス生成AI基盤の構築事例が報告されており、ローカルLLM運用の実績が研究機関レベルでも蓄積されていることが確認できる（出典：JAEA-Technology-2025-017、https://jopss.jaea.go.jp/pdfdata/JAEA-Technology-2025-017.pdf）。三重大学情報基盤センターの資料においても、研究者がローカルLLMを活用する実践的手法が整理されており、Ollama のような実行環境の有用性が示されている（出典：三重大学情報基盤センター「研究者のための生成AI活用」、https://www.cc.mie-u.ac.jp/~shirai/jp/doc/Shirai_GenAI_slide_2026_03_pub.html）。

他のローカルLLMツールとの機能・用途の比較については、Ollama 比較記事を参照してほしい。

機械学習・深層学習の基礎から Ollama のような応用ツールの位置づけを体系的に理解したい場合は、深層学習の基礎解説や機械学習の概要も参考にしてほしい。テキストマイニングへの応用に関心があればテキストマイニング解説も合わせて参照いただきたい。

弊社クリスタルメソッドが開発する「DeepAI」は、実在の人物の容姿・表情・声・振る舞いをデジタル空間で再現するバーチャルヒューマン／AIアバターソリューションだ。リップシンク・表情生成・音声合成・対話AIを組み合わせ、接客・研修・面接練習・広報などの用途で活用される。Ollama のような対話AIエンジンと組み合わせることで、インタラクティブな体験構築の幅が広がる。詳細はブログ一覧から関連記事を参照してほしい。

AIの業務活用・導入をご検討の方へ

クリスタルメソッドは、各種LLM・ローカルAI・RAG・AIアバターを活用した業務へのAI導入を支援しています。「自社の業務でどう使えるか」をまずはお気軽にご相談ください。

無料相談・お問い合わせ：ご相談はこちら
基礎から知る：Ollamaとは

参考文献

Ollama 公式 GitHub README（コマンド仕様・モデル一覧）：https://github.com/ollama/ollama（2026-06-08取得）
Ollama 公式ライブラリ（モデル・タグ・pulls数）：https://ollama.com/library（2026-06-08取得）
Ollama 公式 pricing（Free / Pro / Max プラン）：https://ollama.com/pricing（2026-06-08取得）
Ollama 公式ブログ：https://ollama.com/blog（2026-06-08取得）
DevelopersIO「2026年のローカルLLM事情を整理してみた」：https://dev.classmethod.jp/articles/local-llm-guide-2026/（2026-06取得）
saiteki-ai.com「ollama runの使い方完全ガイド」：https://saiteki-ai.com/basics/ai-tool/ollama/ollama-run/（2026-06取得）
日本原子力研究開発機構「スーパーコンピュータを用いたオンプレミス生成AI基盤の構築と展開」（JAEA-Technology-2025-017）：https://jopss.jaea.go.jp/pdfdata/JAEA-Technology-2025-017.pdf
三重大学情報基盤センター「研究者のための生成AI活用」（2026年3月）：https://www.cc.mie-u.ac.jp/~shirai/jp/doc/Shirai_GenAI_slide_2026_03_pub.html

インストール手順

監修

河合継（クリスタルメソッド株式会社代表取締役）

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について｜編集方針

Study about AI

AIについて学ぶ

AI規制とサンドボックスが金融ビジネスを加速する理由と実務アプローチ

金融業界における人工知能（AI）の活用は、業務効率化や高度な意思決定をもたらす一方で、厳格な金融規制との整合性が常に課題となる。この「規制とイノベーションの共存...
オープンソースAIの規制とメリット・デメリット：米25社共同書簡から紐解く日本企業の選定基準

人工知能（AI）の急速な発展に伴い、その開発手法や提供形態を巡る議論が世界中で活発化しています。特に、モデルの内部パラメータ（重み情報）を公開する「オープンウェ...
Nvidiaの中国AI規制影響とCEOの真意：日本企業が取るべき地政学的リスク対策

Nvidiaの中国AI規制影響とCEOの真意：日本企業が取るべき地政学的リスク対策米中間の技術覇権争いが激化する中、AI半導体市場を牽引する米エヌビディア（N...