blog
AIブログ
Ollamaの料金は?無料で使う方法とコストを解説【2026年版】
監修
河合 継(クリスタルメソッド株式会社 代表取締役)
AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について | 編集方針
Ollamaの料金は完全無料——コスト構造と無料の範囲を完全解説
「Ollamaを使うといくらかかるのか」「本当に無料で使えるのか」——AIツールを検討するとき、コストへの疑問は誰もが最初に抱きます。結論を先に述べます。Ollamaのソフトウェア本体・モデルのダウンロード・ローカル推論・REST APIの利用、これらすべてが完全無料です。MITライセンスのオープンソースソフトウェアとして公開されており、個人・法人を問わずライセンス料はゼロです。
ただし「無料」の意味を正確に把握しておかないと、実運用で予算オーバーになるケースがあります。Ollamaは「ソフトウェア」であり「インフラ」ではないため、動かす環境(ローカルPCかクラウドか)によって実質的なコストは大きく変わります。加えて2026年時点では、ローカルGPUなしで大型モデルを使えるホスト型推論サービス「Ollama Cloud」もサブスク形式で提供されています。本記事では、Ollamaの料金体系をゼロから整理し、無料の範囲・実費コストの試算・有料APIとの比較・コストを最小化する方法まで網羅的に解説します。
OllamaはOSSで料金ゼロ——ソフトウェアとしての位置づけ
Ollamaは、Qwen3・gpt-oss・DeepSeek・Gemma 4・Kimi-K2.6・GLM-5.1といった最新のオープンウェイト大規模言語モデル(LLM)をローカル環境で手軽に実行するためのオープンソースランタイムです。2023年にリリースされ、GitHubリポジトリ(ollama/ollama)はMIT Licenseで公開されています。2026年6月時点の最新版はOllama 0.30系で、llama.cpp互換の性能改善が施され、Apple SiliconではMLXエンジンの併用にも対応しています。ダウンロード・インストール・商用利用のいずれも無償で、アカウント登録すら不要です。
最大の特徴は「クラウドAPIを一切使わずにLLMを動かせる」点です。ChatGPTやClaude、GeminiといったサービスはAPIコール数やトークン数に応じて課金が発生しますが、Ollamaはインターネット接続すら不要な完全ローカル実行が可能なため、推論コストがゼロになります。モデルのダウンロード・管理、REST APIサーバーの起動(ポート11434)、GPUアクセラレーション対応など、提供される機能すべてにライセンス費用は発生しません。
一方で、Ollamaは「ソフトウェア」であり「インフラ」ではありません。動かすためのハードウェアやクラウドリソースは自前で用意する必要があります。そのため「Ollamaのローカル運用コスト」はインフラコストそのものと同義になります。
無料の範囲と費用が発生する箇所——コスト構造の全体像
Ollamaを使う際のコスト構造を項目別に整理すると、以下のようになります。
| 項目 | 費用 | 補足 |
|---|---|---|
| Ollamaソフトウェア本体(0.30系) | 無料 | MIT License。商用利用も可。 |
| モデルのダウンロード(Ollama Library) | 無料 | ollama.com/libraryのモデルハブ経由で無料取得。 |
| ローカル推論(テキスト生成) | 無料・無制限 | API呼び出し回数・トークン数の上限なし。 |
| REST APIの利用(ポート11434) | 無料 | ローカルネットワーク内での利用は完全無料。 |
| アップデート・コミュニティサポート | 無料 | GitHubのIssue・Discussions経由。 |
| Ollama Cloud(ホスト型推論) | $0〜$100/月 | Free/Pro($20)/Max($100)の固定サブスク。後述。 |
| ハードウェア(PC・GPU) | 実費が発生 | 既存PCで動くが、快適な動作にはGPU推奨。 |
| 電気代 | 実費が発生 | GPU稼働中は消費電力が増加。 |
| クラウドサーバー上での運用 | サーバー代が発生 | Ollama自体は無料だがインフラ費用はかかる。 |
| モデルの重み(各提供元ライセンス) | 多くは無料 | 商用利用時はモデルごとのライセンス確認が必要。 |
まとめると、Ollamaというソフトウェア本体への支払いはゼロです。発生するのはあくまでハードウェア・電力・インフラといった「動かすための環境費用」か、大型モデルをクラウドで手軽に使いたい場合のOllama Cloudサブスク料金であり、これらは用途に応じて選択できます。
Ollama Cloudの料金プラン
ローカルGPUを持たないユーザーや、大型モデルをすぐに使いたいユーザー向けに、Ollamaは公式のホスト型推論サービス「Ollama Cloud」を提供しています(公式料金ページ: ollama.com/pricing)。固定サブスク制で、従量超過による予期せぬ請求が発生しない設計が特徴です。
| プラン | 月額 | 同時モデル数 | 主な用途・特徴 |
|---|---|---|---|
| Free | $0 | 1モデル | チャット・モデル評価・小型モデルでの軽量利用 |
| Pro | $20(約3,000円)/年払い$200 | 3モデル | Free比50倍のクラウド利用枠、より強力なモデル、プライベートモデルのアップロード・共有 |
| Max | $100(約15,000円) | 10モデル | Pro比5倍の利用枠、常時稼働エージェント等の重負荷向け |
| Team | Coming soon | — | 共有利用・一元請求・SSO・モデルアクセス制御・優先サポート(hello@ollama.com) |
利用枠は5時間ごと・週次でリセットされ、実消費はGPU時間ベースで管理されます。Claude Codeなどのエージェントを放置しても上限を超えた追加請求が発生しない点は、コスト管理上の大きなメリットです。なお「Ollama Turbo」は旧称であり、現在の正式サービス名はOllama Cloudです。
コストが発生する3つのレイヤー
Ollamaを活用する際に費用がかかる可能性があるのは、以下の3つの領域です。
① ローカルハードウェア
自分のPCやサーバーで動かす。電気代+初期購入費のみ。月々の課金なし。
② クラウド仮想マシン
AWSやGCPのインスタンスにOllamaをインストール。使用時間に応じた課金が発生。
③ 対象モデルのライセンス
多くは無料だが、一部モデルは商用利用に条件あり。ライセンスの個別確認が必要。
無料で使えるモデル一覧——Ollama Libraryで配布される主要モデル
Ollamaは公式サイト(ollama.com/library)でオープンウェイトモデルを配布しており、すべてのモデルが無料でダウンロード・利用可能です。なお、Ollamaはモデルの開発元ではなく、各社が公開したオープンウェイトモデルを配布するプラットフォームです。2026年6月時点で利用できる代表的なモデルを以下に示します。
| モデル名 | 提供元 | 主なサイズ | 商用利用 | 特徴・備考 |
|---|---|---|---|---|
| Qwen3 / Qwen3.5 / Qwen3.6 | Alibaba | 0.6B〜235B | Apache 2.0で制限なし | 最人気級(30.4M+ pulls)。日本語・中国語に強く、thinking・agentic対応。最も商用利用しやすい選択肢のひとつ |
| gpt-oss | OpenAI | 20B / 120B系 | 要ライセンス確認 | OpenAIのオープンウェイトモデル。調整可能な推論強度、o3-mini級の性能。Ollamaと提携配布 |
| DeepSeek-R1 / DeepSeek-V4-Flash | DeepSeek | 1.5B〜671B(V4-FlashはMoE 284B総/13B活性) | MIT相当で制限なし | 推論特化。R1は87.1M pulls。V4-Flashは1Mコンテキスト対応のプレビュー版 |
| Gemma 4 | 12B・26B・31B | 条件付き無料 | vision・tools・thinking対応の最新世代。Gemma Terms of Useへの同意が必要 | |
| Kimi-K2.6 | Moonshot AI | — | 要ライセンス確認 | 長文コンテキスト対応の最新モデル |
| GLM-5.1 | Zhipu AI | — | 要ライセンス確認 | 中国語・多言語対応の最新マルチモーダルモデル |
| Phi-4 | Microsoft | 14B | MIT相当で制限なし | 小型ながら高い推論力 |
| nomic-embed-text | Nomic | — | Apache 2.0で制限なし | テキスト埋め込み(RAG向け) |
日本語利用に特化したい場合はQwen3系(Qwen3.5 / Qwen3.6を含む)が定評があります。軽いマシンでまず試したい場合はQwen3(0.6B・1.7B)やGemma 4の小型サイズが適しています。商用プロダクトへの組み込みでライセンスの手間を最小化したい場合はQwen3系やDeepSeek-R1が最も扱いやすい選択肢です。
ローカル運用のコスト試算
自分のマシンでOllamaを動かす場合、支払いが発生するのは「電気代」と「ハードウェアの減価償却」だけです。月額サブスクリプションも従量課金もありません。
動作に必要なスペックとハードウェア初期費用
OllamaはCPUでも動作しますが、実用的な速度で推論するにはVRAM付きのグラフィックカードが望ましいです。Apple SiliconではOllama 0.30系よりMLXエンジンの併用に対応し、統合メモリをより効率的に活用できるようになりました。モデルサイズ別の推奨スペックと費用目安は以下の通りです。
| モデルサイズ | 最低RAM目安 | 推奨GPU VRAM | CPU推論の速度感 | ハードウェア取得費の目安 |
|---|---|---|---|---|
| 1B〜3B | 8GB | 4GB〜 | 快適(数秒) | 既存PCで対応可(追加費用なし) |
| 7B〜8B | 16GB | 6〜8GB | やや遅い(10〜30秒) | 3〜6万円前後(コンシューマ向けGPU) |
| 13B〜14B | 32GB | 12〜16GB | 遅い(数分) | 8〜15万円前後 |
| 34B | 64GB〜 | 24GB以上 | 実用困難 | 15〜30万円前後 |
| 70B〜 | 128GB〜 | 48GB以上または複数枚構成 | 実用困難 | 30万円〜(業務用途) |
すでにゲーミングPCやワークステーションを所有している場合、追加投資ゼロでOllamaを動かせます。MacBook ProなどApple Siliconマシンは、統合メモリをVRAM的に使える上、Ollama 0.30系ではMLXエンジンの併用により推論速度がさらに向上しています。M2 Pro(16GB〜)以上であれば7Bクラスを快適に実行でき、M2 Max(32GB〜)以上では30Bクラスのモデルも実用速度で動作します。
電気代の目安
GPU推論時は消費電力が大きく増加します。電力単価を30円/kWhとして月間24時間稼働の場合の試算です。
| モデルの規模感 | 消費電力の目安 | 24時間稼働時の電気代(月) |
|---|---|---|
| 7Bクラス(軽量・ミドルGPU) | 80〜120W | 約1,700〜2,600円 |
| 13Bクラス(中型・ハイエンドGPU) | 150〜200W | 約3,200〜4,300円 |
| 70Bクラス(大型・業務用) | 300〜600W | 約6,500〜13,000円 |
実際には「常時稼働」ではなく必要なときだけ起動するケースが多いため、実際の電気代はさらに低くなります。開発・検証用途であれば月数百円程度に収まることも珍しくありません。軽量モデルをCPUで動かす場合はさらに少なくなります。
クラウド運用のコスト試算
ローカルに適切なマシンがない場合や、チームでAPIを共有したい場合は、クラウドのインスタンスにOllamaをインストールして運用するパターンが使われます。
主要クラウドプロバイダーのGPUインスタンス料金(参考)
| クラウド | インスタンス例 | VRAM | 料金($/時間・目安) | 月24時間稼働時(参考) |
|---|---|---|---|---|
| AWS | g4dn.xlarge | 16GB | 約$0.53〜 | 約$380〜 |
| Google Cloud | n1+T4(16GB) | 16GB | 約$0.35〜 | 約$250〜 |
| Azure | NC4as T4 v3 | 16GB | 約$0.56〜 | 約$400〜 |
| RunPod | RTX 4090 | 24GB | 約$0.34〜 | 約$245〜 |
クラウドで24時間365日稼働させると月額数万円〜十数万円になります。一方で「作業中だけ起動してすぐ停止する」スポット利用にすれば、月数百〜数千円に抑えることも可能です。コスト管理の核心は「稼働時間の最小化」にあります。
クラウド運用のコスト削減ポイント
- スポットインスタンスや余剰GPUサービスを活用する:RunPodやVastAIは大手クラウドより大幅に安価なGPUを提供しており、Ollama運用に適しています。
- 自動起動・停止スクリプトを組む:使わない時間帯にインスタンスを自動停止することで、月コストを数分の一に圧縮できます。
- 量子化モデル(GGUF)を選ぶ:4bit・5bit量子化モデルは精度をほぼ維持しながらVRAM消費を半減以上に減らします。より安価なインスタンスで済むようになります。
有料クラウドAPIとOllamaのコスト比較
Ollamaを検討する方の多くは、OpenAIやAnthropicなどの有料APIからの乗り換えを考えているケースです。コスト面での差を整理します。
主要クラウドAPIの料金水準
| サービス | モデル例 | 入力コスト(1Mトークン) | 出力コスト(1Mトークン) |
|---|---|---|---|
| OpenAI API | GPT-4o | $2.50 | $10.00 |
| OpenAI API | GPT-4o mini | $0.15 | $0.60 |
| Anthropic API | Claude 3.5 Sonnet | $3.00 | $15.00 |
| Google AI API | Gemini 1.5 Pro | $1.25〜$2.50 | $5.00〜$10.00 |
| Ollama(ローカル) | 全モデル | $0(無料) | $0(無料) |
処理規模別のコスト比較(月間試算)
有料APIはトークン単位の従量課金です。以下は2026年時点の参考価格をもとにした試算です(為替1ドル=150円で換算)。
| 月間処理量の目安 | 有料API(中規模モデル) | Ollama(ローカル) | Ollama(クラウド・スポット) |
|---|---|---|---|
| 100万トークン/月 | 300〜3,000円 | 電気代のみ(数十〜数百円) | 数百〜1,500円 |
| 1,000万トークン/月 | 3,000〜30,000円 | 電気代のみ(数百〜2,000円) | 5,000〜15,000円 |
| 1億トークン/月 | 30,000〜300,000円以上 | 電気代+ハード減価償却 | 50,000〜150,000円 |
少量の処理では有料APIとコスト差は小さいですが、処理量が増えるほどOllamaの優位性は指数関数的に拡大します。月に数千万トークンを超えるような大規模処理では、ローカルまたはクラウド上のOllamaが経済的に圧倒的に有利です。
コスト以外の判
参考文献
関連記事
Study about AI
AIについて学ぶ
-
Meta インド データセンター AIインフラ——Reliance 168MW契約の深層と日本企業の実務対応
監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...
-
ワーナー Sureel AI 音楽 著作権——買収の意味と日本企業への示唆
監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...
-
Vector Lakebase ベクターDB RAG——Zillizが示す統合AIデータ基盤の論点
監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...