blog
AIブログ
DeepSeek ローカル使い方――導入から本番設計まで完全解説
なぜ DeepSeek をローカルで動かすのか――メリットと正直なトレードオフ
DeepSeek のローカル実行が実務的な注目を集める背景には、三つの具体的な動機がある。第一にデータプライバシーの確保、第二にランニングコストの上限管理、第三にレイテンシの予測可能性だ。
クラウド API を経由する場合、プロンプトと応答は外部サーバーを必ず通過する。医療・法務・製造ラインの検査ログといった機密性の高いデータを扱う組織では、この経路が情報管理ポリシーと衝突する。総務省の令和7年版情報通信白書(「AIの爆発的な進展の動向」)においても、大規模言語モデルの急速な普及とともにデータガバナンスへの対応が組織的な課題として整理されている(出典:総務省, https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r07/pdf/n1120000.pdf)。DeepSeek の情報セキュリティリスクの全体像についてはDeepSeek のリスクと安全な活用方針も参照されたい。
ただし、ローカル実行には正直なコストが伴う。現行のフラッグシップ DeepSeek-V4-Pro は 1.6T パラメータ(アクティブ約 49B)の MoE 構造を持ち、フル精度で動作させるには数百 GB に及ぶ VRAM が必要になる。個人・中規模チームが現実的に扱えるのは、公式が公開する蒸留モデル(7B〜70B クラス)の量子化版に限られる。加えて、モデルのダウンロード・管理・バージョン追跡・セキュリティパッチの適用といった運用保守コストも発生する。クラウド API では不要なこれらの作業工数を見積もりに含めないと、導入後に想定外の負担が生まれる。
DeepSeek-V4-Pro / V4-Flash はいずれも MIT ライセンスのオープンウェイトとして Hugging Face に公開されており、商用利用を含む自己ホストが法的に許可されている。ライセンス・料金体系の詳細はDeepSeek の料金体系と API 価格を参照してほしい。
DeepSeek ローカル使い方の前提――ハードウェア要件と量子化の選択基準
ローカル実行の成否はハードウェア選定で大半が決まる。以下の表に、モデル規模・量子化・必要 VRAM の実用目安をまとめた。数値は公開ウェイト情報、Unsloth Documentation(https://unsloth.ai/docs/jp/moderu/tutorials/deepseek-v3.1-how-to-run-locally)、および DevelopersIO による 2026 年ローカル LLM 調査(https://dev.classmethod.jp/articles/local-llm-guide-2026/)を参考に整理している。環境依存の変動があるため、あくまで目安として扱い、実機での計測を推奨する。
| モデル規模 | 量子化 | 目安 VRAM / RAM | 想定ハードウェア | 用途感 |
|---|---|---|---|---|
| 蒸留 7B | Q4_K_M | 約 6〜8 GB VRAM | RTX 3080 / RTX 4070 等 | PoC・個人検証 |
| 蒸留 14B | Q4_K_M | 約 10〜14 GB VRAM | RTX 3090 / RTX 4080 等 | 小規模チーム実運用 |
| 蒸留 32B | Q4_K_M | 約 22〜28 GB VRAM | RTX 4090 / A100 40GB 等 | 中規模チーム実運用 |
| 蒸留 70B | Q4_K_M | 約 40〜48 GB VRAM | A100 80GB / H100 等 | 高精度タスク本番 |
| V4-Pro(フル MoE) | FP8 / FP16 | 数百 GB(複数 GPU 必須) | データセンター規模 | 大規模サービス基盤 |
量子化方式の選択基準
Q4_K_M は品質と圧縮率のバランスとして現在最も広く採用されている。より高精度が必要な場面では Q8_0 が選択肢になるが、モデルサイズはほぼ倍増する。推論速度を最優先にする場合は Q2_K も存在するが、品質劣化が顕著になるため、出力品質を事前にベンチマークして許容水準を確認することが必須だ。
VRAM が不足する環境では llama.cpp の --n-gpu-layers で CPU オフロードを使用できる。ただし、GPU 専用実行と比較してトークン生成速度は著しく低下するため、対話用途では体感品質への影響を見込んでおく必要がある。
Mac(Apple Silicon)環境では Metal バックエンドを活用できる。Unified Memory 96 GB の M2 Ultra / M3 Ultra であれば 70B Q4 モデルを実用的な速度で動作させることが可能であり、DevelopersIO の 2026 年調査でも Apple Silicon が CPU 推論の実用選択肢として位置づけられている(出典:DevelopersIO, https://dev.classmethod.jp/articles/local-llm-guide-2026/)。
Ollama で始める DeepSeek ローカル使い方――最速セットアップ手順
CLI・コード統合を優先するエンジニアにとって、Ollama は現時点で導入摩擦が最も少ない選択肢だ。モデルの検索・ダウンロード・実行を単一のツールで完結でき、OpenAI 互換のローカルサーバー機能も備えている(出典:DevelopersIO, https://dev.classmethod.jp/articles/local-llm-guide-2026/)。GUI よりコードで制御したいチームに適している。
Step 1:Ollama のインストール
Linux / macOS では以下の一行で完了する。
curl -fsSL https://ollama.com/install.sh | sh
Windows は公式サイト(https://ollama.com)からインストーラーを取得する。インストール後、ollama --version でバージョンを確認して動作を確かめる。
Step 2:モデルの取得と対話起動
DeepSeek 系の量子化モデルは Ollama Library に登録されている。14B モデルを例に示す。Zenn の実装レポート(https://zenn.dev/karaage0703/articles/3135a88f603e3e)および Qiita の事例(https://qiita.com/shirochan/items/e61101a5f79bf4a0920d)でも同様の手順が報告されており、14B Q4 では概ね 8〜9 GB 程度のデータ転送が発生する。
# モデルのダウンロードと対話起動(14B Q4_K_M の例)
ollama run deepseek-r1:14b
# バックグラウンドサーバーとして起動する場合
ollama serve
初回実行時はモデルウェイトのダウンロードが発生する。ダウンロード完了後はオフライン環境でも動作するため、ネットワーク分離環境への展開にも対応できる。
Step 3:OpenAI 互換 API サーバーとして利用する
Ollama はデフォルトで http://localhost:11434 に OpenAI 互換エンドポイントを提供する。既存の OpenAI SDK のベース URL を差し替えるだけでローカル推論に切り替えられる点が実務上の大きな利点だ。
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama", # 文字列は任意でよい
)
response = client.chat.completions.create(
model="deepseek-r1:14b",
messages=[{"role": "user", "content": "量子化モデルの品質評価方法を説明せよ"}],
)
print(response.choices[0].message.content)
この互換性は、クラウド API(deepseek-v4-flash / deepseek-v4-pro)とのコードベース共有を容易にする。開発段階はローカルで検証し、本番環境では DeepSeek 公式 API に切り替えるという開発フローが現実的な運用パターンだ。DeepSeek API の詳細仕様はDeepSeek API の実装ガイドを参照されたい。
Step 4:llama.cpp による高度な制御
コンテキスト長・スレッド数・GPU レイヤー割り当てをより細かく制御したい場合は llama.cpp を直接利用する。特に VRAM と精度のトレードオフを実験的に探る場面で有効だ。
# ビルド(CUDA 有効化の例)
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j$(nproc)
# 実行(32B Q4_K_M・GPU 40 レイヤー・コンテキスト 8192 トークン)
./build/bin/llama-server \
-m ./models/deepseek-32b-q4_k_m.gguf \
--n-gpu-layers 40 \
--ctx-size 8192 \
--host 0.0.0.0 \
--port 8080
Unsloth を利用すると、より少ない VRAM でより大きなモデルを動作させる最適化が適用されており、公式ドキュメント(https://unsloth.ai/docs/jp/moderu/tutorials/deepseek-v3.1-how-to-run-locally)に詳細な設定手順が記載されている。VRAM 予算が厳しい環境では有力な選択肢となる。
DeepSeek ローカル使い方の実践――本番投入時の設計判断と限界
コンテキスト長の現実的な上限
DeepSeek-V4-Pro / V4-Flash はクラウド API では 1M トークンのコンテキストウィンドウをサポートするが、ローカル実行では KV キャッシュが VRAM を大量に消費するため、事実上の上限は搭載 VRAM 容量で決まる。コンシューマ GPU での現実的な設定は 8K〜32K トークン程度であり、長文書処理のユースケースにローカル実行を適用する場合は、このギャップを設計に組み込む必要がある。
Thinking モードの品質保証問題
V4-Flash は thinking / non-thinking 両モードに対応しているが、量子化蒸留モデルがオリジナルと同等の推論挙動を再現できるかは蒸留品質に依存する。コード生成・数学・論理推論といった高精度が要求されるタスクでは、ローカル量子化モデルとクラウド API の出力品質を定量的に比較した上で採用判断することが必須だ。ベンチマーク未実施での本番投入は品質リスクを伴う。DeepSeek のモデル性能比較についてはDeepSeek モデル比較も参考になる。
セキュリティ境界の設計――見落とされがちな落とし穴
ローカル実行はデータが外部に出ない点でプライバシー要件を満たしやすい一方、Ollama / llama.cpp のサーバーを社内 LAN に公開する際には認証・認可レイヤーを別途実装する必要がある。デフォルト設定では認証なしでエンドポイントに到達できるため、以下の対応を実施することを推奨する。
- リバースプロキシ(nginx / Caddy 等)での IP 制限・Basic 認証付与
- mTLS による接続制御(高セキュリティ要件の場合)
- モデルファイルの保存先ディレクトリへのアクセス権限の最小化
- 推論サーバーのプロセス権限の分離(専用サービスアカウントでの実行)
クラウド API 利用時のリスクとの違いを含めた全体的なリスク評価はDeepSeek のリスク評価で整理しているので参照されたい。
日本語性能の評価と注意点
量子化による品質低下は日本語出力の流暢さに影響する場合がある。特に Q4 より低い量子化では、助詞の誤用や文末表現の乱れが発生しやすくなる。本番投入前に日本語タスク特化のベンチマークを実施し、許容水準を定量的に確認することが重要だ。DeepSeek の日本語性能の詳細はDeepSeek の日本語性能評価で扱っている。
クラウド API とのコスト比較――損益分岐点の考え方
DeepSeek 公式 API(2026年6月時点)では、V4-Flash の出力が $0.28/100万トークン、V4-Pro の出力がプロモ価格 $0.87/100万トークン(標準価格は $3.48/100万トークン。プロモ終了後は標準価格に移行する点に注意)で利用できる(出典:DeepSeek API Docs, https://api-docs.deepseek.com/quick_start/pricing)。
GPU サーバーの電力・償却コストと比較した場合、低〜中トラフィックではクラウド API の方がコスト効率で優位になる場合が多い。ローカル実行が経済的に優位になるのは、GPU をほぼ 24 時間高負荷で稼働させ続けるユースケースか、データ外部送出を制度的・契約的に禁じられている要件が存在する場合だ。この損益分岐点を事前に計算しないまま GPU を調達するのは、実務上の典型的な失敗パターンだ。
また、個人の調査・試作段階では chat.deepseek.com(完全無料・有料個人プランは存在しない)で動作感を確認するのが合理的な最初のステップだ。機密データを含まない用途であれば、ローカル環境の整備より先にウェブチャットで要件適合性を検証する方が工数を節約できる(出典:DeepSeek 公式, https://www.deepseek.com/en/)。
現行モデル V4 系の全体像と API 移行の急務
2026年6月時点での主力は V4 系(V4-Pro / V4-Flash)であり、2025 年に話題となった R1 / V3 を「現行の最新主力」として意思決定の前提にしないことが重要だ。現行のフラッグシップ DeepSeek-V4-Pro(2026年4月24日リリース)は 1.6T パラメータ MoE・アクティブ約 49B・最大出力 384K に対応しており、軽量版の V4-Flash(284B パラメータ、アクティブ約 13B)は消費者向けチャット(chat.deepseek.com)の既定モデルとして採用されている(出典:DeepSeek API Docs, https://api-docs.deepseek.com/updates)。
API 移行の文脈では、旧 API 名 deepseek-chat および deepseek-reasoner が 2026年7月24日(15:59 UTC)に廃止予定となっている。現在は経過措置として V4-Flash の non-thinking / thinking モードにそれぞれマッピングされているが、既存コードベースを新名称(deepseek-v4-flash / deepseek-v4-pro)へ移行する対応が急務だ。ローカル実行で利用している Ollama のモデルタグとクラウド API のモデル名の対応関係を混同しないよう、コードのドキュメント化も同時に実施することを推奨する(出典:DeepSeek API Docs, https://api-docs.deepseek.com/updates)。
V4 系の技術アーキテクチャの詳細についてはDeepSeek V4 の技術解説を、R1 の特性と位置づけについてはDeepSeek R1 の詳細解説を参照されたい。
なお、総務省の自治体における AI 利用に関するワーキンググループ資料(https://www.soumu.go.jp/main_content/001021065.pdf)でも、オンプレミス・ローカル環境での LLM 活用が情報漏洩リスク軽減の手段として言及されており、ローカル実行の需要は公共・民間双方で拡大するとみられる。
弊社が開発する DeepAI は、実在の人物の容姿・表情・声・振る舞いをデジタル空間で再現するバーチャルヒューマン/AIアバターソリューションであり、接客・研修・広報といった対人コミュニケーション領域での活用が進んでいる。LLM のローカル推論とは領域が異なるが、エッジ・オンプレ環境でモデルを稼働させる際のハードウェアリソースと推論品質のトレードオフ管理、推論サーバーのセキュリティ境界設計という技術課題は共通している。実際の現場では、GPU の VRAM 使用率と推論スループットの計測を継続的にモニタリングしながら量子化レベルを調整するアプローチが現実的だ。関連するブログ記事はクリスタルメソッドのブログでも紹介している。
まとめ――DeepSeek ローカル使い方の意思決定フレームワーク
ローカル実行の採否は「データ外部送出の可否」「推論トークン量(トラフィック)」「既存 GPU 資産の有無」の三軸で判断するのが合理的だ。機密データを扱い、かつ推論量が多く GPU 資産がある場合にローカル実行のメリットが最大化する。これらが揃わない場合は公式 API の方が運用コスト・品質の観点で優位になる局面も多い。
最速で試すなら Ollama で 14B Q4 モデルを起動し、OpenAI 互換エンドポイントで既存アプリと接続する手順が実績ある最短経路だ。本番への道筋は「量子化品質のベンチマーク → セキュリティ境界の設計 → クラウド API とのコスト損益分岐計算」の順序で踏み固めることが、実務上のリスクを最小化する。DeepSeek の無料活用方法についてはDeepSeek を無料で使う方法も参考にされたい。
参考文献
- DeepSeek API Docs — Models & Pricing: https://api-docs.deepseek.com/quick_start/pricing(2026-06-08 アクセス)
- DeepSeek API Docs — Change Log/Updates: https://api-docs.deepseek.com/updates(2026-06-08 アクセス)
- DeepSeek-V4-Pro 公式ウェイト(Hugging Face, MIT ライセンス): https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro(2026-06-08 アクセス)
- DeepSeek 公式サイト: https://www.deepseek.com/en/(2026-06-08 アクセス)
- DeepSeek-V3.1 ローカル実行方法 | Unsloth Documentation: https://unsloth.ai/docs/jp/moderu/tutorials/deepseek-v3.1-how-to-run-locally
- 2026年のローカル LLM 事情を整理してみた — DevelopersIO: https://dev.classmethod.jp/articles/local-llm-guide-2026/
- DeepSeek を Ollama でローカル実行 — Zenn: https://zenn.dev/karaage0703/articles/3135a88f603e3e
- DeepSeek をローカル環境で動かす — Qiita: https://qiita.com/shirochan/items/e61101a5f79bf4a0920d
- 総務省 令和7年版情報通信白書「AI の爆発的な進展の動向」: https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r07/pdf/n1120000.pdf
- 総務省 自治体における AI の利用に関するワーキンググループ資料: https://www.soumu.go.jp/main_content/001021065.pdf
監修
河合 継(クリスタルメソッド株式会社 代表取締役)
AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について | 編集方針
Study about AI
AIについて学ぶ
-
AI規制・州法ルール形成の最前線——米国の現実から日本企業が学ぶ教訓
AI規制・州法ルール形成の現在地——連邦停滞が生む「パッチワーク」構造 2026年6月4日、米下院のJay Obernolte議員(共和・カリフォルニア州)とL...
-
Supermicro AIサーバー調達・受注390億ドルが日本企業に示す戦略的含意
Supermicro AIサーバー受注390億ドル・70億ドル調達計画の要点 Super Micro Computer(ティッカー: SMCI、以下Superm...
-
AI広告・合成パフォーマー開示規制の全米初施行——日本企業が今取るべき対応
NY州「AI合成パフォーマー」広告開示規制——全米初の法律が施行 2026年6月9日、ニューヨーク州でAI生成の「synthetic performers(合成...