blog

DeepSeek ローカル実行の使い方――導入判断から本番設計まで

DeepSeek ローカル実行の使い方――導入判断から本番設計まで

DeepSeek をローカルで動かす前に問うべき三つの判断軸

DeepSeek のローカル実行が企業の意思決定者の関心を集めているのは、コスト・プライバシー・制御可能性の三点が同時に訴求するからだ。しかし、ローカル実行を選ぶべきかどうかの判断を誤ると、GPU 調達後に運用コストがクラウド API を上回るという逆転現象が起きる。まず三つの軸で自組織の状況を整理することが先決だ。

第一軸:データの外部送出が許容されるか。クラウド API を経由する場合、プロンプトと応答は外部サーバーを通過する。医療・法務・製造ラインの検査ログのような機密性の高いデータを扱う組織では、この経路が情報管理ポリシーや契約条件と衝突する。デジタル庁の生成 AI 業務利用に関する注意喚起(2025年2月)でも、外部サービスへの情報送出に際した機密情報の取り扱い基準の明確化が求められている(出典:デジタル庁, https://www.digital.go.jp/assets/contents/node/basic_page/field_ref_resources/d2a5bbd2-ae8f-450c-adaa-33979181d26a/e7bfeba7/20250206_councils_social-promotion-executive_outline_01.pdf)。この要件が厳しいほど、ローカル実行の採用根拠は強くなる。

第二軸:推論トークン量(月間トラフィック)はどの規模か。DeepSeek 公式 API(2026年6月時点)では V4-Flash の出力が $0.28/100万トークン、V4-Pro の出力がプロモ価格 $0.87/100万トークン(標準価格は $3.48/100万トークン。プロモ終了後は標準価格へ移行する点に注意)で利用できる(出典:DeepSeek API Docs, https://api-docs.deepseek.com/quick_start/pricing)。低〜中トラフィックではクラウド API のコスト効率が優位になる局面が多く、ローカル実行の経済的優位が成立するのは GPU を高負荷で継続稼働できるユースケースに限られる。

第三軸:既存の GPU 資産があるか。現行の旗艦モデル DeepSeek-V4-Pro はフル精度で動作させるのに数百 GB の VRAM を要し、個人・中規模チームが現実的に扱えるのは蒸留モデル(7B〜70B クラス)の量子化版だ。GPU を新規調達してまで損益が成立するかどうかは、事前のコスト試算なしには判断できない。

DeepSeek の情報セキュリティリスクの全体像についてはDeepSeek のリスクと安全な活用方針も合わせて参照されたい。ライセンスと料金体系の詳細はDeepSeek の料金体系と API 価格で整理している。

DeepSeek ローカル実行とクラウドAPI のトレードオフ比較図 ローカル実行 + データが外部に出ない(プライバシー確保) + コスト上限をハードウェアで制御 + ネット不要・レイテンシが予測可能 – 大規模 VRAM / RAM が必要 – 運用保守・バージョン管理コストが発生 – フルモデルは個人環境では非現実的 クラウド API + ゼロセットアップで即利用可能 + フルパラメータモデルをそのまま利用 + スケールアウトが容易 – データが外部サーバーを通過 – 従量課金・レート制限あり – ネット接続・外部依存が前提
図1:DeepSeek ローカル実行とクラウド API のトレードオフ。プライバシー要件・月間トラフィック・GPU 資産の三軸で採否を判断するのが合理的だ。

DeepSeek ローカル実行のハードウェア要件と量子化の選択基準

ローカル実行の成否はハードウェア選定で大半が決まる。以下の表に、モデル規模・量子化・必要 VRAM の実用目安をまとめた。数値は公開ウェイト情報および DevelopersIO による 2026 年ローカル LLM 調査(出典:DevelopersIO, https://dev.classmethod.jp/articles/local-llm-guide-2026/)を参考に整理している。環境依存の変動があるため、あくまで目安として扱い、実機での計測を推奨する。

表1:DeepSeek 系モデルの量子化別 VRAM 目安(2026年6月時点)
モデル規模 量子化 目安 VRAM / RAM 想定ハードウェア 用途感
蒸留 7B Q4_K_M 約 6〜8 GB VRAM RTX 3080 / RTX 4070 等 PoC・個人検証
蒸留 14B Q4_K_M 約 10〜14 GB VRAM RTX 3090 / RTX 4080 等 小規模チーム実運用
蒸留 32B Q4_K_M 約 22〜28 GB VRAM RTX 4090 / A100 40GB 等 中規模チーム実運用
蒸留 70B Q4_K_M 約 40〜48 GB VRAM A100 80GB / H100 等 高精度タスク本番
V4-Pro(フル MoE) FP8 / FP16 数百 GB(複数 GPU 必須) データセンター規模 大規模サービス基盤

DeepSeek-V4-Pro と V4-Flash はいずれも MIT ライセンスのオープンウェイトとして Hugging Face に公開されており、商用利用を含む自己ホストが法的に許可されている(出典:Hugging Face, https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro)。ただし、フル MoE をローカルで動かすことが現実的なのはデータセンター規模の資産を持つ組織に限られ、中規模以下の組織が本番投入を検討するのであれば、蒸留モデルの量子化版が実質的な選択肢となる。

量子化方式の選択基準。Q4_K_M は品質と圧縮率のバランスとして現在最も広く採用されている。より高精度が必要な場面では Q8_0 が選択肢となるが、モデルサイズはほぼ倍増する。Q2_K は推論速度を最優先にする場合に候補となるが、品質劣化が顕著なため、出力品質のベンチマークを事前に行い許容水準を確認することが必須だ。

VRAM が不足する環境では llama.cpp の --n-gpu-layers で CPU オフロードを使用できる。ただし GPU 専用実行と比較してトークン生成速度は著しく低下するため、対話用途では体感品質への影響を見込んでおく必要がある。Mac(Apple Silicon)環境では Metal バックエンドを活用でき、Unified Memory 96 GB の M2 Ultra / M3 Ultra であれば 70B Q4 モデルを実用的な速度で動作させることが可能だ。DevelopersIO の 2026 年調査でも Apple Silicon が CPU 推論の実用選択肢として位置づけられている(出典:DevelopersIO, https://dev.classmethod.jp/articles/local-llm-guide-2026/)。

Ollama で始める DeepSeek ローカル使い方――最速セットアップ手順

CLI・コード統合を優先するチームにとって、Ollama は現時点で導入摩擦が最も少ない選択肢だ。モデルの検索・ダウンロード・実行を単一ツールで完結でき、OpenAI 互換のローカルサーバー機能も備えている(出典:DevelopersIO, https://dev.classmethod.jp/articles/local-llm-guide-2026/)。GUI よりコードで制御したいチームに適している。

Step 1:Ollama のインストール

Linux / macOS では以下の一行で完了する。

curl -fsSL https://ollama.com/install.sh | sh

Windows は公式サイト(https://ollama.com)からインストーラーを取得する。インストール後、ollama --version でバージョンを確認して動作を確かめる。

Step 2:モデルの取得と対話起動

DeepSeek 系の量子化モデルは Ollama Library に登録されている。14B モデルを例に示す。Zenn の実装レポート(出典:Zenn, https://zenn.dev/karaage0703/articles/3135a88f603e3e)でも同様の手順が報告されており、14B Q4 では概ね 8〜9 GB 程度のデータ転送が発生する。

# モデルのダウンロードと対話起動(14B Q4_K_M の例)
ollama run deepseek-r1:14b

# バックグラウンドサーバーとして起動する場合
ollama serve

初回実行時はモデルウェイトのダウンロードが発生する。ダウンロード完了後はオフライン環境でも動作するため、ネットワーク分離環境への展開にも対応できる。

Step 3:OpenAI 互換 API サーバーとして利用する

Ollama はデフォルトで http://localhost:11434 に OpenAI 互換エンドポイントを提供する。既存の OpenAI SDK のベース URL を差し替えるだけでローカル推論に切り替えられる点が実務上の大きな利点だ。

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama",  # 文字列は任意でよい
)

response = client.chat.completions.create(
    model="deepseek-r1:14b",
    messages=[{"role": "user", "content": "量子化モデルの品質評価方法を説明せよ"}],
)
print(response.choices[0].message.content)

この互換性は、クラウド API(deepseek-v4-flash / deepseek-v4-pro)とのコードベース共有を容易にする。開発段階はローカルで検証し、本番環境では DeepSeek 公式 API に切り替えるという開発フローが現実的な運用パターンだ。DeepSeek API の詳細仕様はDeepSeek API の実装ガイドを参照されたい。

Step 4:llama.cpp による高度な制御

コンテキスト長・スレッド数・GPU レイヤー割り当てをより細かく制御したい場合は llama.cpp を直接利用する。VRAM と精度のトレードオフを実験的に探る場面で特に有効だ。

# ビルド(CUDA 有効化の例)
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j$(nproc)

# 実行(32B Q4_K_M・GPU 40 レイヤー・コンテキスト 8192 トークン)
./build/bin/llama-server \
  -m ./models/deepseek-32b-q4_k_m.gguf \
  --n-gpu-layers 40 \
  --ctx-size 8192 \
  --host 0.0.0.0 \
  --port 8080
DeepSeek ローカル実行のセットアップフロー概略図 1. Ollama インストール 2. モデル取得 ollama pull 3. サーバー起動 ollama serve 4. API 接続 localhost:11434/v1 * llama.cpp を使う場合は Step 2 以降を差し替え
図2:Ollama を使った DeepSeek ローカル実行のセットアップフロー。4 ステップで OpenAI 互換エンドポイントが立ち上がる。

DeepSeek ローカル使い方の本番設計――三つの見落とされやすい落とし穴

落とし穴 1:コンテキスト長の現実的な上限

DeepSeek-V4-Pro / V4-Flash はクラウド API では 1M トークンのコンテキストウィンドウをサポートするが(出典:DeepSeek API Docs, https://api-docs.deepseek.com/quick_start/pricing)、ローカル実行では KV キャッシュが VRAM を大量に消費するため、事実上の上限は搭載 VRAM 容量で決まる。コンシューマ GPU での現実的な設定は 8K〜32K トークン程度であり、長文書処理のユースケースにローカル実行を適用する場合は、このギャップを設計に組み込む必要がある。クラウド API のコンテキスト上限を前提に要件定義した後でローカルに移行しようとすると、仕様の根幹から見直しが必要になる。

落とし穴 2:セキュリティ境界の未設計

ローカル実行はデータが外部に出ない点でプライバシー要件を満たしやすい一方、Ollama / llama.cpp のサーバーを社内 LAN に公開する際には認証・認可レイヤーを別途実装する必要がある。デフォルト設定では認証なしでエンドポイントに到達できるため、以下の対応を実施することを推奨する。

  • リバースプロキシ(nginx / Caddy 等)での IP 制限・Basic 認証付与
  • mTLS による接続制御(高セキュリティ要件の場合)
  • モデルファイルの保存先ディレクトリへのアクセス権限の最小化
  • 推論サーバーのプロセス権限の分離(専用サービスアカウントでの実行)

クラウド API 利用時のリスクとの比較を含めた全体的なリスク評価はDeepSeek のリスク評価で整理している。

落とし穴 3:量子化による品質劣化の未検証

V4-Flash は thinking / non-thinking 両モードに対応しているが、量子化蒸留モデルがオリジナルと同等の推論挙動を再現できるかは蒸留品質に依存する。コード生成・数学・論理推論といった高精度が要求されるタスクでは、ローカル量子化モデルとクラウド API の出力品質を定量的に比較した上で採用判断することが必須だ。ベンチマーク未実施での本番投入は品質リスクを伴う。

量子化による品質低下は日本語出力の流暢さにも影響する場合がある。Q4 より低い量子化では助詞の誤用や文末表現の乱れが発生しやすくなるため、本番投入前に日本語タスク特化のベンチマークを実施し、許容水準を定量的に確認することが重要だ。DeepSeek の日本語性能の詳細はDeepSeek の日本語性能評価で扱っている。モデル性能の全体比較についてはDeepSeek モデル比較も参考になる。

クラウド API との損益分岐点と現行モデル V4 系の留意点

損益分岐点の考え方

GPU サーバーの電力・償却コストと API 従量課金を比較する際、低〜中トラフィックではクラウド API の方がコスト効率で優位になる場合が多い。ローカル実行が経済的に優位になるのは、GPU をほぼ 24 時間高負荷で稼働させ続けるユースケースか、データ外部送出を制度的・契約的に禁じられている要件が存在する場合だ。この損益分岐点を事前に計算せずに GPU を調達するのは、実務上の典型的な失敗パターンだ。

なお、機密データを含まない調査・試作段階では chat.deepseek.com(完全無料・有料個人プランは存在しない)で動作感を確認するのが合理的な最初のステップだ。ウェブチャットで要件適合性を検証してから本格的なローカル環境の整備に進む方が、無駄な工数を省ける(出典:DeepSeek 公式, https://www.deepseek.com/en/)。DeepSeek を無料で活用する方法はDeepSeek を無料で使う方法で整理している。

現行モデル V4 系と API 移行の急務

2026年6月時点での主力は V4 系(V4-Pro / V4-Flash)であり、2025 年に話題となった R1 / V3 を「現行の最新主力」として意思決定の前提にしないことが重要だ。現行のフラッグシップ DeepSeek-V4-Pro(2026年4月24日リリース)は 1.6T パラメータ MoE・アクティブ約 49B・最大出力 384K に対応しており、軽量版の V4-Flash(284B パラメータ、アクティブ約 13B)は消費者向けチャット(chat.deepseek.com)の既定モデルとして採用されている(出典:DeepSeek API Docs, https://api-docs.deepseek.com/updates)。

API 移行の観点では、旧 API 名 deepseek-chat および deepseek-reasoner が 2026年7月24日(15:59 UTC)に廃止予定となっている。現在は経過措置として V4-Flash の non-thinking / thinking モードにそれぞれマッピングされているが、既存コードベースを新名称(deepseek-v4-flash / deepseek-v4-pro)へ移行する対応が急務だ。ローカル実行で利用している Ollama のモデルタグとクラウド API のモデル名の対応関係を混同しないよう、コードのドキュメント化も同時に実施することを推奨する(出典:DeepSeek API Docs, https://api-docs.deepseek.com/updates)。

V4 系の技術アーキテクチャの詳細についてはDeepSeek V4 の技術解説を、R1 の特性と位置づけについてはDeepSeek R1 の詳細解説を参照されたい。DeepSeek の全体像の概観はDeepSeek の総合解説でも扱っている。

JST の分析でも指摘されているとおり、DeepSeek のオープンウェイト公開戦略はクローズドな大規模モデルへの対抗軸として世界的な注目を集めており(出典:JST Science Portal, https://spap.jst.go.jp/china/experiences/science/st_25018.html)、ローカル実行を選択できるオープンウェイトの選択肢は今後も拡大するとみられる。

弊社が開発する DeepAI は、実在の人物の容姿・表情・声・振る舞いをデジタル空間で再現するバーチャルヒューマン/AI アバターソリューションであり、接客・研修・広報といった対人コミュニケーション領域での活用が進んでいる。LLM のローカル推論とは領域が異なるが、エッジ・オンプレ環境でモデルを稼働させる際のハードウェアリソースと推論品質のトレードオフ管理、推論サーバーのセキュリティ境界設計という技術課題は共通している。関連する技術情報はクリスタルメソッドのブログでも継続的に発信している。

意思決定のまとめ――DeepSeek ローカル使い方の採否フレームワーク

ローカル実行の採否は「データ外部送出の可否」「月間推論トークン量」「既存 GPU 資産の有無」の三軸で判断するのが合理的だ。三軸が揃う場合にローカル実行のメリットが最大化し、いずれかが欠けるならクラウド API の方が運用コスト・品質の観点で優位になる局面が多い。

最速で検証するなら Ollama で 14B Q4 モデルを起動し、OpenAI 互換エンドポイントで既存アプリと接続する手順が実績ある最短経路だ。本番への道筋は「量子化品質のベンチマーク → セキュリティ境界の設計 → クラウド API とのコスト損益分岐計算」の順序で踏み固めることが、実務上のリスクを最小化する。DeepSeek の無料活用方法についてはDeepSeek を無料で使う方法も参考にされたい。


参考文献

監修

河合 継(クリスタルメソッド株式会社 代表取締役)

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について編集方針

AIの業務活用をご検討の方へ

クリスタルメソッドは、バーチャルヒューマンをはじめAIの開発・業務導入を支援しています。生成AI・AIエージェントの活用や、自社業務へのAI導入をご検討の際は、お気軽にご相談ください。

AIブログ購読

 
クリスタルメソッドがお届けする
AIブログの更新通知を受け取る

Study about AI

AIについて学ぶ

  • Anthropic 拠点拡大 AI企業戦略の深層——シアトル1万㎡超投資が示す人材地政学

    Anthropic 拠点拡大 AI企業戦略の深層——シアトル1万㎡超投資が示す人材地政学

    Anthropic 拠点拡大 AI企業戦略の最前線——シアトルで何が起きているか 2026年、サンフランシスコを本拠とするAI企業Anthropicが、シアトル...

  • 大学・高校の面接でよく聞かれる質問と答え方|回答が通用するか確かめる方法

    大学・高校の面接でよく聞かれる質問と答え方|回答が通用するか確かめる方法

    面接の本番まで残り1〜3週間。志望理由書は書き終えたのに、「実際に何を聞かれるか」「自分の答えで大丈夫か」という不安だけが夜になると膨らむ──そういう状態の人に...

  • バイト面接の質問と答え方|面接官が本当に見ているポイント

    バイト面接の質問と答え方|面接官が本当に見ているポイント

    バイト面接の質問と答え方|面接官が本当に見ているポイントをAI開発者が解説 「どんな質問が来るか」はもう調べた。でも、いざ答えようとすると言葉が出てこない——そ...

View more