blog

DeepSeek-R1とは何か——推論特化モデルの設計原理と実務価値

DeepSeek-R1とは何か——推論特化モデルの設計原理と実務価値

DeepSeek-R1が推論研究に問いかけたこと

DeepSeek-R1は、中国のAI企業DeepSeekが2025年1月に公開した大規模言語モデルである。数学・コーディング・論理推論といった構造的思考を要するタスクで、当時の最高水準とされたOpenAI o1シリーズと同等の性能を示しながら、開発コストおよび推論コストを大幅に抑えた。その訓練手法は科学技術振興機構(JST)の情報サービスでも「Natureに掲載された」と報告されており、単なる低価格の代替品ではなく、推論能力の獲得原理そのものを再考させた研究成果として評価されている(出典:spap.jst.go.jp — DeepSeek-R1の訓練方法がNatureに掲載)。

2026年4月24日には後継の旗艦モデルとしてDeepSeek-V4-ProおよびDeepSeek-V4-Flashがリリースされており、2026年6月時点での主力APIはV4系に移行している。旧API名deepseek-reasonerは2026年7月24日(UTC 15:59)に廃止予定であり、新規開発では後述の現行名を使用することが求められる。本記事はR1の設計原理と実務価値を深掘りしつつ、現行モデルとの系譜的な接続も整理する。

ディープラーニングの基礎から体系的に理解したい場合はディープラーニングの基礎を、強化学習の原理については強化学習の解説をあわせて参照されたい。

DeepSeek-R1の訓練パイプライン概念図 ベースモデル (DeepSeek-V3) R1-Zero RLのみ訓練 (SFTなし) SFT+RL 多段階パイプライン (可読性向上) DeepSeek -R1 thinking公開 ベースモデル → R1-Zero(RL単独) → SFT+RL多段階 → R1
DeepSeek-R1の訓練パイプライン概念図。SFTなしのRL単独でCoT能力が自然発現するR1-Zeroを経由して最終モデルR1が構築される

DeepSeek-R1のアーキテクチャ——MoE・強化学習・Extended Thinkingの3層

R1の技術的革新は、互いに補完し合う3つの設計層から成る。

第一層:Mixture-of-Experts(MoE)による計算効率

R1はDeepSeek-V3と同じMoEアーキテクチャを基盤とし、総パラメータ約671Bのうち推論時に活性化されるのはトークンごとに選ばれた約37Bのみである。フルサイズのDenseモデルと比べて計算量を大幅に削減しながら高精度を維持するこの設計思想は、現行旗艦のDeepSeek-V4-Pro(総パラメータ1.6T・アクティブ約49B)にもスケールを拡張した形で継承されている(出典:DeepSeek API Docs — Change Log、2026年6月8日確認)。

第二層:純粋強化学習による推論能力の自然発現

R1の前段にあたるR1-Zeroは、教師ありファインチューニング(SFT)を一切行わず、強化学習(RL)だけで数学・コーディングの推論能力を獲得した。報酬シグナルは「答えの正誤」と「フォーマット遵守」の2点のみという簡潔な設計から、Chain-of-Thought(CoT)的な長い思考プロセスが自然に出現したことが論文で報告されている。教師データなしに構造的推論が自発的に生成されるという発見は、学術的に広く注目されており、JSTのJ-GLOBALにも「学界と図書館をどのように変えるか」という観点からの論考が収録されている(出典:J-GLOBAL — ChatGPTを越えて: DeepSeek R1は学界と図書館をどのように変えるか)。

最終版R1では、R1-Zeroの挙動を基盤としてSFTデータとRLを組み合わせた多段階パイプラインを採用し、可読性と汎用性を高めている。この研究が示したオープンな訓練手法の意義については、JSTの専門家分析も参照に値する(出典:spap.jst.go.jp — DeepSeekショックの真の意味、AIの「オープンor独占」)。

第三層:推論過程の可視化(Extended Thinking)

R1は「まず考える→次に答える」という2段階で応答する。APIレスポンスでは<think>...</think>タグ内に推論過程が収まり、その後に最終回答が続く構造である。この設計がもたらす実務上の意義は3点に整理できる。

  • 答えが誤っていた場合でも、どのステップで論理が崩れたかを特定できる
  • 問題設定が曖昧であっても、モデルが前提を自己補完して解釈を明示する
  • 教育・研究用途でロジックそのものを学習素材として活用できる

この推論モード対応は現行のDeepSeek-V4-ProおよびV4-Flashにも引き継がれており、thinking機能は世代を超えて継承されている。

DeepSeek-R1の性能——ベンチマークが示す数値と解釈上の注意

以下は公開論文に基づく2025年1月時点のベンチマーク比較である。現行V4系への移行後も、R1の数値は当時の設計が達成した水準を示す研究上の基準点として参照価値を持つ。ただし比較対象モデルも継続的に更新されており、現時点の最新版との直接比較には別途検証が必要である。

ベンチマーク DeepSeek-R1 OpenAI o1 Claude 3.5 Sonnet
AIME 2024(数学) 79.8% 79.2% 16.0%
MATH-500(数学) 97.3% 96.4% 78.3%
Codeforces(コーディング) 96.3パーセンタイル 96.6パーセンタイル
MMLU(知識・推論) 90.8% 91.8% 88.3%
GPQA Diamond(科学) 71.5% 75.7% 65.0%

数学タスクではo1をわずかに上回り、科学・知識系ではo1がやや優位という傾向が読み取れる。いずれの数値もR1公開時の論文に基づくものであり、比較対象となったo1・Claude 3.5 Sonnetは現在それぞれ後継バージョンが存在する点に留意が必要である。

R1が示した「高い推論精度を低コスト構造で実現する」という方向性は、のちのV4系にも設計思想として受け継がれている。産業的インパクトについては、JSTの専門家分析が有益な視座を提供している(出典:spap.jst.go.jp — DeepSeekショックの真の意味、AIの「オープンor独占」)。

DeepSeek-R1の蒸留モデル群——ローカル運用の技術的選択肢

R1の大きな特長の一つが、オープンウェイトで公開されている蒸留版(Distilled)モデル群である。フルスケールのR1(671B MoE)の推論パターンをQwen2.5・LLaMA 3シリーズなどのDenseモデルに移植し、手元のGPUで動作するサイズに落とし込んでいる。MITライセンスのため商用利用も可能である。

モデル名 パラメータ数 ベースモデル 動作目安
DeepSeek-R1-Distill-Qwen-1.5B 1.5B Qwen2.5-1.5B CPU・軽量GPU
DeepSeek-R1-Distill-Qwen-7B 7B Qwen2.5-7B VRAM 8GB〜
DeepSeek-R1-Distill-Qwen-14B 14B Qwen2.5-14B VRAM 16GB〜
DeepSeek-R1-Distill-Qwen-32B 32B Qwen2.5-32B VRAM 24GB×2〜
DeepSeek-R1-Distill-LLaMA-8B 8B LLaMA-3.1-8B VRAM 8GB〜
DeepSeek-R1-Distill-LLaMA-70B 70B LLaMA-3.3-70B VRAM 80GB×2〜

14Bモデルは標準的なコーディング補助や文書要約で実用水準に達しやすく、機密データをクラウドに送出できない案件でのローカルLLM候補として検討しやすい。32Bになると複数ステップの推論精度が向上し、法的・財務的な複合条件分析でも信頼性の高い応答が得られる傾向がある。ただしVRAM要件が実行環境に対して現実的かどうかは、事前のプロファイリングで確認することが前提となる。

ollamaを用いたローカル起動の基本コマンドは以下のとおりである。

# 14B蒸留モデルのダウンロードと起動
ollama run deepseek-r1:14b

# <think> タグ付きで推論プロセスが表示される

ollamaはGPU/CPUを自動で切り替えるため、GPU非搭載環境でも動作するが、応答速度は著しく低下する点に留意が必要である。機械学習モデルの全体的な文脈については機械学習の基礎を、マルチモーダル対応モデルとの組み合わせについてはマルチモーダルAIの解説を参照されたい。

DeepSeek-R1のAPI利用と現行モデルへの移行——実装者が把握すべき変更点

R1の推論機能はthinking対応の現行モデルに引き継がれている。2026年6月時点で実装上重要な移行情報を整理する。

API名の変更と廃止スケジュール

旧API名deepseek-reasonerは2026年7月24日(UTC 15:59)をもって廃止予定である。現在は経過措置としてDeepSeek-V4-FlashのthinkingモードにマッピングされているDeepSeek API Docsの記載を参照のこと(出典:DeepSeek API Docs — Change Log、2026年6月8日確認)。新規開発では以下の現行モデル名を使用することを強く推奨する。

モデル API名 Thinkingモード 入力(キャッシュミス) 出力
DeepSeek-V4-Flash deepseek-v4-flash 対応(non-thinkingも可) $0.14 / 100万トークン $0.28 / 100万トークン
DeepSeek-V4-Pro deepseek-v4-pro 対応 $0.435 / 100万トークン※ $0.87 / 100万トークン※

※ deepseek-v4-proの$0.435/$0.87は75%割引のプロモーション価格。割引終了後の標準価格は入力$1.74・出力$3.48。本番運用前に公式料金ページで最新情報を確認すること(出典:DeepSeek API Docs — Models & Pricing、2026年6月8日確認)。

消費者向けチャット(chat.deepseek.com)は完全無料で提供されており、個人向けの有料サブスクリプションは存在しない。課金が発生するのはAPIの従量制利用のみである(出典:DeepSeek API Docs — Models & Pricing、2026年6月8日確認)。

APIコード例(Python)

OpenAI Python SDKを使えば、エンドポイントとモデル名を差し替えるだけでthinking機能を持つDeepSeekモデルを呼び出せる。

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_DEEPSEEK_API_KEY",
    base_url="https://api.deepseek.com"
)

response = client.chat.completions.create(
    model="deepseek-v4-flash",  # 旧: deepseek-reasoner → 2026-07-24廃止
    messages=[
        {"role": "user", "content": "以下の積分を解いてください:∫x²e^x dx"}
    ]
)

# 推論プロセス(thinking)
print(response.choices[0].message.reasoning_content)

# 最終回答
print(response.choices[0].message.content)

reasoning_contentフィールドにthinkingトークンが、contentに最終回答が格納される構造である。

DeepSeek-R1の限界と実務上の判断基準

R1の実務的な価値を正確に把握するには、強みと限界を同列に理解する必要がある。過大評価は導入後の失望につながるため、以下を設計段階で把握しておくことが重要である。

推論特化設計が活きるタスク

  • 数学・証明問題:複数ステップの計算・証明で誤りが生じにくく、途中式が自動で提示される
  • アルゴリズム実装・デバッグ:コードの論理エラーを推論プロセスで段階的に特定しやすい
  • 複合条件の論理推論:入れ子になった条件分岐を体系的に整理する
  • 要件定義・仕様書レビュー:前提の矛盾や抜け漏れをthinkingステップで指摘しやすい
  • 科学文献の読解:専門的な数式・化学式を含む文書でも精度を維持しやすい

設計上の限界と対処指針

  • リアルタイム情報の欠如:学習データカットオフ以降の情報は持たない。RAGやWeb検索との組み合わせが必要である
  • 大規模コンテキストの一貫性低下:文脈が極端に長くなると後半部の参照精度が低下する場合がある
  • 日本語の微妙なニュアンス:英語・中国語と比較して詩的表現・方言・慣用表現には弱い傾向がある
  • センシティブなトピックへの制限:中国の規制に準拠した制限が一部ドメインに存在する(政治・歴史系など)。グローバル展開するサービスでは事前にポリシー差異を把握しておく必要がある
  • thinkingによるレイテンシ増加:thinkingトークン分だけ最初のトークン出力が遅延する。低レイテンシが求められるリアルタイム用途では、non-thinkingモードへの切り替えを検討すべきである
  • データプライバシー:公式APIは中国法人が運営しており、送信データが中国国内サーバーを経由する。機密情報・個人情報を含むプロンプトの送信には、組織のデータガバナンスポリシーとの照合が前提となる。蒸留モデルのオンプレ運用がこの問題の有効な回避策となりうる

テキストマイニングとの組み合わせによる応用についてはテキストマイニングの手法、NLP基礎モデルとの比較という観点ではBERTとは何かも参考になる。スパースモデリングの観点からのアーキテクチャ理解にはスパースモデリングを参照されたい。

DeepSeek-R1のプロンプト設計——推論能力を引き出す4原則

R1(およびthinking対応のV4系)は汎用Chatモデルとはプロンプトの最適解が異なる。以下の原則は、公式ドキュメントの推奨と実務上の知見を踏まえたものである。

原則1:System Promptはシンプルに保つ

公式ドキュメントでも推奨されているとおり、多条件を詰め込んだSystem Promptはthinkingプロセスを阻害し精度を低下させる場合がある。「あなたは〇〇の専門家です。常に〜し、かつ〜してください」のような複合制約は最小化することが望ましい。

原則2:Few-shotよりZero-shotが安定する

RL訓練で汎化能力を高めているR1は、例示を大量に与えるよりも「目的→制約→期待出力形式」を明確に記述したZero-shotプロンプトの方が安定した応答を示す傾向がある。例示が増えるほど特定パターンへの収束が強まり、汎用推論の恩恵が薄れやすい。

原則3:推論ステップを誘発するキーワードを添える

日本語プロンプトでは「ステップごとに考えて」「根拠を明示して」「前提を整理してから答えて」といった一言を添えるとthinkingの質が向上しやすい。英語では“Think step by step before answering.”が定番の誘発フレーズである。

原則4:速度優先の場面ではnon-thinkingモードを選ぶ

レスポンス速度優先の用途では、deepseek-v4-flashのnon-thinkingモードを利用することでthinkingトークンの遅延を回避できる。用途ごとにthinkingの要否を設計段階で判断し、APIパラメータで明示的に制御することが安定した運用につながる。

DeepSeek-R1の推論能力を引き出すプロンプト設計の考え方
System Promptの簡潔化とZero-shot記述がR1の推論能力を最大限に引き出す。thinkingの要否は用途ごとに設計段階で判断する

DeepSeek-R1の系譜的位置づけ——現行V4系へ何が受け継がれたか

R1は現行の主力ではないが、その設計が切り開いた方向性は現行モデルに直接継承されている。以下の系譜表で各世代の関係を整理する。

モデル リリース 位置づけ Thinkingモード 備考
DeepSeek-V3 2024年末 汎用旗艦(旧世代) なし 671B MoE、コーディング・対話
DeepSeek-R1 2025年1月 推論特化(旧世代) あり(thinking公開) 本記事の主対象。MITライセンスで公開
DeepSeek-V3.1 2025年8月21日 ハイブリッド推論(旧世代) あり(ハイブリッド) V4に置換済み
DeepSeek-V3.2 2025年12月1日 V3系最終世代 あり V4に置換済み
DeepSeek-V4-Flash 2026年4月24日 現行軽量主力 あり(non-thinkingも可) 消費者チャットの既定モデル。284B MoE
DeepSeek-V4-Pro 2026年4月24日 現行旗艦 あり 1.6T MoE・アクティブ約49B・1Mトークンコンテキスト

出典:DeepSeek API Docs — Change LogDeepSeek-V4-Pro on Hugging Face(各2026年6月8日確認)。

V4系とR1の連続性は「MoEによる計算効率」「thinking機能の継承」「MITライセンスによるオープンウェイト公開」という3点に集約される。R1が2025年初頭に示した設計選択が、後継世代においてもアーキテクチャの根幹をなしている。GANをはじめとする生成モデルの基礎との比較にはGANの解説も参照されたい。

弊社クリスタルメソッド株式会社が開発するDeepAIは、実在の人物の容姿・表情・声・振る舞いをデジタル空間で再現するバーチャルヒューマン/AIアバターソリューションである。リップシンク・表情生成・音声合成・対話AIを組み合わせ、接客・研修・面接練習・広報などの用途で活用されている。本記事が論じるLLM推論エンジンの選定とは目的が異なる製品であり、詳細は別途ご案内する。


参考文献

監修

河合 継(クリスタルメソッド株式会社 代表取締役)

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について編集方針

AIブログ購読

 
クリスタルメソッドがお届けする
AIブログの更新通知を受け取る

Study about AI

AIについて学ぶ

  • AI規制イタリア国家戦略の実施令承認——日本AI政策への実務的示唆

    AI規制イタリア国家戦略の実施令承認——日本AI政策への実務的示唆

    イタリアAI規制 実施令の予備承認——何が起きたか 2026年6月10日、イタリアの閣議(Consiglio dei Ministri)は、2025年9月23日...

  • OpenAI Codexエージェントが企業クラウドへ——Ona買収が日本企業に意味すること

    OpenAI Codexエージェントが企業クラウドへ——Ona買収が日本企業に意味すること

    OpenAI×Ona買収の要点——何が起きたか 2026年6月11日、OpenAIはAIエージェント向けクラウド実行環境を手がけるスタートアップ「Ona(旧Gi...

  • NVIDIA Vera CPU正式ローンチがAIインフラとデータセンター投資に示す日本企業への示唆

    NVIDIA Vera CPU正式ローンチがAIインフラとデータセンター投資に示す日本企業への示唆

    NVIDIA Vera CPUとは何か——AIインフラ向けCPU内製化という構造的転換 NVIDIAは2026年、エージェント型AIと強化学習の時代に向けて専用...

View more