blog

AIブログ

DeepSeek-R1とは何か——推論特化モデルの設計原理と実務価値

DeepSeek-R1が推論研究に問いかけたこと

DeepSeek-R1は、中国のAI企業DeepSeekが2025年1月に公開した大規模言語モデルである。数学・コーディング・論理推論といった構造的思考を要するタスクで、当時の最高水準とされたOpenAI o1シリーズと同等の性能を示しながら、開発コストおよび推論コストを大幅に抑えた。その訓練手法は科学技術振興機構（JST）の情報サービスでも「Natureに掲載された」と報告されており、単なる低価格の代替品ではなく、推論能力の獲得原理そのものを再考させた研究成果として評価されている（出典：spap.jst.go.jp — DeepSeek-R1の訓練方法がNatureに掲載）。

2026年4月24日には後継の旗艦モデルとしてDeepSeek-V4-ProおよびDeepSeek-V4-Flashがリリースされており、2026年6月時点での主力APIはV4系に移行している。旧API名deepseek-reasonerは2026年7月24日（UTC 15:59）に廃止予定であり、新規開発では後述の現行名を使用することが求められる。本記事はR1の設計原理と実務価値を深掘りしつつ、現行モデルとの系譜的な接続も整理する。

ディープラーニングの基礎から体系的に理解したい場合はディープラーニングの基礎を、強化学習の原理については強化学習の解説をあわせて参照されたい。

DeepSeek-R1の訓練パイプライン概念図。SFTなしのRL単独でCoT能力が自然発現するR1-Zeroを経由して最終モデルR1が構築される

DeepSeek-R1のアーキテクチャ——MoE・強化学習・Extended Thinkingの3層

R1の技術的革新は、互いに補完し合う3つの設計層から成る。

第一層：Mixture-of-Experts（MoE）による計算効率

R1はDeepSeek-V3と同じMoEアーキテクチャを基盤とし、総パラメータ約671Bのうち推論時に活性化されるのはトークンごとに選ばれた約37Bのみである。フルサイズのDenseモデルと比べて計算量を大幅に削減しながら高精度を維持するこの設計思想は、現行旗艦のDeepSeek-V4-Pro（総パラメータ1.6T・アクティブ約49B）にもスケールを拡張した形で継承されている（出典：DeepSeek API Docs — Change Log、2026年6月8日確認）。

第二層：純粋強化学習による推論能力の自然発現

R1の前段にあたるR1-Zeroは、教師ありファインチューニング（SFT）を一切行わず、強化学習（RL）だけで数学・コーディングの推論能力を獲得した。報酬シグナルは「答えの正誤」と「フォーマット遵守」の2点のみという簡潔な設計から、Chain-of-Thought（CoT）的な長い思考プロセスが自然に出現したことが論文で報告されている。教師データなしに構造的推論が自発的に生成されるという発見は、学術的に広く注目されており、JSTのJ-GLOBALにも「学界と図書館をどのように変えるか」という観点からの論考が収録されている（出典：J-GLOBAL — ChatGPTを越えて: DeepSeek R1は学界と図書館をどのように変えるか）。

最終版R1では、R1-Zeroの挙動を基盤としてSFTデータとRLを組み合わせた多段階パイプラインを採用し、可読性と汎用性を高めている。この研究が示したオープンな訓練手法の意義については、JSTの専門家分析も参照に値する（出典：spap.jst.go.jp — DeepSeekショックの真の意味、AIの「オープンor独占」）。

第三層：推論過程の可視化（Extended Thinking）

R1は「まず考える→次に答える」という2段階で応答する。APIレスポンスでは<think>...</think>タグ内に推論過程が収まり、その後に最終回答が続く構造である。この設計がもたらす実務上の意義は3点に整理できる。

答えが誤っていた場合でも、どのステップで論理が崩れたかを特定できる
問題設定が曖昧であっても、モデルが前提を自己補完して解釈を明示する
教育・研究用途でロジックそのものを学習素材として活用できる

この推論モード対応は現行のDeepSeek-V4-ProおよびV4-Flashにも引き継がれており、thinking機能は世代を超えて継承されている。

DeepSeek-R1の性能——ベンチマークが示す数値と解釈上の注意

以下は公開論文に基づく2025年1月時点のベンチマーク比較である。現行V4系への移行後も、R1の数値は当時の設計が達成した水準を示す研究上の基準点として参照価値を持つ。ただし比較対象モデルも継続的に更新されており、現時点の最新版との直接比較には別途検証が必要である。

ベンチマーク	DeepSeek-R1	OpenAI o1	Claude 3.5 Sonnet
AIME 2024（数学）	79.8%	79.2%	16.0%
MATH-500（数学）	97.3%	96.4%	78.3%
Codeforces（コーディング）	96.3パーセンタイル	96.6パーセンタイル	—
MMLU（知識・推論）	90.8%	91.8%	88.3%
GPQA Diamond（科学）	71.5%	75.7%	65.0%

数学タスクではo1をわずかに上回り、科学・知識系ではo1がやや優位という傾向が読み取れる。いずれの数値もR1公開時の論文に基づくものであり、比較対象となったo1・Claude 3.5 Sonnetは現在それぞれ後継バージョンが存在する点に留意が必要である。

R1が示した「高い推論精度を低コスト構造で実現する」という方向性は、のちのV4系にも設計思想として受け継がれている。産業的インパクトについては、JSTの専門家分析が有益な視座を提供している（出典：spap.jst.go.jp — DeepSeekショックの真の意味、AIの「オープンor独占」）。

DeepSeek-R1の蒸留モデル群——ローカル運用の技術的選択肢

R1の大きな特長の一つが、オープンウェイトで公開されている蒸留版（Distilled）モデル群である。フルスケールのR1（671B MoE）の推論パターンをQwen2.5・LLaMA 3シリーズなどのDenseモデルに移植し、手元のGPUで動作するサイズに落とし込んでいる。MITライセンスのため商用利用も可能である。

モデル名	パラメータ数	ベースモデル	動作目安
DeepSeek-R1-Distill-Qwen-1.5B	1.5B	Qwen2.5-1.5B	CPU・軽量GPU
DeepSeek-R1-Distill-Qwen-7B	7B	Qwen2.5-7B	VRAM 8GB〜
DeepSeek-R1-Distill-Qwen-14B	14B	Qwen2.5-14B	VRAM 16GB〜
DeepSeek-R1-Distill-Qwen-32B	32B	Qwen2.5-32B	VRAM 24GB×2〜
DeepSeek-R1-Distill-LLaMA-8B	8B	LLaMA-3.1-8B	VRAM 8GB〜
DeepSeek-R1-Distill-LLaMA-70B	70B	LLaMA-3.3-70B	VRAM 80GB×2〜

14Bモデルは標準的なコーディング補助や文書要約で実用水準に達しやすく、機密データをクラウドに送出できない案件でのローカルLLM候補として検討しやすい。32Bになると複数ステップの推論精度が向上し、法的・財務的な複合条件分析でも信頼性の高い応答が得られる傾向がある。ただしVRAM要件が実行環境に対して現実的かどうかは、事前のプロファイリングで確認することが前提となる。

ollamaを用いたローカル起動の基本コマンドは以下のとおりである。

# 14B蒸留モデルのダウンロードと起動
ollama run deepseek-r1:14b

# <think> タグ付きで推論プロセスが表示される

ollamaはGPU/CPUを自動で切り替えるため、GPU非搭載環境でも動作するが、応答速度は著しく低下する点に留意が必要である。機械学習モデルの全体的な文脈については機械学習の基礎を、マルチモーダル対応モデルとの組み合わせについてはマルチモーダルAIの解説を参照されたい。

ローカルLLMの導入やRAG構築をご検討の方は、AI開発会社クリスタルメソッドの無料相談をご利用ください。

DeepSeek-R1のAPI利用と現行モデルへの移行——実装者が把握すべき変更点

R1の推論機能はthinking対応の現行モデルに引き継がれている。2026年6月時点で実装上重要な移行情報を整理する。

API名の変更と廃止スケジュール

旧API名deepseek-reasonerは2026年7月24日（UTC 15:59）をもって廃止予定である。現在は経過措置としてDeepSeek-V4-FlashのthinkingモードにマッピングされているDeepSeek API Docsの記載を参照のこと（出典：DeepSeek API Docs — Change Log、2026年6月8日確認）。新規開発では以下の現行モデル名を使用することを強く推奨する。

モデル	API名	Thinkingモード	入力（キャッシュミス）	出力
DeepSeek-V4-Flash	`deepseek-v4-flash`	対応（non-thinkingも可）	$0.14 / 100万トークン	$0.28 / 100万トークン
DeepSeek-V4-Pro	`deepseek-v4-pro`	対応	$0.435 / 100万トークン※	$0.87 / 100万トークン※

※ deepseek-v4-proの$0.435/$0.87は75%割引のプロモーション価格。割引終了後の標準価格は入力$1.74・出力$3.48。本番運用前に公式料金ページで最新情報を確認すること（出典：DeepSeek API Docs — Models & Pricing、2026年6月8日確認）。

消費者向けチャット（chat.deepseek.com）は完全無料で提供されており、個人向けの有料サブスクリプションは存在しない。課金が発生するのはAPIの従量制利用のみである（出典：DeepSeek API Docs — Models & Pricing、2026年6月8日確認）。

APIコード例（Python）

OpenAI Python SDKを使えば、エンドポイントとモデル名を差し替えるだけでthinking機能を持つDeepSeekモデルを呼び出せる。

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_DEEPSEEK_API_KEY",
    base_url="https://api.deepseek.com"
)

response = client.chat.completions.create(
    model="deepseek-v4-flash",  # 旧: deepseek-reasoner → 2026-07-24廃止
    messages=[
        {"role": "user", "content": "以下の積分を解いてください：∫x²e^x dx"}
    ]
)

# 推論プロセス（thinking）
print(response.choices[0].message.reasoning_content)

# 最終回答
print(response.choices[0].message.content)

reasoning_contentフィールドにthinkingトークンが、contentに最終回答が格納される構造である。

DeepSeek-R1の限界と実務上の判断基準

R1の実務的な価値を正確に把握するには、強みと限界を同列に理解する必要がある。過大評価は導入後の失望につながるため、以下を設計段階で把握しておくことが重要である。

推論特化設計が活きるタスク

数学・証明問題：複数ステップの計算・証明で誤りが生じにくく、途中式が自動で提示される
アルゴリズム実装・デバッグ：コードの論理エラーを推論プロセスで段階的に特定しやすい
複合条件の論理推論：入れ子になった条件分岐を体系的に整理する
要件定義・仕様書レビュー：前提の矛盾や抜け漏れをthinkingステップで指摘しやすい
科学文献の読解：専門的な数式・化学式を含む文書でも精度を維持しやすい

設計上の限界と対処指針

リアルタイム情報の欠如：学習データカットオフ以降の情報は持たない。RAGやWeb検索との組み合わせが必要である
大規模コンテキストの一貫性低下：文脈が極端に長くなると後半部の参照精度が低下する場合がある
日本語の微妙なニュアンス：英語・中国語と比較して詩的表現・方言・慣用表現には弱い傾向がある
センシティブなトピックへの制限：中国の規制に準拠した制限が一部ドメインに存在する（政治・歴史系など）。グローバル展開するサービスでは事前にポリシー差異を把握しておく必要がある
thinkingによるレイテンシ増加：thinkingトークン分だけ最初のトークン出力が遅延する。低レイテンシが求められるリアルタイム用途では、non-thinkingモードへの切り替えを検討すべきである
データプライバシー：公式APIは中国法人が運営しており、送信データが中国国内サーバーを経由する。機密情報・個人情報を含むプロンプトの送信には、組織のデータガバナンスポリシーとの照合が前提となる。蒸留モデルのオンプレ運用がこの問題の有効な回避策となりうる

テキストマイニングとの組み合わせによる応用についてはテキストマイニングの手法、NLP基礎モデルとの比較という観点ではBERTとは何かも参考になる。スパースモデリングの観点からのアーキテクチャ理解にはスパースモデリングを参照されたい。

DeepSeek-R1のプロンプト設計——推論能力を引き出す4原則

R1（およびthinking対応のV4系）は汎用Chatモデルとはプロンプトの最適解が異なる。以下の原則は、公式ドキュメントの推奨と実務上の知見を踏まえたものである。

原則1：System Promptはシンプルに保つ

公式ドキュメントでも推奨されているとおり、多条件を詰め込んだSystem Promptはthinkingプロセスを阻害し精度を低下させる場合がある。「あなたは〇〇の専門家です。常に〜し、かつ〜してください」のような複合制約は最小化することが望ましい。

原則2：Few-shotよりZero-shotが安定する

RL訓練で汎化能力を高めているR1は、例示を大量に与えるよりも「目的→制約→期待出力形式」を明確に記述したZero-shotプロンプトの方が安定した応答を示す傾向がある。例示が増えるほど特定パターンへの収束が強まり、汎用推論の恩恵が薄れやすい。

原則3：推論ステップを誘発するキーワードを添える

日本語プロンプトでは「ステップごとに考えて」「根拠を明示して」「前提を整理してから答えて」といった一言を添えるとthinkingの質が向上しやすい。英語では“Think step by step before answering.”が定番の誘発フレーズである。

原則4：速度優先の場面ではnon-thinkingモードを選ぶ

レスポンス速度優先の用途では、deepseek-v4-flashのnon-thinkingモードを利用することでthinkingトークンの遅延を回避できる。用途ごとにthinkingの要否を設計段階で判断し、APIパラメータで明示的に制御することが安定した運用につながる。

DeepSeek-R1の推論能力を引き出すプロンプト設計の考え方 — System Promptの簡潔化とZero-shot記述がR1の推論能力を最大限に引き出す。thinkingの要否は用途ごとに設計段階で判断する

DeepSeek-R1の系譜的位置づけ——現行V4系へ何が受け継がれたか

R1は現行の主力ではないが、その設計が切り開いた方向性は現行モデルに直接継承されている。以下の系譜表で各世代の関係を整理する。

モデル	リリース	位置づけ	Thinkingモード	備考
DeepSeek-V3	2024年末	汎用旗艦（旧世代）	なし	671B MoE、コーディング・対話
DeepSeek-R1	2025年1月	推論特化（旧世代）	あり（thinking公開）	本記事の主対象。MITライセンスで公開
DeepSeek-V3.1	2025年8月21日	ハイブリッド推論（旧世代）	あり（ハイブリッド）	V4に置換済み
DeepSeek-V3.2	2025年12月1日	V3系最終世代	あり	V4に置換済み
DeepSeek-V4-Flash	2026年4月24日	現行軽量主力	あり（non-thinkingも可）	消費者チャットの既定モデル。284B MoE
DeepSeek-V4-Pro	2026年4月24日	現行旗艦	あり	1.6T MoE・アクティブ約49B・1Mトークンコンテキスト

出典：DeepSeek API Docs — Change Log、DeepSeek-V4-Pro on Hugging Face（各2026年6月8日確認）。

V4系とR1の連続性は「MoEによる計算効率」「thinking機能の継承」「MITライセンスによるオープンウェイト公開」という3点に集約される。R1が2025年初頭に示した設計選択が、後継世代においてもアーキテクチャの根幹をなしている。GANをはじめとする生成モデルの基礎との比較にはGANの解説も参照されたい。

弊社クリスタルメソッド株式会社が開発するDeepAIは、実在の人物の容姿・表情・声・振る舞いをデジタル空間で再現するバーチャルヒューマン／AIアバターソリューションである。リップシンク・表情生成・音声合成・対話AIを組み合わせ、接客・研修・面接練習・広報などの用途で活用されている。本記事が論じるLLM推論エンジンの選定とは目的が異なる製品であり、詳細は別途ご案内する。

参考文献

DeepSeek API Docs — Models & Pricing: https://api-docs.deepseek.com/quick_start/pricing（2026年6月8日確認）
DeepSeek API Docs — Change Log: https://api-docs.deepseek.com/updates（2026年6月8日確認）
DeepSeek-V4-Pro on Hugging Face（MITライセンス確認）: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro（2026年6月8日確認）
DeepSeek 公式サイト: https://www.deepseek.com/en/（2026年6月8日確認）
科学技術振興機構（JST）— DeepSeek-R1の訓練方法がNatureに掲載: https://spap.jst.go.jp/china/news/250904/topic_4_05.html
J-GLOBAL（JST）— ChatGPTを越えて: DeepSeek R1は学界と図書館をどのように変えるか: http://jglobal.jst.go.jp/public/202602275921533585
科学技術振興機構（JST）— DeepSeekショックの真の意味、AIの「オープンor独占」を関係者が語る: https://spap.jst.go.jp/china/experiences/science/st_25018.html

監修

河合継（クリスタルメソッド株式会社代表取締役）

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について｜編集方針

LLM・ローカルLLMの業務導入をご検討の方へ

クリスタルメソッドは、オープンモデル・ローカルLLMの選定からRAG構築・PoC・本番導入までのAI開発を支援しています。「機密データを外部に出さずにLLMを使いたい」「自社の業務に合うモデルを選びたい」といったご相談を承っています。

無料相談・お問い合わせ：ご相談はこちら

Study about AI

AIについて学ぶ

Claude Opus 5 活用方法と企業導入ロードマップ：コスト半減と自律運用の最適解

Anthropicが発表した「Claude Opus 5」の概要 Anthropicは、同社の最新かつ最上位のフラッグシップAIモデルである「Claude Op...
OpenAIの音声エージェント開発を企業が導入する基準：新基盤「Presence」の衝撃

OpenAIの音声エージェント開発を企業が導入する基準：新基盤「Presence」の衝撃 AI技術の進展に伴い、企業のカスタマーサポートやセールス活動における自...
AI 暴走リスクセキュリティ対策：OpenAI自律ハッキング事案から学ぶ企業の防衛策

人工知能（AI）技術の進化は、業務効率化や意思決定の迅速化に大きく貢献する一方で、これまでにない新たな脅威をもたらしています。特に、自律的に判断して行動する「A...