blog

AIブログ

DeepSeek API の使い方｜料金・始め方【2026年版】

DeepSeek APIとは？概要と基本的な特徴

DeepSeek APIは、中国のAIスタートアップDeepSeekが提供するLLM（大規模言語モデル）への外部アクセス手段です。現行の旗艦モデルDeepSeek-V4-ProおよびDeepSeek-V4-FlashをHTTPリクエスト経由で呼び出せるため、自社サービス・業務システム・アプリへの組み込みが可能になります。特筆すべきはOpenAI互換のインターフェースを採用している点で、既存のChatGPT連携コードをほぼそのまま流用できるという実用上の大きなメリットがあります。

私たちクリスタルメソッドでは複数のLLMを実運用で検証していますが、DeepSeek APIは「コストパフォーマンスと推論性能のバランス」という観点で注目度が高く、特にテキスト生成・コード補完・長文要約のユースケースで繰り返し評価してきました。DeepSeek自体の概要や背景についてはDeepSeekとは何か・全体像を解説した記事をご覧ください。本記事ではAPIに絞って、接続方法・モデル選択・実装・コスト最適化まで深掘りします。

DeepSeek APIのエンドポイントとOpenAI互換性

DeepSeek APIのベースURLは https://api.deepseek.com です。Chat Completions・FIM（Fill-In-the-Middle）補完の2種類のエンドポイントが主要なアクセス口となっています。

エンドポイント	パス	主な用途	OpenAI互換
Chat Completions	/v1/chat/completions	対話・テキスト生成・コード生成	◎（完全互換）
FIM Completions	/v1/completions	コードの途中補完（prefix/suffix指定）	△（一部拡張あり）
Models List	/v1/models	利用可能モデルの一覧取得	◎

OpenAI互換という設計は実務上きわめて重要です。OpenAIのPythonライブラリ（openaiパッケージ）を使い、base_urlとAPIキーを差し替えるだけで接続できます。自社の検証環境でも、既存のプロンプトテンプレートやストリーミング処理コードをほぼ無改修で流用できることを確認しています。

APIキーの取得手順

APIキーはDeepSeekの開発者ポータルから取得します。以下の手順で進めてください。

アカウント登録：platform.deepseek.com にアクセスし、メールアドレスまたはGoogleアカウントでサインアップする。
API Keys画面へ移動：ログイン後、左メニューの「API Keys」を選択する。
新規キー作成：「Create new secret key」をクリックし、識別名を入力して生成する。
キーをコピー・保存：表示されるのは一度限り。環境変数（例：DEEPSEEK_API_KEY）に格納し、コード上にハードコードしない。
クレジットのチャージ：初期クレジットが付与されている場合もあるが、継続利用には「Top-Up」からクレジットカードで残高を追加する。

注意点として、APIキーとチャットUI（chat.deepseek.com）のアカウントは残高が独立しています。チャットUIは完全無料で利用でき、有料の個人プランは存在しません。APIクレジットとは別管理のため、初期設定時に混同しやすいポイントなので確認してください。

クイックスタート：Pythonでの実装例

最もシンプルな呼び出しコードを示します。OpenAIライブラリがそのまま使えるため、導入障壁は低いです。


import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ.get("DEEPSEEK_API_KEY"),
    base_url="https://api.deepseek.com"
)

response = client.chat.completions.create(
    model="deepseek-v4-flash",    # 軽量・低コストの主力モデル
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user",   "content": "Pythonでフィボナッチ数列を生成するコードを書いてください。"}
    ],
    temperature=0.7,
    max_tokens=1024,
    stream=False
)

print(response.choices[0].message.content)

ストリーミングを使う場合は stream=True に変更し、レスポンスをイテレートするだけです。長文生成やチャットUIへのリアルタイム表示に有効で、タイムアウトリスクも下がります。


response = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[{"role": "user", "content": "長い報告書を要約してください。"}],
    stream=True
)

for chunk in response:
    delta = chunk.choices[0].delta
    if delta.content:
        print(delta.content, end="", flush=True)

利用可能なモデルと使い分け

DeepSeek APIでは用途に合わせて複数のモデルを選択できます。2026年4月24日にリリースされたV4系が現行の主力です。以下の表で特徴と推奨用途を整理します。

モデルID	ベースモデル	コンテキスト長	特徴・推奨用途
`deepseek-v4-flash`	DeepSeek-V4-Flash（284B MoE、アクティブ約13B）	最大1Mトークン、最大出力384K	汎用テキスト生成・対話・コード生成。速度とコストのバランスが良い。thinking/non-thinking両モード対応。消費者チャットの既定モデル
`deepseek-v4-pro`	DeepSeek-V4-Pro（1.6T MoE、アクティブ約49B）	最大1Mトークン、最大出力384K	数学・論理推論・複雑なコーディング。推論（thinking）モード対応で高精度な回答を生成。最高性能が求められる用途に

実務での使い分けポイントは明確です。deepseek-v4-flashは速度優先・コスト重視のバッチ処理やユーザー向け応答生成に向いており、スループットが求められる用途に適しています。一方、deepseek-v4-proは回答品質が最重要なシナリオ——数式を含む解析レポート生成・複雑なアルゴリズム設計・論理パズル型のQA——で力を発揮します。レイテンシはV4-Flashより長くなる傾向があるため、ユーザーが即時レスポンスを期待するインタラクティブな用途では注意が必要です。

推論（thinking）モードについて

V4-ProおよびV4-Flashはいずれも推論（thinking）モードに対応しています。thinkingモードで呼び出すと、レスポンスにモデルが内部で行った思考過程のテキストが含まれます。課金対象に含まれるため、推論トークン数が想定より多くなることがある点を把握しておく必要があります。不要な場合はクライアント側で思考過程フィールドを非表示にする処理を加えるだけで十分です。

主要パラメータと設定の考え方

パラメータ	推奨値・範囲	用途・注意点
`temperature`	0.0〜1.5（デフォルト1.0）	低い値ほど決定論的。コード生成は0.0〜0.3、創作は0.7〜1.2が目安
`max_tokens`	用途により設定	未設定だとモデルの最大値まで出力し、コスト増になる可能性あり
`top_p`	0.0〜1.0（デフォルト1.0）	temperatureと同時変更は避ける。どちらか一方を調整するのが定石
`stream`	true / false	長文生成はtrueを推奨。タイムアウト回避とUX向上に有効
`stop`	文字列 or 配列	特定トークンで生成を打ち切る。構造化出力の制御に活用
`response_format`	`{"type": "json_object"}`	JSON出力を強制。スキーマ整合が必要な処理で有用

実運用上、max_tokens の未設定は予期しないコスト増の原因になります。バッチ処理では必ず上限を設定し、想定外の長文出力を防ぐことをおすすめします。

FIM（Fill-In-the-Middle）：コード補完に特化した使い方

DeepSeek APIにはコードの「穴埋め補完」に特化したFIMエンドポイントがあります。カーソル前後のコードを指定すると、中間部分を生成します。GitHub Copilot的な補完機能を自社ツールに組み込む際に活用できます。


response = client.completions.create(
    model="deepseek-v4-flash",
    prompt="def calculate_total(prices):\n    total = 0\n    ",
    suffix="\n    return total",
    max_tokens=128
)
print(response.choices[0].text)

prompt にカーソルより前のコード、suffix にカーソルより後のコードを渡すシンプルな構造です。自社で試した限りでは、短い関数内の実装補完やループ内処理の穴埋めで特に精度が高く、定型的なコードの自動生成フローに組み込みやすいと感じています。

コスト管理の考え方（概算）

DeepSeek APIはトークン単位の従量課金で、低コストのdeepseek-v4-flashと高性能のdeepseek-v4-proから選べます。いずれも主要な海外LLM APIと比べて入力コストが安価なのが特徴で、同一プレフィックス（システムプロンプトや長い固定コンテキスト）を再利用する際の「プロンプトキャッシュ」を活用すると、ヒット分は通常入力より大幅に安い単価で課金され、さらにコストを抑えられます。モデル別の正確な単価・キャッシュヒット価格・プロモーション状況といった最新の料金詳細はDeepSeekの料金プラン・単価詳細にまとめています。なお消費者向けチャット（chat.deepseek.com／公式アプリ）は完全無料で、課金はAPIの従量制のみです。

ローカルLLMの導入やRAG構築をご検討の方は、AI開発会社クリスタルメソッドの無料相談をご利用ください。

エラーハンドリングと本番運用の注意点

APIを本番環境に組み込む際は、エラー種別ごとのハンドリング設計が不可欠です。主なエラーコードと対処を整理します。

HTTPステータス	エラー内容	推奨対処
400	リクエスト形式不正（パラメータ誤りなど）	リクエストボディを確認。モデルIDや必須フィールドをチェック
401	APIキー認証失敗	APIキーの有効性・環境変数の設定を確認
402	残高不足	ポータルでクレジットをチャージ。アラート設定を推奨
422	パラメータ値が不正（例：temperatureの範囲外）	各パラメータの許容範囲を確認し修正
429	レートリミット超過	指数バックオフでリトライ。並列リクエスト数を制御
500 / 503	サーバー側エラー・過負荷	リトライロジックを実装。サービス障害時はステータスページを確認

本番運用で特に注意すべき点は429（レートリミット）と402（残高不足）の2つです。レートリミットはモデルや契約レベルによってRPM（分あたりリクエスト数）・TPM（分あたりトークン数）の両軸で設定されています。バッチ処理を大量に流す場合は、セマフォやキューで同時実行数を制御し、429が返った際はRetry-Afterヘッダーを読んで待機時間を決定するのが定石です。

また、残高ゼロになると即座にAPIが停止するため、ポータルの残高アラート機能を有効にするか、定期的に残高を確認するモニタリングを組み込むことを強く推奨します。

他のLLM APIとの比較：どう使い分けるか

DeepSeek APIの位置づけを明確にするため、主要APIとの比較ポイントを整理します。GPT-4oやClaude、Geminiなどとの詳細比較はDeepSeek比較記事で網羅していますので、ここではAPIの実装・コスト観点に絞ります。

DeepSeek API

OpenAI互換でコード変更最小
価格競争力が高い
V4-Proの推論性能が強力
サーバーが中国拠点。データ主権に注意が必要

OpenAI API

エコシステムが成熟・ドキュメント豊富
Fine-tuningやAssistants APIなど高機能
単価はDeepSeekより高い傾向
Azure OpenAI経由でリージョン選択可

DeepSeekの自社ホスティング

V4-Pro / V4-FlashはMITライセンスで公開（Hugging Face / GitHub）
データを外部送信しない
インフラコストと運用負荷が発生

金融・医療・法務など機密性の高いデータを扱う場合は、データが中国のサーバーを通ることへの法的・ポリシー上のリスク評価が必要です。そのような用途では、DeepSeekのオープンウェイトモデル（MITライセンス）をAWS・Azure・GCPなどの自社管理クラウド環境でホスティングする選択肢も現実的です。

無料枠・無料で試す方法

消費者向けチャット（chat.deepseek.com / 公式アプリ）は完全無料で利用できます。APIについては新規登録時に一定のクレジットが付与される場合があり、登録後すぐに実験を開始できます。無料チャットとAPIクレジットの違い、無料で利用できる範囲の詳細はDeepSeek無料版の解説記事にまとめています。APIを本格導入する前に無料枠で動作確認・コスト感の把握ができるため、まず小さな検証から始めることをおすすめします。

LangChain・LlamaIndexとの統合

DeepSeek APIはOpenAI互換であるため、LangChainやLlamaIndexといったLLMオーケストレーションフレームワークとの統合も容易です。

LangChainでの接続例


from langchain_openai import ChatOpenAI

llm = ChatOpenAI(
    model="deepseek-v4-flash",
    openai_api_key="YOUR_DEEPSEEK_API_KEY",
    openai_api_base="https://api.deepseek.com",
    temperature=0.3
)

result = llm.invoke("売上データの傾向を3点に要約してください。")
print(result.content)

langchain_openai の ChatOpenAI クラスを使い、openai_api_base をDeepSeekのエンドポイントに向けるだけです。RAGパイプライン・エージェント・チェーン処理など、LangChainのエコシステムがそのまま活用できます。同様の手順でLlamaIndexの OpenAI LLMクラスもDeepSeekに向けることが可能です。

まとめ

DeepSeek APIは、OpenAI互換のインターフェース・高い推論性能・競争力のある価格という三拍子が揃った選択肢です。既存のOpenAI実装からの移行コストが低い点は実務上の大きな利点であり、base_urlとAPIキーを変えるだけで試せるため、まず検証環境で動かしてみることをおすすめします。

導入時のチェックポイントを整理すると次のとおりです。

用途に応じてdeepseek-v4-flash（汎用・速度重視）とdeepseek-v4-pro（推論・コード品質重視）を使い分ける
V4-Proのプロモ価格（入力$0.435 / 出力$0.87）は割引終了後に標準価格（入力$1.74 / 出力$3.48）へ移行する点を考慮してコスト試算する
システムプロンプトが長い場合はキャッシュ活用でコストを最適化する
429・402エラーへの対策（リトライロジック・残高アラート）を本番前に実装する
機密データを扱う場合はデータ主権リスクを事前に評価し、MITライセンスで公開されているオープンウェイトモデルの自社ホスティングも検討する
LangChain等の既存スタックとはOpenAI互換を活かして容易に統合できる

DeepSeek全体の背景・仕組みについてはDeepSeekとは何かを解説した記事、料金の全体像はDeepSeek料金解説記事、他モデルとの性能・コスト比較はDeepSeek比較記事もあわせてご参照ください。

参考文献

監修

河合継（クリスタルメソッド株式会社代表取締役）

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について｜編集方針

LLM・ローカルLLMの業務導入をご検討の方へ

クリスタルメソッドは、オープンモデル・ローカルLLMの選定からRAG構築・PoC・本番導入までのAI開発を支援しています。「機密データを外部に出さずにLLMを使いたい」「自社の業務に合うモデルを選びたい」といったご相談を承っています。

無料相談・お問い合わせ：ご相談はこちら

Study about AI

AIについて学ぶ

Claude Opus 5 活用方法と企業導入ロードマップ：コスト半減と自律運用の最適解

Anthropicが発表した「Claude Opus 5」の概要 Anthropicは、同社の最新かつ最上位のフラッグシップAIモデルである「Claude Op...
OpenAIの音声エージェント開発を企業が導入する基準：新基盤「Presence」の衝撃

OpenAIの音声エージェント開発を企業が導入する基準：新基盤「Presence」の衝撃 AI技術の進展に伴い、企業のカスタマーサポートやセールス活動における自...
AI 暴走リスクセキュリティ対策：OpenAI自律ハッキング事案から学ぶ企業の防衛策

人工知能（AI）技術の進化は、業務効率化や意思決定の迅速化に大きく貢献する一方で、これまでにない新たな脅威をもたらしています。特に、自律的に判断して行動する「A...