blog

DeepSeek OCRとは?文書をMarkdown化するオープンOCRモデルの特徴・使い方・導入判断

DeepSeek OCRとは?文書をMarkdown化するオープンOCRモデルの特徴・使い方・導入判断

DeepSeek OCRとは何か――設計思想と基本仕様

DeepSeek OCRは、DeepSeek AIが2025年10月21日に公開した視覚言語(Vision-Language)OCRモデルである。論文タイトルは「DeepSeek-OCR: Contexts Optical Compression」(arXiv:2510.18234)で、その名が示すとおり「Contexts Optical Compression(文脈的光学圧縮)」が中核技術となる。

従来の大規模言語モデル(LLM)が長い文書テキストを大量のトークンとして処理するのに対し、DeepSeek OCRは文書のテキスト情報を「視覚トークン」として圧縮し、少ないトークン数で文書コンテキスト全体を扱う設計をとる。テキストより画像は情報密度が高いという性質を活かした発想であり、長文書の処理効率と精度を両立させることを狙っている。

モデルの主な仕様は以下のとおりである。

  • パラメータ数:約30億(3B)、テンソル型BF16
  • ライセンス:MIT(オープンウェイト。自己ホスト・商用利用が可能)
  • 実行環境:Hugging Face Transformers(trust_remote_code=True)またはvLLM(2025年10月23日より公式対応)
  • 入力形式:画像+プロンプト(例:<image>\nConvert the document to markdown.
  • 出力形式:Markdown、プレーンテキスト等
  • 対応機能:表の抽出、レイアウト理解、数式認識

モデルウェイトはHugging Face(deepseek-ai/DeepSeek-OCR)およびGitHubで公開されており、モデル利用自体に料金は発生しない。推論コストは、ユーザーが用意するGPU環境またはクラウドインフラに依存する点は後述する。

なお、DeepSeek OCRは2026年現在の主力チャット・APIモデルであるDeepSeek-V4-Pro・V4-Flashとは別系統のOCR特化モデルである。チャットAPIとの混同を避けて評価することが重要だ。DeepSeekのAPIや料金体系についてはDeepSeek API活用ガイドで詳しく解説している。

文書画像入力PDF・スキャン等Contexts OpticalCompressionテキストを視覚トークンへ圧縮・コンテキスト保持VLM推論3Bパラメータ表・数式・レイアウト解釈Markdown構造化テキスト出力MITライセンス・オープンウェイト / 自己ホスト or GPUクラウドで実行olmOCR-bench 75.7 / Arxiv Math 77.2(公式model card記載値)
図:DeepSeek OCRの処理フロー。文書画像をContexts Optical Compressionで視覚トークンへ圧縮し、3BパラメータのVLMが表・数式・レイアウトを解釈してMarkdown等の構造化テキストへ変換する。

DeepSeek OCRの公式ベンチマークと限界を正確に読む

DeepSeek OCRの公式model card(HuggingFace)に記載されているベンチマーク結果は下表のとおりである。本稿では公式一次情報として確認された数値のみを掲載し、SERPに流通する未検証の数値は採用しない。

DeepSeek OCR 公式ベンチマーク(公式model card記載値、2026年7月時点)
ベンチマーク スコア 評価内容
olmOCR-bench 総合 75.7 一般的なOCR精度の総合評価
Arxiv Math 77.2 論文・数式の認識精度
Old Scans Math 73.6 古い文書スキャンの数式認識
MDPBench 総合 51.8 複雑なレイアウトを含む文書処理

公式model card上では、推論サイズ(Tiny〜Largeの各構成)と「Gundam」モードという複数の動作構成が存在する。ユースケースや利用可能なGPUリソースに応じてサイズを選択できる点は、エンタープライズ導入において一定の柔軟性をもたらす。

ただし、MDPBench総合スコアが51.8にとどまる点には留意が必要である。複雑な多段組レイアウトや特殊な書式を含む文書では精度が不十分な場面も想定される。特に日本語文書や複雑なレイアウトを含む場合は、必ず実文書でのPoC検証を行うことを強く勧める。

なお、DeepSeek OCRの日本語対応の詳細についてはDeepSeekの日本語対応解説も参照されたい。

DeepSeek OCRの実行方法と導入時の技術・コスト要件

DeepSeek OCRの実行には、Hugging Face TransformersまたはvLLMを用いる2つの経路がある。いずれも自前のGPUサーバー、またはGPUクラウドサービス上で動作する。モデル自体はMITライセンスで無償配布されているが、推論インフラの調達・運用コストは別途発生することを稟議段階から明示的に計上しなければならない。

Hugging Face Transformers経由の基本的な呼び出し:

from transformers import AutoProcessor, AutoModelForCausalLM

processor = AutoProcessor.from_pretrained(
    "deepseek-ai/DeepSeek-OCR",
    trust_remote_code=True
)
# 入力例
# messages = [{"role": "user", "content": "<image>\nConvert the document to markdown."}]

入力は画像とプロンプトの組み合わせで与え、文書をMarkdownへ変換するよう指示する。プロンプト設計の柔軟性が高く、「表形式で出力」「数式をLaTeX記法で出力」など用途に応じた指示が可能である点は、既存の文書処理パイプラインへの組み込みに際して実用的な強みとなる。

vLLM経由:vLLMは2025年10月23日よりDeepSeek OCRに公式対応しており、高スループット推論が求められるバッチ処理環境での利用に適している。

導入判断において稟議担当者が積算すべき主なコスト要因を以下に整理する。

  • GPUメモリ:3BモデルをBF16で動作させるには一定のVRAMが必要となる。実際の必要量は推論構成(Tiny〜Large)により異なるため、公式GitHubドキュメントで推奨スペックを確認した上でインフラ設計を行うこと。
  • インフラ運用コスト:自己ホストの場合、モデル管理・セキュリティパッチ・スケーリング対応が内部工数として継続的に発生する。この「見えないコスト」は商用マネージドサービスとのTCO比較において必ず計上すべき項目だ。
  • MITライセンスの範囲と変更リスク:現時点では商用利用・改変・再配布が可能であり、社内システムへの組み込みやサービス展開において法的制約は少ない。ただし将来的なライセンス変更リスクは排除できないため、法務部門との定期的な確認体制を設けることを推奨する。

DeepSeekのコアAPIおよびV4系モデルとの統合を検討する場合はDeepSeek API活用ガイドを、料金体系全般についてはDeepSeek料金・費用の詳細解説を参照されたい。セキュリティ・リスク面の評価についてはDeepSeekのリスクと注意点でも論点を整理している。

他のOCRアプローチとの比較――企業導入における選択基準

DeepSeek OCRを既存の商用OCR・LLMベースのOCRアプローチと並べて評価する際の主要軸を以下の比較表に整理した。各サービスの仕様は変動するため、最新情報は各公式ドキュメントで確認すること。

OCRアプローチの比較(2026年7月時点・概要)
比較軸 DeepSeek OCR 商用クラウドOCR
(主要クラウドベンダー等)
汎用VLMによるOCR
(最新世代のLLM等)
ライセンス・モデル費用 MITオープンウェイト(モデル無料) 従量課金(API利用料が継続発生) 従量課金(トークン単価)
データのプライバシー 自己ホスト可(社外送信なし) クラウド送信が前提 クラウド送信が前提
OCR特化設計 OCR専用モデル・圧縮手法 OCR専用エンジン 汎用VLM(OCR専用ではない)
表・数式対応 あり(公式対応) 製品により差異あり 対応可能だが精度は用途次第
Markdown出力 標準対応 別途後処理が必要な場合あり プロンプト次第で対応可
運用負荷 自己インフラ運用が必要 低(マネージドサービス) 低(API呼び出しのみ)
カスタマイズ性 高(ウェイト公開・改変可) 限定的 プロンプト範囲内

DeepSeek OCRが優位性を発揮しやすいのは、(1)機密性の高い文書を社内に閉じた環境で処理したい、(2)大量バッチ処理でAPIコストを抑えたい、(3)MarkdownやLaTeX形式での構造化出力が業務要件として明確に存在する、という3条件が揃う場合である。

一方、OCR専任のエンジニアを確保できない、またはGPUインフラを持たない組織では、商用マネージドサービスのほうが総所有コスト(TCO)で有利になりやすい。自己ホストの「見えないコスト」——インフラ保守・モデル更新管理・セキュリティ対応——は稟議段階で明示的に積算することを強く勧める。

DeepSeekの他モデルとの比較についてはDeepSeek比較記事も参照されたい。DeepSeek OCRが属するDeepSeekエコシステムの全体像はDeepSeek概要解説で把握できる。

導入判断チェックリスト――稟議前に確認すべき6項目

経営・情報システム・事業責任者が稟議・意思決定の場でDeepSeek OCRの採否を判断する際、以下の問いを事前に整理しておくと検討が整理しやすい。

  1. 業務要件の確認:処理対象文書の種類(PDF・スキャン・手書き等)と必要な出力形式(Markdown・テキスト・LaTeX)が一致しているか。
  2. 精度閾値の設定:公式ベンチマーク(olmOCR-bench 75.7 / MDPBench 51.8)が業務の許容誤差と合致しているか。PoCで実文書を使った検証を行ったか。特に日本語文書や複雑なレイアウトを含む場合は必須の工程だ。
  3. GPU環境の調達:必要なVRAMを持つGPUサーバーを自社調達またはクラウドで確保できるか。ランニングコストは試算済みか。
  4. データセキュリティ要件:文書をクラウドAPIに送信せず社内処理することが規制・社内規定上の要件か。あるいは商用クラウドOCRでも許容されるか。
  5. 運用体制:モデルの更新管理・障害対応・セキュリティパッチを担当できるエンジニアリソースが存在するか。
  6. ライセンスリスクの許容:MITライセンスの範囲を法務部門と確認し、将来的なライセンス変更リスクへの対応方針を定めているか。

これらのチェックを経た上でPoC評価に進むことが、導入後の手戻りを防ぐ最短経路となる。DeepSeekの無料利用範囲の全体像はDeepSeek無料利用ガイドでも確認できる。

なお、弊社クリスタルメソッドが開発するバーチャルヒューマン・AIアバターソリューション「DeepAI」は、接客・研修・面接練習などの用途で活用されている。DeepSeek OCRのような文書処理モデルとは異なるカテゴリだが、AIを業務に組み込む際のインフラ・ライセンス・運用体制の検討は共通する論点である。DeepAIの詳細はクリスタルメソッドのAIソリューション紹介で案内している。


よくある質問

Q. DeepSeek-OCRは無料で使えますか?
A. モデルはMITライセンスのオープンウェイトとして公開されており、モデル自体は無料です。ただし推論には自前のGPUまたはGPUクラウドが必要で、そのインフラ費用は別途発生します。

Q. どんな文書に使えますか?
A. PDFやスキャン画像などの文書を、表・数式・レイアウトを解釈してMarkdownやテキストへ変換できます。数式(Arxiv Math 77.2)に比較的強い一方、複雑なレイアウト(MDPBench 総合51.8)は実文書でのPoC検証を推奨します。

Q. 日本語の文書にも使えますか?
A. 使えますが、日本語や複雑なレイアウトの文書は精度が用途次第のため、導入前に実文書でのPoC検証を行うことを推奨します。

Q. チャット版のDeepSeekとは違いますか?
A. 別物です。DeepSeek-OCRはOCRに特化したモデルで、汎用チャット/APIのDeepSeek-V4-Pro・V4-Flashとは系統が異なります。

AIの業務活用をご検討の方へ

クリスタルメソッドは、バーチャルヒューマンをはじめAIの開発・業務導入を支援しています。生成AI・AIエージェントの活用や、自社業務へのAI導入をご検討の際は、お気軽にご相談ください。

参考文献

監修

河合 継(クリスタルメソッド株式会社 代表取締役)

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について編集方針


AIブログ購読

 
クリスタルメソッドがお届けする
AIブログの更新通知を受け取る

Study about AI

AIについて学ぶ

  • 大学・高校の面接でよく聞かれる質問と答え方|回答が通用するか確かめる方法

    大学・高校の面接でよく聞かれる質問と答え方|回答が通用するか確かめる方法

    面接の本番まで残り1〜3週間。志望理由書は書き終えたのに、「実際に何を聞かれるか」「自分の答えで大丈夫か」という不安だけが夜になると膨らむ──そういう状態の人に...

  • バイト面接の質問と答え方|面接官が本当に見ているポイント

    バイト面接の質問と答え方|面接官が本当に見ているポイント

    バイト面接の質問と答え方|面接官が本当に見ているポイントをAI開発者が解説 「どんな質問が来るか」はもう調べた。でも、いざ答えようとすると言葉が出てこない——そ...

  • 面接の逆質問|採用する側が評価している視点と、刺さる質問の設計法

    面接の逆質問|採用する側が評価している視点と、刺さる質問の設計法

    「何か質問はありますか?」——この一言を聞くたびに頭が真っ白になる人は少なくない。事前に例文を調べても、どれも使い回し感があって自分の状況に合うか自信が持てない...

View more