blog

Mistral OCR の仕組みと導入判断――OCR 3 の機能・料金・限界を整理

Mistral OCR の仕組みと導入判断――OCR 3 の機能・料金・限界を整理

Mistral OCR とは何か――従来 OCR との本質的な差

Mistral OCR は、Mistral AI が提供する文書解析特化の API サービスである。単純な光学文字認識にとどまらず、文書全体のレイアウトと意味構造を理解したうえでテキストを抽出する「Document Understanding」の位置づけにある。現行モデルは OCR 3(v25.12) であり、2025年12月19日にリリースされた(出典:Ledge.ai、https://ledge.ai/articles/mistral_ai_mistral_ocr_3_launch)。

従来型エンジン(Tesseract 等)がピクセル単位のパターンマッチングで文字を拾うのに対し、Mistral OCR はビジョン言語モデル(VLM)を基盤とし、段組み・表・数式・図版の位置関係を把握した状態で出力を生成する。結果として得られる構造化 Markdown は、後段の LLM 処理や RAG パイプラインへそのまま流せる形式である。

導入を検討する企業の意思決定者にとって重要なのは、この差が「後処理コスト」の削減に直結するという点である。従来 OCR では崩れた表や数式を人手で修正するか、別途後処理スクリプトを開発する必要があった。Mistral OCR はその工程を圧縮できる可能性を持つが、すべての文書に対して完全無人処理が成立するわけではない点は後述する。

比較項目 従来 OCR エンジン(Tesseract 等) Mistral OCR(OCR 3)
認識の仕組み パターンマッチング・統計モデル ビジョン言語モデル(VLM)による構造理解
レイアウト保持 段組み・表が崩れやすい 見出し・表・箇条書きを Markdown で保持
数式・化学式 ほぼ対応不可 LaTeX 形式で抽出
図版の扱い 無視またはノイズ Base64 埋め込みで位置関係を保持
多言語対応 言語パック別途必要 多言語自動認識・混在対応
手書き対応 限定的 OCR 3 で改善(崩れた手書きは精度低下あり)
出力形式 プレーンテキスト中心 Markdown(見出し・表・コードブロック含む)
後処理コスト 高い(修正・変換スクリプトが必要) 構造が保たれるため直接利用しやすい
PDF / 画像 スキャン・デジタル Mistral OCR VLM による構造理解 Markdown + LaTeX + 図版 後段処理 RAG / DB / LLM 業務活用 検索・回答・自動化
Mistral OCR を経由した文書デジタル化から業務活用までの基本フロー

Mistral OCR のコア機能――導入前に把握すべき 4 点

Markdown 構造保持出力

Mistral OCR の最大の特徴は、見出し階層・箇条書き・表・コードブロックを Markdown として忠実に再現する点にある。PDF のビジュアル的な段落区切りや列構造を解析し、##|---| 形式のテーブルとして出力する。これにより、抽出テキストをそのまま RAG のチャンク原料や CMS へのインポートデータとして利用できる(出典:Impress Watch、https://www.watch.impress.co.jp/docs/news/1668453.html)。テキスト生成系 LLM へ渡す前処理として見ると、構造が保たれているほど回答精度が安定しやすく、チャンク境界の設計も単純化できる。

数式の LaTeX 変換

理工系・医療・金融分野の文書に頻出する数式を、インライン($...$)およびブロック($$...$$)の LaTeX 記法で抽出できる。学術論文の自動解析や教材デジタル化のワークフローで特に有効であり、TeX 系ツールや数式レンダリングライブラリとシームレスに連携できる。文部科学省が推進する学校教育の ICT 整備(出典:文部科学省、https://www.mext.go.jp/content/20260514-mxt_shuukyo01-000042009_004.pdf)の文脈においても、教材のデジタル化前処理技術として注目に値する。

図版のインライン埋め込み

文書中の図・グラフ・写真は Base64 エンコードされた画像データとして出力に含まれ、テキスト文脈の中で元の位置関係が維持される。後段のマルチモーダル LLM に渡せば、図の内容説明もまとめて生成できる。現行では Mistral Medium 3.5・Mistral Large 3・Mistral Small 4 がいずれもマルチモーダル対応しており、OCR 出力との組み合わせが容易である(出典:Mistral AI モデル一覧、https://docs.mistral.ai/models/overview、2026-06-08)。

多言語・手書き対応と BBox アノテーション

アラビア語・日本語・中国語・ヒンディー語など多数の言語を言語指定なしで自動識別する。OCR 3 ではさらに BBox アノテーション(抽出画像の構造化出力)とドキュメント注釈(文書全体の構造化出力)が追加され、抽出要素の位置情報を含む構造化データの取得が可能になった(出典:Threads @testingcatalog、https://www.threads.com/@testingcatalog/post/DJ9h0ziCK4Y/mistral-ai-released-an-update-to-the-mistral-ocr-new-ocr-model-improved-overall-/?hl=ja)。手書き文字や低品質スキャンへの対応も改善されているが、非常に崩れた手書きでは精度が低下するため、高精度が求められる業務では人手レビューフローを設けることを前提として設計する必要がある。

Mistral OCR が複雑なレイアウトの文書を Markdown 形式に変換するイメージ
Mistral OCR による複雑レイアウト文書の Markdown 変換イメージ

Mistral OCR の料金と API 実装――導入コストの見積もり方

料金体系の構造

Mistral OCR は、テキスト生成系 API のトークン課金(例:Mistral Medium 3.5 は入力 $1.50・出力 $7.50 / 百万トークン、Mistral Small 4 は入力 $0.10・出力 $0.30 / 百万トークン)とは異なる課金体系を採用している。OCR は処理ページ数・ドキュメント数に応じた従量課金モデルである。最新の単価は Mistral AI 公式サイトおよびコンソールで確認が必要だ(出典:https://mistral.ai/pricing/、2026-06-08)。詳細な料金プラン全体については Mistral AI の料金プラン解説 を参照してほしい。

なお、Le Chat Pro($14.99/月)は消費者向けサブスクリプションであり、API クレジットは含まれない。開発者 API は別途従量課金となる点に注意が必要だ(出典:https://mistral.ai/pricing/、2026-06-08)。

課金区分 概要 導入時の注意点
ページ単価 処理した文書ページ数に応じて課金 空白ページや画像のみのページも 1 ページとしてカウントされる
バッチ API 大量処理向けに非同期バッチ処理が可能 通常 API と単価が異なる可能性がある。コンソールで確認すること
無料枠 トライアル枠が付与されるケースあり(変動) コンソールで残量を逐次確認する
Le Chat との関係 Le Chat Pro($14.99/月)は消費者向けサブスク API クレジットは含まれない。開発者 API は別途従量課金

コスト最適化の観点では、バッチ API の活用・不要ページの事前除去・入力解像度の適切な設定(300dpi 以上を推奨)が有効である。大量処理の予算を立てる際は、まずサンプル文書でページあたりの実コストを計測してから試算することを強く推奨する。

API 実装の基本ステップ

Mistral OCR の API 利用には Mistral AI の API キーが必要である。取得方法を含む基本的な操作手順は Mistral AI の使い方ガイド および Mistral API 解説 にまとめている。以下は Python クライアントによる典型的な実装例である。

import os
from mistralai import Mistral

client = Mistral(api_key=os.environ["MISTRAL_API_KEY"])

# URL 指定で PDF を処理する例
response = client.ocr.process(
    model="mistral-ocr-latest",
    document={
        "type": "document_url",
        "document_url": "https://example.com/sample.pdf"
    },
    include_image_base64=True
)

for page in response.pages:
    print(page.markdown)
import base64

# ローカルファイルを Base64 でアップロードする例
with open("document.pdf", "rb") as f:
    doc_base64 = base64.b64encode(f.read()).decode("utf-8")

response = client.ocr.process(
    model="mistral-ocr-latest",
    document={
        "type": "document_base64",
        "document_base64": doc_base64
    }
)

for page in response.pages:
    print(page.markdown)

mistral-ocr-latest を指定すると常に最新モデルが適用される。現行は OCR 3(v25.12)だが(出典:https://docs.mistral.ai/models/overview、2026-06-08)、出力形式が変わり得るため、本番環境では特定バージョンを固定する運用を検討すべきである。

レスポンスフィールド 内容
pages list ページごとの解析結果の配列
pages[n].markdown str Markdown 形式の抽出テキスト
pages[n].images list 図版の Base64 データと位置情報
pages[n].dimensions object ページの幅・高さ(ピクセル)
usage_info object 処理ページ数・ドキュメント数(課金計算に利用)

Mistral OCR の主なユースケースと導入時の限界

想定される活用領域

RAG パイプラインへの文書取り込みは最も広いユースケースである。企業内 PDF マニュアル・契約書・報告書を Mistral OCR で構造化 Markdown に変換し、チャンク分割→ベクトル DB 格納→LLM 質問応答という流れに組み込む。見出し構造が保持されているため、H2/H3 で意味的なチャンク境界を切るシンプルなロジックが適用しやすい。回答生成には Mistral Medium 3.5(エージェント・高精度用途)や Mistral Small 4(低コスト・大量処理用途)が選択肢となる(出典:https://mistral.ai/models/、2026-06-08)。

請求書・領収書の構造化データ抽出では、スキャン文書から表形式データを取得し、後段で Mistral のテキスト生成モデルと組み合わせて JSON 形式に変換するステップを加えると、会計システムへの自動入力が現実的になる。NEDO の調査では定型帳票の AI 処理による業務効率化が報告されており(出典:NEDO、https://www.nedo.go.jp/content/800036437.pdf)、OCR の精度向上がその前提技術として位置づけられている。

学術論文・研究資料のデジタル化では、数式・参考文献・図キャプションを含む論文 PDF を LaTeX 混在の Markdown として抽出し、知識ベース構築や文献管理ツールへの自動登録に活用できる。JST が整理している文献情報が示すように(出典:J-GLOBAL、https://jglobal.jst.go.jp/detail?JGLOBAL_ID=202502250090135625)、OCR と LLM の組み合わせは研究情報処理の文脈でも注目されている。

医療・法律文書の非構造化データ処理においては、カルテのスキャンや判決文といった専門文書の前処理として有効である。ただし誤認識が重大なリスクになり得るため、必ず人間によるレビューフローを設けることが前提となる。

導入前に把握すべき限界

Mistral OCR には以下の制約が存在する。導入判断の前にこれらを正確に認識しておく必要がある。

  • 日本語縦書きレイアウト:読み順が乱れる場合がある。横書き PDF への変換を前処理として挟むと改善されるケースがある。
  • 複雑な結合セルを含む表:rowspan/colspan が多用された表は Markdown 表形式に完全変換されないことがある。
  • 1 リクエストあたりのページ上限:大量ページの PDF は分割してリクエストする実装が必要になる。
  • 透かし・背景画像が濃い文書:誤認識リスクが高まる。前処理で補正することで改善できる場合がある。
  • データプライバシー:機密文書を API に送信する際は Mistral AI の利用規約・プライバシーポリシーを確認し、必要に応じてエンタープライズプランのデータ処理条件を精査すること。
  • モデルバージョンの固定:本番環境では mistral-ocr-latest ではなく特定バージョンを指定し、出力形式の非意図的な変化を防ぐ設計を推奨する。
Mistral OCR で文書からデータを抽出・構造化し後段処理へ連携するワークフローイメージ
Mistral OCR を中心に据えた文書構造化から後段業務連携までのワークフローイメージ

導入判断の整理――Mistral OCR が適合する条件と検証の進め方

Mistral OCR の導入が合理的な判断となるのは、以下の条件が重なる場合である。

  • 処理対象文書に表・数式・図版が多く、プレーンテキストでの抽出では後処理コストが高い
  • 抽出結果を LLM(RAG・要約・分類)に直接渡すパイプラインを構築しようとしている
  • 多言語混在文書を一括処理したい
  • API 経由でクラウドサービスとして利用できる体制がある(オンプレミス要件が厳格でない)

一方、縦書き日本語文書が主体である場合や、人手ゼロでの完全自動化を求める場合は、パイロット検証で誤認識率を実測してから判断することが不可欠である。Google Cloud の Gemini Enterprise Agent Platform でも Mistral OCR がパートナーモデルとして提供されており(出典:Google Cloud ドキュメント、https://docs.cloud.google.com/gemini-enterprise-agent-platform/models/partner-models/mistral/mistral-ocr?hl=ja)、既存の Google Cloud 環境との統合を検討する場合はこの経路も選択肢となる。

Mistral AI のサービス全体像については Mistral AI とは何か で解説している。無料での試用については Mistral AI の無料利用方法 を、モデル選択の判断材料については Mistral モデル一覧 を参照してほしい。Le Chat の活用については Mistral Le Chat でまとめている。

なお、弊社クリスタルメソッド株式会社が開発する DeepAI は、実在の人物の容姿・表情・声・振る舞いをデジタル空間で再現するバーチャルヒューマン/AI アバターソリューションであり、接客・研修・面接練習・広報などの用途で活用されている。Mistral OCR のような文書処理ソリューションとは異なる領域の製品であるが、AI 導入全般に関するご相談は弊社までお問い合わせいただきたい。


参考文献

  • Mistral AI 公式料金ページ(2026-06-08 参照)
    https://mistral.ai/pricing/
  • Mistral AI モデル一覧・公式ドキュメント(2026-06-08 参照)
    https://docs.mistral.ai/models/overview
  • Mistral AI モデルラインナップ(2026-06-08 参照)
    https://mistral.ai/models/
  • Ledge.ai「手書き文書も高精度にテキスト化する『Mistral OCR 3』」(2025-12-19)
    https://ledge.ai/articles/mistral_ai_mistral_ocr_3_launch
  • Impress Watch「仏 Mistral AI、Markdown 出力も可能な『Mistral OCR』」
    https://www.watch.impress.co.jp/docs/news/1668453.html
  • Threads @testingcatalog「Mistral AI が Mistral OCR のアップデートを発表」
    https://www.threads.com/@testingcatalog/post/DJ9h0ziCK4Y/mistral-ai-released-an-update-to-the-mistral-ocr-new-ocr-model-improved-overall-/?hl=ja
  • Google Cloud「Mistral OCR(25.05)| Gemini Enterprise Agent Platform」
    https://docs.cloud.google.com/gemini-enterprise-agent-platform/models/partner-models/mistral/mistral-ocr?hl=ja
  • NEDO「生成 AI 基盤による定型帳票の刷新と自律促進・事業成果概要」
    https://www.nedo.go.jp/content/800036437.pdf
  • J-GLOBAL「Google Vision OCR と Mistral 7b の活用【JST 機械翻訳】」
    https://jglobal.jst.go.jp/detail?JGLOBAL_ID=202502250090135625
  • 文部科学省「教員の専門性を踏まえた授業計画力の向上による児童生徒の学びの向上」
    https://www.mext.go.jp/content/20260514-mxt_shuukyo01-000042009_004.pdf

監修

河合 継(クリスタルメソッド株式会社 代表取締役)

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について編集方針

AIブログ購読

 
クリスタルメソッドがお届けする
AIブログの更新通知を受け取る

Study about AI

AIについて学ぶ

  • AI規制イタリア国家戦略の実施令承認——日本AI政策への実務的示唆

    AI規制イタリア国家戦略の実施令承認——日本AI政策への実務的示唆

    イタリアAI規制 実施令の予備承認——何が起きたか 2026年6月10日、イタリアの閣議(Consiglio dei Ministri)は、2025年9月23日...

  • OpenAI Codexエージェントが企業クラウドへ——Ona買収が日本企業に意味すること

    OpenAI Codexエージェントが企業クラウドへ——Ona買収が日本企業に意味すること

    OpenAI×Ona買収の要点——何が起きたか 2026年6月11日、OpenAIはAIエージェント向けクラウド実行環境を手がけるスタートアップ「Ona(旧Gi...

  • NVIDIA Vera CPU正式ローンチがAIインフラとデータセンター投資に示す日本企業への示唆

    NVIDIA Vera CPU正式ローンチがAIインフラとデータセンター投資に示す日本企業への示唆

    NVIDIA Vera CPUとは何か——AIインフラ向けCPU内製化という構造的転換 NVIDIAは2026年、エージェント型AIと強化学習の時代に向けて専用...

View more