blog

Mistral OCR の使い方|精度・料金・活用例【2026年版】

Mistral OCRは、Mistral AIが2025年3月にリリースした文書解析特化のAPIサービスです。PDFや画像に含まれるテキスト・数式・表・図版を高精度で抽出し、構造化されたMarkdown形式で出力できる点が特徴です。従来のOCRツールが苦手としてきた複雑なレイアウトや多言語混在文書においても優れたパフォーマンスを発揮するとされており、実務での文書処理自動化に関心を持つ開発者や企業から注目を集めています。本記事では、Mistral OCRの仕組み・機能・精度・料金・実装方法・ユースケースまでを深く掘り下げます。

Mistral OCRとは何か:従来OCRとの本質的な違い

Mistral OCRは単なる文字認識(光学文字認識)にとどまらず、文書の意味的構造を理解したうえでテキストを抽出する「Document Understanding」APIです。従来のOCRエンジンがピクセルレベルの文字パターンマッチングを行うのに対し、Mistral OCRはビジョン言語モデル(VLM)をベースとしており、ページ全体のレイアウト・文脈・要素間の関係性を把握した状態で出力を生成します。現行モデルはOCR 3(v25.12)です。

従来OCRとMistral OCRの比較

比較項目 従来OCRエンジン(Tesseract等) Mistral OCR
文字認識の仕組み パターンマッチング・統計モデル ビジョン言語モデル(VLM)
レイアウト理解 限定的(段組み・表が崩れやすい) 構造を保持してMarkdown出力
数式・化学式 ほぼ対応不可 LaTeX形式で正確に抽出
図版の扱い 無視またはノイズ Base64埋め込みまたは説明文として保持
多言語対応 言語パック別途インストールが必要 多言語を自動認識・混在対応
出力形式 プレーンテキスト中心 Markdown(見出し・表・コードブロック保持)
APIアクセス ローカル実行が主流 REST APIでクラウド呼び出し

実務で複数のOCRソリューションを検証してきた経験から言うと、スキャンPDFの表構造や学術論文の数式は従来ツールでは後処理コストが非常に高く、Mistral OCRのように構造を保ったまま出力できる仕組みは工数削減に直結します。

複雑なレイアウトの文書がMarkdown形式に変換されるイメージ
複雑なレイアウトの文書がMarkdown形式に変換されるイメージ

Mistral OCRのコア機能を詳しく見る

1. Markdown構造保持出力

Mistral OCRの最も重要な特徴は、見出し階層・箇条書き・表・コードブロックをMarkdownとして忠実に再現することです。PDFのブックマーク構造や視覚的な段落区切りを解析し、##|---|形式のテーブルとして出力します。これにより、抽出後のデータをそのままRAG(検索拡張生成)のチャンクとして利用したり、CMS・ドキュメント管理システムへインポートする際の変換コストが大幅に削減されます。

2. 数式のLaTeX変換

理工系・医療・金融の文書に頻出する数式をLaTeX記法(インライン:$...$、ブロック:$$...$$)で抽出できます。この機能は学術論文の自動解析や教材デジタル化のワークフローで特に有用であり、TeX系ツールや数式レンダリングライブラリとシームレスに連携できます。

3. 図版のインライン埋め込み

文書中の図・グラフ・写真はBase64エンコードされた画像データとして出力に含まれ、テキスト文脈の中で元の位置関係が維持されます。後段のLLM処理でマルチモーダルモデルに渡せば、図の内容説明もまとめて生成できます。Mistral AIの現行モデルはMistral Medium 3.5・Mistral Large 3(Mistral 3)・Mistral Small 4がいずれもマルチモーダル対応しているため、OCR出力との組み合わせも容易です。

4. 多言語・手書き対応

Mistral OCRはアラビア語・日本語・中国語・ヒンディー語など多数の言語に対応しており、言語指定なしで自動識別されます。また、手書き文字や低品質スキャン画像に対しても一定の認識精度を発揮します(ただし、非常に崩れた手書きでは精度が下がる点は注意が必要です)。

5. バッチ処理とURLベースの入力

画像やPDFはファイルアップロード(Base64)とURLの両方で入力でき、複数ページのPDFを一括処理するバッチモードも利用可能です。大量文書を処理する業務フローではバッチAPIとの組み合わせが有効で、コストを抑えながらスループットを高められます。

精度ベンチマーク:Mistral OCRはどれだけ正確か

Mistral AIが公開したベンチマーク結果では、DocLayNet・arXivQA・DocVQAなどの主要データセットにおいてGPT-4oやGemini 1.5 Proを上回る精度を示したとされています。特にマルチカラムレイアウト・数式混在文書・低解像度スキャンで優位性が報告されています。

ただし、ベンチマーク数値は評価データセットや測定条件に依存するため、自社の実際の文書で検証することが不可欠です。弊社での実運用テストでは、日本語を含む混在PDFの表構造においておおむね良好な結果が得られた一方、縦書きレイアウトや手書き交じりのフォームでは誤認識が発生するケースも確認されました。プロダクション導入前のパイロット検証を強く推奨します。

精度に影響する主な要因

  • 入力解像度:PDFから変換する際は300dpi以上を推奨。低解像度ではVLMの認識精度が低下する
  • フォント・背景:透かし・背景画像が濃い文書は誤認識リスクが高い
  • ページ数:非常に長いPDFは分割処理がベター(1リクエストあたりのページ上限に注意)
  • スキャン品質:傾き・ノイズが大きいスキャンは前処理で補正すると精度が向上する

Mistral OCR APIの使い方:実装ステップ

Mistral OCRはMistral APIの基本的な使い方を理解していれば、すぐに利用を始められます。以下に典型的なワークフローを示します。

ステップ1:APIキーの取得と環境構築

Step 1Mistral AI Console でアカウント作成・APIキー発行
Step 2pip install mistralai でPythonクライアントインストール
Step 3:環境変数 MISTRAL_API_KEY にAPIキーをセット
Step 4:OCRエンドポイントへリクエスト送信・Markdownレスポンス受信
Step 5:取得したMarkdownを後段処理(RAG・DB格納・LLM入力等)に流す

ステップ2:基本的なコード例(Python)


import os
from mistralai import Mistral

client = Mistral(api_key=os.environ["MISTRAL_API_KEY"])

# URLからPDFを処理する例
response = client.ocr.process(
    model="mistral-ocr-latest",
    document={
        "type": "document_url",
        "document_url": "https://example.com/sample.pdf"
    },
    include_image_base64=True  # 図版をBase64で取得する場合
)

# ページごとのMarkdownテキストを取得
for page in response.pages:
    print(page.markdown)

ステップ3:ローカルファイルをBase64でアップロードする場合


import base64

with open("document.pdf", "rb") as f:
    doc_base64 = base64.b64encode(f.read()).decode("utf-8")

response = client.ocr.process(
    model="mistral-ocr-latest",
    document={
        "type": "document_base64",
        "document_base64": doc_base64
    }
)

for page in response.pages:
    print(page.markdown)

ステップ4:画像ファイル(JPEG/PNG)を処理する場合


response = client.ocr.process(
    model="mistral-ocr-latest",
    document={
        "type": "image_url",
        "image_url": "https://example.com/scan.jpg"
    }
)

print(response.pages[0].markdown)

レスポンスオブジェクトの主なフィールド

フィールド 内容
pages list ページごとの解析結果の配列
pages[n].index int ページ番号(0始まり)
pages[n].markdown str Markdown形式の抽出テキスト
pages[n].images list ページ内の図版情報(Base64・位置情報等)
pages[n].dimensions object ページの幅・高さ(ピクセル)
usage_info object 処理ページ数・ドキュメント数(課金計算に利用)

Mistral OCRの料金体系

詳細な最新料金はMistral AIの料金プラン解説を参照してください。ここではOCR固有の課金構造を説明します。

Mistral OCRは処理したページ数・ドキュメント数に応じた従量課金モデルを採用しています。テキスト生成系APIのトークン課金(例:Mistral Medium 3.5は入力$1.50・出力$7.50 / 百万トークン、Mistral Small 4は入力$0.10・出力$0.30 / 百万トークン)とは異なる課金体系である点に注意が必要です。最新の単価はMistral AI公式サイトおよびコンソールで確認してください(出典: mistral.ai/pricing/, 2026-06-08)。

課金単位 概要 注意点
ページ単価 処理した文書ページ数に応じて課金 空白ページや画像のみのページも1ページとしてカウント
ドキュメント単価 1リクエスト=1ドキュメントとして加算される場合あり バッチAPIと通常APIで単価が異なる可能性あり
無料枠 無料トライアル枠が付与されるケースあり(変動) コンソールで残量を確認する

コスト最適化の観点では、バッチAPIの活用・不要ページの事前除去・解像度の適切な設定が有効です。大量処理の見積もりを立てる際は、まずサンプル文書でページあたりの処理コストを実測してから試算することを推奨します。

Mistral OCRの主なユースケース

1. RAGパイプラインへの文書取り込み

企業内PDFマニュアル・契約書・報告書をMistral OCRで構造化Markdownに変換し、チャンク分割→ベクトルDB格納→LLM質問応答というRAGワークフローに組み込む用途が最も広いユースケースです。見出し構造が保持されているため、意味的なチャンク境界をH2/H3で切るといったシンプルなロジックが適用しやすくなります。回答生成には現行のMistral Medium 3.5(エージェント・高精度用途)やMistral Small 4(低コスト・大量処理用途)が選択肢となります。

2. 学術論文・研究資料のデジタル化

数式・参考文献・図キャプションを含む論文PDFをLaTeX混在のMarkdownとして抽出し、知識ベース構築や文献管理ツールへの自動登録に活用できます。研究機関・製薬・エンジニアリング企業での採用事例が増えています。

3. 請求書・領収書の構造化データ抽出

スキャンした請求書や領収書から表形式のデータを抽出し、会計システムへ自動入力するワークフローに組み込めます。後段でMistralのテキスト生成モデルと組み合わせ、OCR出力をJSON形式に変換するステップを追加すると、さらに構造化されたデータが得られます。

4. 医療・法律文書の非構造化データ処理

カルテのスキャン・判決文・契約書といった専門文書は、段組みや特殊記号が多く従来OCRが苦手とする領域です。Mistral OCRは文書構造を理解して抽出するため、後段のNLP処理や検索インデックス構築の前処理として有効です。ただし、医療・法律分野では誤認識が重大なリスクになり得るため、必ず人間によるレビューフローを設けてください。

5. 多言語コンテンツのローカライズ支援

多言語混在の文書を一括抽出し、翻訳モデルや多言語LLMと連携させるパイプラインで活用できます。言語識別が自動なため、前処理の言語判定ステップを省略できます。

文書からデータを抽出・構造化するワークフローの抽象的なイメージ
文書からデータを抽出・構造化するワークフローの抽象的なイメージ

他サービスとの連携:LangChain・LlamaIndex等との組み合わせ

MistralのエコシステムはLangChain・LlamaIndex・Haystack等の主要フレームワークと統合されており、OCR出力をそのままこれらのパイプラインに流し込めます。

LangChainでの利用例(概念フロー)

PDF/画像ファイル
Mistral OCR API
(Markdownテキスト取得)
テキスト分割
(RecursiveCharacterTextSplitter等)
Embeddingモデル
→ ベクトルDB
Mistral LLM
(回答生成)

LangChainにはMistral OCR専用のDocument Loaderも存在するため、MistralOCRLoaderクラスを使えばファイルパスを渡すだけで上記フローのOCR部分が自動化されます。LlamaIndexでも同様にReaderとして組み込むことができます。

Mistral OCRの制限と注意点

  • ページ上限:1リクエストで処理できるページ数に上限があります。大量ページのPDFは分割してリクエストする実装が必要です。
  • 縦書きレイアウト:日本語縦書き文書では読み順が乱れる場合があります。横書きPDFへの変換を前処理として挟むと改善される場合があります。
  • 表の複雑な結合セル:セル結合(rowspan/colspan)が多用された複雑な表は、Markdown表形式に完全に変換されないケースがあります。
  • データプライバシー:機密文書をAPIに送信する際は、Mistral AIの利用規約・プライバシーポリシーを確認し、必要に応じてエンタープライズプランのデータ処理条件を検討してください。
  • モデルバージョンmistral-ocr-latestを指定すると常に最新モデルが適用されますが、出力形式が変わる可能性があります。本番環境では特定バージョンを固定することを検討してください。現行モデルはOCR 3(v25.12)です(出典: docs.mistral.ai/models/overview, 2026-06-08)。

Mistral OCRを試す前に知っておきたいこと

Mistral AIのサービス全体像についてはMistral AIとは何かで解説しています。無料で試したい場合はMistral AIの無料利用方法を確認してください。APIキーの取得からチャット・生成系APIの基本操作まではMistral AIの使い方ガイドにまとめています。OCRを含む全APIプランのコスト比較はMistral AIの料金プラン解説をご覧ください。

まとめ

Mistral OCR(現行:OCR 3、v25.12)は、VLMベースの文書理解技術によって従来OCRの限界を大きく超えた精度と構造保持能力を提供します。Markdown出力・LaTeX数式抽出・図版のインライン埋め込みという3つの特徴が組み合わさることで、RAGパイプライン・学術論文処理・業務文書の自動化に即戦力として活用できます。

実装はPythonクライアントで数十行から始められる手軽さがある一方、縦書きレイアウトや複雑な結合セルなど苦手な領域も存在するため、本番導入前の実文書によるパイロット検証は欠かせません。料金は処理ページ数に応じた従量課金のため、処理量の見積もりとサンプル実測を先に行い、コストを把握したうえで設計することを推奨します(最新単価はMistral AI公式サイトを参照)。Mistral AIの現行モデル群(Mistral Medium 3.5・Mistral Large 3・Mistral Small 4など)と組み合わせることで、OCRから回答生成まで一気通貫したドキュメントインテリジェンス基盤を低コストで構築できます。

関連記事

監修

河合 継(クリスタルメソッド株式会社 代表取締役)

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について編集方針

AIブログ購読

 
クリスタルメソッドがお届けする
AIブログの更新通知を受け取る

Study about AI

AIについて学ぶ

  • AI規制・州法ルール形成の最前線——米国の現実から日本企業が学ぶ教訓

    AI規制・州法ルール形成の最前線——米国の現実から日本企業が学ぶ教訓

    AI規制・州法ルール形成の現在地——連邦停滞が生む「パッチワーク」構造 2026年6月4日、米下院のJay Obernolte議員(共和・カリフォルニア州)とL...

  • Supermicro AIサーバー調達・受注390億ドルが日本企業に示す戦略的含意

    Supermicro AIサーバー調達・受注390億ドルが日本企業に示す戦略的含意

    Supermicro AIサーバー受注390億ドル・70億ドル調達計画の要点 Super Micro Computer(ティッカー: SMCI、以下Superm...

  • AI広告・合成パフォーマー開示規制の全米初施行——日本企業が今取るべき対応

    AI広告・合成パフォーマー開示規制の全米初施行——日本企業が今取るべき対応

    NY州「AI合成パフォーマー」広告開示規制——全米初の法律が施行 2026年6月9日、ニューヨーク州でAI生成の「synthetic performers(合成...

View more