blog
AIブログ
ファインチューニング 料金|2026年版ガイド
ファインチューニングの料金とは?コストの全体像を把握しよう
AIモデルのファインチューニングを検討するとき、最初に気になるのが「どれくらいの費用がかかるのか」という点です。ファインチューニングの料金は、利用するプラットフォーム・モデルサイズ・学習データ量・推論回数によって大きく異なり、数百円から数百万円規模まで幅広く分布します。本記事では、OpenAI・Google・Azureなど主要サービスの最新料金体系を一覧で整理し、コストを左右する要因・計算方法・節約のコツまでを網羅的に解説します。ファインチューニングへの投資対効果を正しく判断するための指針として、ぜひ最後までご覧ください。
ファインチューニング料金の基本構造
ファインチューニングの料金は、大きく「学習(Training)コスト」と「推論(Inference)コスト」の2段階に分かれます。多くの利用者が学習コストだけを見積もって予算を組んでしまいますが、実運用ではむしろ推論コストが長期的に大きくなるケースが一般的です。
- トークン数 × 単価
- 学習エポック数に比例
- 一度だけ発生(原則)
- 入力トークン × 単価
- 出力トークン × 単価
- 利用するたびに発生
- ストレージ料金
- モデルホスティング費
- データ前処理コスト
学習コストは「学習データのトークン総数 × エポック数 × トークン単価」で計算されます。一方、推論コストはファインチューニング済みモデルをAPIで呼び出すたびに発生し、ベースモデルのAPIより割高な単価が設定されているサービスがほとんどです。長期間・大量に利用するユースケースほど、推論コストが総費用を支配します。
主要サービスのファインチューニング料金一覧(2025年最新)
以下の表は、代表的なクラウドAIサービスのファインチューニング料金をまとめたものです。料金は米ドル建てが多く、為替レートによって円換算額が変動する点にご注意ください。各社の公式ページで最新情報をご確認いただくことを推奨します。
OpenAIのファインチューニング料金
| モデル | 学習(1Mトークン) | 推論 入力(1Mトークン) | 推論 出力(1Mトークン) |
|---|---|---|---|
| gpt-4o-mini(2024-07-18) | $3.00 | $0.30 | $1.20 |
| gpt-4o(2024-08-06) | $25.00 | $3.75 | $15.00 |
| gpt-3.5-turbo | $8.00 | $3.00 | $6.00 |
| davinci-002 | $6.00 | $12.00 | $12.00 |
| babbage-002 | $0.40 | $1.60 | $1.60 |
OpenAIはトークン単位の従量課金です。gpt-4o-miniはコストパフォーマンスが高く、多くの業務用途で最初に検討すべきモデルです。gpt-4oは高精度が期待できる反面、学習・推論ともに費用が一桁高くなります。
Google Vertex AI(Geminiファミリー)のファインチューニング料金
| モデル | 学習 | 推論 入力(1Mトークン) | 推論 出力(1Mトークン) |
|---|---|---|---|
| Gemini 1.5 Flash(チューニング) | $0(無料枠あり) | $0.075〜$0.30 | $0.30〜$1.20 |
| Gemini 1.0 Pro(チューニング) | $0(無料) | $0.50 | $1.50 |
| PaLM 2 for Text(テキストバイソン) | $0(無料) | $0.50 | $0.50 |
Google Vertex AIは、一部モデルでファインチューニングの学習自体を無料で提供しており、推論課金のみで利用できる点が大きな特徴です。ただし推論単価はコンテキスト長(128Kトークン超かどうか)によって変動します。
Azure OpenAI Serviceのファインチューニング料金
| モデル | 学習(1Mトークン) | ホスティング(1時間) | 推論 入力(1Mトークン) |
|---|---|---|---|
| GPT-4o mini | $3.00 | $0.02 | $0.30 |
| GPT-3.5 Turbo(0125) | $8.00 | $1.70 | $3.00 |
Azureでは「ホスティング料金」が追加されます。デプロイしたファインチューニング済みモデルをエンドポイントとして起動している時間に応じて課金されるため、使わない時間帯はエンドポイントを停止するコスト管理が重要です。
AWSのファインチューニング料金(Amazon Bedrock)
| モデル | 学習(1Mトークン) | 推論 入力(1Mトークン) | 推論 出力(1Mトークン) |
|---|---|---|---|
| Amazon Titan Text G1 – Express | $4.00 | $1.30 | $1.70 |
| Meta Llama 3(Bedrock経由) | $3.50〜 | $0.99〜 | $0.99〜 |
Amazon BedrockはAWSエコシステムとの親和性が高く、S3に保存した学習データを直接使えます。セキュリティ要件の高い企業や、すでにAWSを基盤としている組織に向いています。
ファインチューニング料金に影響する5つの要因
1. 学習データのトークン数
料金の最大の決定要因です。一般的に、ファインチューニングには数十件〜数千件の例示データが用いられます。1件あたりの会話例が平均500トークンで1,000件ある場合、学習データは50万トークン(0.5Mトークン)となります。gpt-4o-miniで計算すると、学習コストは0.5 × $3.00 = $1.50(約225円)と非常に低コストです。データが数十万件規模になると初めてコストが問題になります。
2. エポック数
エポック数とは、学習データを何周学習させるかを指します。OpenAIのデフォルトは3〜4エポックですが、エポック数を増やすと学習トークン数も倍増します。エポック数3でデータが100万トークンなら、課金対象は300万トークンです。過学習を防ぐ意味でも、エポック数は最小限に抑えることが推奨されます。
3. ベースモデルのサイズ・グレード
同じトークン数でも、モデルのグレードによって単価が10倍以上変わります。たとえばOpenAIではgpt-4oの学習単価($25/1M)はgpt-4o-miniの約8倍です。必要な精度の最低ラインを見定め、できる限り小さいモデルから検証するアプローチが費用対効果を高めます。
4. 推論の呼び出し頻度と出力長
月間推論コストは「(月間リクエスト数 × 平均入力トークン × 入力単価)+(月間リクエスト数 × 平均出力トークン × 出力単価)」で算出できます。出力トークンの単価は入力トークンの3〜5倍に設定されているサービスが多く、長文出力を伴うユースケース(レポート生成など)では出力コストが支配的になります。
5. ホスティング・ストレージ費用
AzureのようにホスティングをデプロイするタイプのAPIでは、モデルを展開している時間に比例した固定費が発生します。月720時間(常時起動)で計算すると、GPT-3.5 Turboのホスティング費だけで月$1,224(約18万円)に達するため、不要な時間帯は必ずエンドポイントを削除または停止する運用が必要です。
自前インフラ(オープンソースモデル)とAPIサービスの料金比較
商用APIを使う以外に、LlamaやMistralなどのオープンソースLLMを自社インフラでファインチューニングする選択肢もあります。どちらが有利かはデータ量・利用規模・社内リソースによって変わります。
| 比較項目 | 商用API(OpenAI等) | オープンソース+自社GPU |
|---|---|---|
| 初期費用 | ほぼ不要 | GPU購入/クラウドGPU契約で高額 |
| 学習の手軽さ | APIコール数行で完結 | 環境構築・コード開発が必要 |
| 大規模推論コスト(月100万回以上) | 高額になりやすい | 固定費化でスケールに強い |
| データプライバシー | サービス規約に依存 | 完全自社管理が可能 |
| モデル品質(最高水準) | GPT-4oクラスにアクセス可 | 公開モデルの範囲内 |
| メンテナンス負荷 | ほぼ不要 | インフラ管理が継続的に必要 |
月間推論コールが数万件程度の小〜中規模用途では商用APIのほうがトータルコストを低く抑えやすい傾向があります。一方、月数百万コール以上の大規模サービスや、機密データを外部に出せない金融・医療系の用途では、自社GPUまたはプライベートクラウドでのオープンソースモデル運用が有利になるケースがあります。

ファインチューニングの料金シミュレーション(具体例)
実際のビジネス場面に近いシナリオで費用を試算します。以下はすべてOpenAI gpt-4o-miniを使用した場合の概算です(1USD=150円換算)。
シナリオA:社内FAQ回答ボットの構築
- 学習データ:500件のQ&Aペア、平均300トークン/件 → 合計15万トークン
- エポック数:3 → 課金トークン 45万トークン(0.45Mトークン)
- 学習コスト:0.45 × $3.00 = $1.35(約200円)
- 月間推論:3,000リクエスト × 平均400トークン(入力)+ 200トークン(出力)
- 推論コスト:(1.2M × $0.30) + (0.6M × $1.20) = $0.36 + $0.72 = $1.08/月(約162円/月)
このシナリオでは学習・推論ともに非常に低コストです。小規模な社内ツールであれば月数百円以内に収まります。
シナリオB:カスタマーサポート自動応答(中規模)
- 学習データ:5,000件、平均600トークン/件 → 300万トークン
- エポック数:3 → 課金トークン 900万トークン(9Mトークン)
- 学習コスト:9 × $3.00 = $27(約4,050円)
- 月間推論:5万リクエスト × 平均800トークン(入力)+ 400トークン(出力)
- 推論コスト:(40M × $0.30) + (20M × $1.20) = $12 + $24 = $36/月(約5,400円/月)
学習は1回限りの4,000円強で、継続費用は月5,000円程度。既存のカスタマーサポートコストと比較すれば、ROIは大きい水準です。
シナリオC:gpt-4oによる高精度文書生成(大規模)
- 学習データ:2万件、平均800トークン/件 → 1,600万トークン
- エポック数:3 → 課金トークン 4,800万トークン(48Mトークン)
- 学習コスト:48 × $25.00 = $1,200(約18万円)
- 月間推論:10万リクエスト × 平均1,200トークン(入力)+ 800トークン(出力)
- 推論コスト:(120M × $3.75) + (80M × $15.00) = $450 + $1,200 = $1,650/月(約24.8万円/月)
gpt-4oクラスを大規模に活用する場合、月25万円規模の継続費用が発生します。このレベルになると、オープンソースモデルの自社運用との費用比較が重要な経営判断になります。
ファインチューニングのコストを削減する実践的な方法
小さいモデルから始めてベースラインを確認する
いきなりgpt-4oでファインチューニングを始めるのではなく、まずgpt-4o-miniやGemini 1.5 Flashで試験的に動かし、品質が要件を満たすかを確認します。小さなモデルで十分な精度が出れば、コストを8〜10分の1に抑えられます。
学習データを厳選して質を高める
データ量を増やすより、質の高いデータを厳選するほうがコスト効率・精度ともに優れた結果をもたらすことが多いとされています。重複・低品質・不整合なデータは除去し、200〜500件の高品質な例示から始めることで、学習コストと過学習リスクを同時に下げられます。
エポック数を最適化する
エポック数はデフォルト(通常3〜4)で始め、検証データでの性能曲線を確認しながら必要最小限に抑えます。エポック数を3から2に減らすだけで学習コストは約33%削減されます。
ファインチューニングの前にプロンプトエンジニアリングを試す
システムプロンプトやFew-shotプロンプトで目標精度に近づけられる場合、ファインチューニング自体が不要なことがあります。ファインチューニングが本当に必要なのは、大量のFew-shot例をプロンプトに詰め込まないと動かないケース(コンテキスト節約)や、特定スタイル・フォーマットの一貫性が求められる場合が典型です。
推論のバッチ処理・キャッシュを活用する
OpenAIのBatch APIを使うと、非同期バッチ処理で通常の50%オフの料金が適用されます(2024年〜)。リアルタイム応答が不要なレポート生成・データクレンジングなどのユースケースでは積極的に活用すべきです。また、プロンプトキャッシュ機能(Prompt Caching)を使うと、同一プロンプトの繰り返し呼び出しでコストが最大75%削減できます。
Azureのエンドポイントは使わない時間帯に停止する
Azure OpenAI Serviceでは、エンドポイントをデプロイしている時間に対してホスティング料金が課金されます。業務時間外・週末のエンドポイント削除と再デプロイを自動化するだけで、年間コストを大幅に圧縮できます。

ファインチューニングと代替手法のコスト比較
ファインチューニングは必ずしも最良の選択肢ではありません。目的によっては、RAG(検索拡張生成)やプロンプトエンジニアリングのほうが低コスト・高効果になる場合があります。
| 手法 | 初期費用 | 継続費用 | 向いているケース |
|---|---|---|---|
| プロンプトエンジニアリング | ほぼ無料 | 低〜中 | 汎用タスク、試作段階、小規模 |
| RAG(検索拡張生成) | 中(インデックス構築) | 中(検索+推論) | 最新情報が必要、大量文書参照 |
| ファインチューニング | 低〜高(モデル依存) | 中(推論コストのみ) | 特定スタイル・フォーマット習得、高速推論 |
| フルスクラッチ学習 | 非常に高額 | 高(GPU維持費等) | 完全オリジナルモデルが必要な特殊用途 |
たとえば「社内ドキュメントへのQ&A」であれば、RAGのほうが情報の鮮度・根拠提示の点で優れており、ファインチューニング不要なケースが多いです。一方で「特定ブランドの口調で必ずJSON形式で出力する」といった一貫したフォーマット制御にはファインチューニングが有効です。
料金を見積もる前に確認すべきチェックリスト
- 学習データは何件・何トークンか? まずトークン数を計測ツール(tiktoken等)で確認する。
- エポック数はいくつか? デフォルトから変更する場合はコストへの影響を計算する。
- 月間推論リクエスト数はどれくらいか? 平均入力・出力トークンとともに見積もる。
- Azureを使う場合、稼働時間はどれくらいか? ホスティング費の月間合計を試算する。
- バッチ処理でよいタスクか? Batch APIで50%削減できる可能性を検討する。
- プロンプトエンジニアリングやRAGで代替できないか? ファインチューニングが本当に必要かを再確認する。
- データプライバシーの要件は? 社外APIに送れないデータなら自社インフラを検討する。
まとめ
ファインチューニングの料金は、モデル選択・データ量・エポック数・推論頻度の掛け合わせで決まります。gpt-4o-miniのような小さいモデルと数百件の高品質データを組み合わせれば、学習コストは数百円〜数千円という非常に低いレベルで実現できます。一方でgpt-4oを大規模利用する場合は月25万円規模のコストになるため、費用対効果の検討が不可欠です。
コスト最適化の基本は、①小さいモデルから検証を始める、②データを厳選して量より質を重視する、③必要なエポック数を最小化する、④Batch APIやプロンプトキャッシュを活用する、の4点です。また、RAGやプロンプトエンジニアリングで解決できるケースではファインチューニングを使わない判断も重要です。
クリスタルメソッドでは、バーチャルヒューマンやDeepAIの開発において実際にファインチューニングを活用しており、用途に応じたモデル選定・コスト設計のノウハウを蓄積しています。ファインチューニングの導入や費用対効果の評価についてご相談がある場合は、ぜひお気軽にお問い合わせください。
関連記事
監修
河合 継(クリスタルメソッド株式会社 代表取締役)
AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について | 編集方針
Study about AI
AIについて学ぶ
-
GPT-5.5 Claude エージェント ベンチマーク選定——日本企業が問い直すべき評価軸
GPT-5.5がClaude Fable 5を上回った——「Agents’ Last Exam」とは何か 2026年6月、AIエージェント評価の文脈...
-
米上院 金融AI 規制 公聴会——日本の銀行・証券への実務的示唆
上院 金融AI 規制 公聴会の要点——何が、なぜ今議題に上ったか 2026年6月11日午前10時(米東部夏時間)、米上院銀行・住宅・都市問題委員会(U.S. S...
-
Cerebras NvidiaのGPUに対抗——SuperAI Singaporeデモが日本のAIインフラ調達に示す論点
CerebrasがSuperAI SingaporeでNvidiaのGPUに対抗——デモの概要と報道の背景 2026年6月10〜11日、シンガポールのMarin...