blog

llama 料金の全体像|無料範囲・API単価・損益分岐点を整理

llama 料金の全体像|無料範囲・API単価・損益分岐点を整理

llama 料金の前提:月額サブスクリプションは存在しない

Meta が開発する Llama は、ChatGPT や Claude のような月額サブスクリプション型の製品ではない。正確には「オープンウェイト(Open Weight)モデル」であり、モデルの重みファイルを Meta 公式サイト(llama.com)または Hugging Face から無償でダウンロードできる。料金が発生するのは、あくまで任意で選択する「ホスティング・API 利用」の部分に限られる。

この構造を理解しないまま検討を進めると、「クラウド API の単価だけを見て高いと判断する」「ローカル実行のハードウェアコストを見落とす」といった意思決定の誤りが生じやすい。本稿では llama 料金の全体像を「無料で得られるもの」「コストが発生する箇所」「損益分岐点の考え方」の三層に分けて整理する。

2026年6月時点の現行最新世代は Llama 4(2025年4月発表)だ。MoE(Mixture-of-Experts)アーキテクチャとネイティブマルチモーダル(テキスト+画像)を初めて採用したシリーズであり、主力モデルは Llama 4 Scout(軽量・超長文脈)と Llama 4 Maverick(旗艦・高推論性能)の二種。テキスト専用の Llama 3.3(70B / 8B)も現行の実用モデルとして継続提供されている。Llama 4 の仕様詳細は Llama 4 の解説記事を、モデル全体の概要は Llama とは何かを解説した記事も参照されたい。

モデル重みの取得 llama.com / Hugging Face 無料 ライセンス同意のみ ローカル自己実行 Ollama / llama.cpp 等 GPU・電力コスト トークン料金はゼロ クラウド API 利用 Groq / Together AI 等 トークン従量課金 初期費用ゼロ・無料枠あり どちらかを選択(併用も可)
図1:Llama の料金構造の三層モデル(2026年6月時点。出典:Meta llama.com をもとに作成)

llama 料金を左右するライセンス条件の確認事項

Llama のライセンスは MIT や Apache 2.0 のような「完全オープンソース」ではなく、独自の Llama Community License(コミュニティライセンス)が適用される。これを「無料で何でもできる」と誤解したまま商用展開を進めると、後から法務リスクが生じる可能性がある。商用利用を検討する経営・事業責任者が把握すべき制限事項を以下に整理する。

制限事項 内容 主な対象
大規模事業者への個別申請義務 月間アクティブユーザー数が7億人を超える事業者は Meta への個別許諾申請が必要 超大規模プラットフォーム(一般的な中小・スタートアップは非該当)
製品名・サービス名への「Llama」使用制限 「Llama」という語をサービス名・製品名に使用する場合は Meta の書面許可が必要。「Powered by Llama」のような出典表示は許容される 全事業者
競合モデルの学習データへの転用禁止 Llama の出力(合成データを含む)を OpenAI・Anthropic 等の競合モデルの訓練に使用することは禁止 全事業者
派生モデル配布時のライセンス継承 Llama をベースにファインチューニングしたモデルを配布する場合、Llama ライセンスに準じた条件での提供が必要。Meta へのライセンス付与条項も含まれる モデル開発・配布を行う事業者

月間7億 MAU という閾値は、一般的な国内企業では到達しない水準だ。ただし「完全に自由」というわけではないため、商用展開前に自社の法務部門または Meta 公式ライセンス文書での確認を推奨する。なお、デジタル庁が公表した「行政における生成AIの適切な利活用に向けた技術検証の環境整備」報告書(2024年5月)では、オープンウェイトモデルを行政システムへ適用する際のライセンス条件確認の重要性が指摘されており(デジタル庁, 2024)、民間企業においても同様の視点が求められる。

クラウド API の llama 料金比較(2026年6月時点・参考値)

モデル重みを自前で実行せず、クラウド API 経由で Llama を利用する場合は、プロバイダーごとのトークン単価が実費となる。以下は複数のサードパーティ調査をもとにした2026年6月時点の参考値だ(1 USD ≒ 150 円換算)。プロバイダーにより変動があるため、稟議・予算策定時は各社公式サイトで最新単価を必ず確認すること。

プロバイダー モデル 入力(1M トークン) 出力(1M トークン) 備考
Meta Llama API(公式) Scout / Maverick / Llama 3.3 系 要公式確認 要公式確認 llama.developer.meta.com。128k コンテキスト提供
DeepInfra / Fireworks AI(参考最安水準) Llama 4 Scout 約 $0.08(約 12 円) 約 $0.30(約 45 円) サードパーティ最安水準の参考値。要確認(出典:tokencost.app)
DeepInfra / Fireworks AI(参考最安水準) Llama 4 Maverick 約 $0.15(約 23 円) 約 $0.60(約 90 円) サードパーティ最安水準の参考値。要確認(出典:tokencost.app)
Groq Llama 4 Scout $0.11(約 17 円) $0.34(約 51 円) LPU 採用で超高速推論。無料枠あり
Groq Llama 4 Maverick $0.50(約 75 円) $0.77(約 116 円) 旗艦モデル。無料枠あり
Groq Llama 3.3 70B $0.59(約 89 円) $0.79(約 119 円) テキスト専用現行モデル。無料枠あり
Together AI Llama 4 Scout $0.18(約 27 円) $0.59(約 89 円) ファインチューニングにも対応
Together AI Llama 4 Maverick $0.27(約 41 円) $0.85(約 128 円) 旗艦モデルの商用 API 利用
AWS Bedrock Llama 4 Scout / Maverick $0.22〜$0.50(約 33〜75 円) $0.88〜$1.50(約 132〜225 円) AWS エコシステム統合。エンタープライズ向け SLA
Azure AI Foundry Llama 4 Scout / Maverick $0.25〜$0.55(約 38〜83 円) $1.00〜$1.65(約 150〜248 円) Microsoft エコシステム統合。エンタープライズ向け

上記の料金水準は、tokencost.app(2026年6月8日確認)および 弊社 llama 料金解説記事(2026年6月確認)を参考にしている。Meta 公式の Llama API については本シート作成時点で具体的な単価が公式サイト上に明示されていないため「要公式確認」とした。

プロプライエタリ LLM との料金差は大きい。参考として、OpenAI の GPT-4o は入力 $2.50 / 出力 $10.00、Anthropic の Claude 3.5 Sonnet は入力 $3.00 / 出力 $15.00(いずれも 1M トークンあたり)で提供されている。Llama 4 Maverick(Groq 経由)と比較すると、入力で GPT-4o 比 約5分の1、出力で約13分の1という水準だ。ただし料金だけでモデルを選定するのは適切ではなく、精度・コンテキスト長・マルチモーダル対応・データプライバシー要件を合わせて評価する必要がある。

クラウド API を経由する場合は送受信データがプロバイダーのサーバーを通過する点を考慮すること。個人情報や営業機密を含むデータを処理する場合は、後述のローカル実行またはプライベートクラウド構成を検討されたい。Ollama を用いたローカル API 構築については Ollama の解説記事および Ollama の料金・コスト解説記事を参照されたい。

ローカル実行の llama 料金:ハードウェアコストと損益分岐点

モデルをローカルまたは自社クラウドで実行する場合、トークン課金はゼロになる一方でインフラ費用が発生する。モデルごとの最低ハードウェア要件と概算を示す。なお Llama 4 の MoE アーキテクチャは全パラメータを常時使用しない設計のため、同等の品質をより少ない計算リソースで実現しやすい。ただし Scout の 10M トークン長文脈処理を実際に使う場合、KV キャッシュのメモリ確保量が大幅に増えるため、公称の最低 VRAM より余裕を持ったスペックを用意する必要がある点は留意したい。

モデル 精度 必要 VRAM 目安 クラウド VM 概算(月額)
Llama 3.3 8B FP16 約 16 GB $100〜$200 程度
Llama 3.3 70B 4bit 量子化 約 40〜48 GB $500〜$1,000 程度
Llama 4 Scout 4bit 量子化(MoE) 約 32 GB〜(MoE による効率化) $500〜$1,200 程度
Llama 4 Maverick 4bit 量子化(MoE) 約 48 GB〜(MoE による効率化) $1,500〜$4,000 程度

llama.cpp を用いた CPU 推論や量子化の詳細については llama.cpp の解説記事を参照されたい。

API と自己ホスティングの損益分岐点

Llama 4 Scout を例に、「Groq API 利用」と「クラウド GPU サーバーでの自己ホスティング」の損益分岐点を簡易計算する。

  • クラウド GPU サーバー(A40 相当):月額 $600 と仮定
  • Groq API 単価:入力 $0.11 / 出力 $0.34(1M トークンあたり)。入出力比 1:1 と仮定し平均 $0.225 / 1M トークン

損益分岐となる月間トークン数 = $600 ÷ ($0.225 / 1,000,000) = 約 26.7 億トークン / 月

1 回のやり取りを平均 1,000 トークンとすると、毎日約 89,000 回の推論に相当する量だ。中小規模のサービスや社内ツールでは、まずこの水準に達しない。月間トークン消費量が 26 億を超える規模、またはデータプライバシー上クラウド API を使用できない場合に限り、自己ホスティングが経済的に合理的な選択となる。それ以外の用途では、クラウド API から始めてスケールアップ時に再評価するアプローチが現実的だ。

Ollama を使えばローカル PC 上でも API サーバー(localhost:11434)を立ち上げて OpenAI 互換形式で自作アプリへ組み込める。セットアップ手順については Ollama のセットアップ解説記事および Llama のローカル実行セットアップ記事を参照されたい。

用途・規模別の llama 料金選定指針

llama 料金の意思決定は「どのモデルを、どの形態で、どの規模で動かすか」の三軸で決まる。以下に代表的な判断軸を整理する。

利用規模・シーン 推奨モデル 推奨形態 コスト感
PoC・プロトタイプ開発 Llama 4 Scout または Llama 3.3 70B Groq 無料枠 / Together AI 無料クレジット ほぼゼロ
個人 PC でのローカル実行 Llama 3.3 8B(量子化) Ollama / llama.cpp 電力コストのみ
社内 RAG・ドキュメント解析 Llama 4 Scout クラウド API または社内ローカル 月数千〜数万円(API 従量)
高精度生成・複雑推論タスク Llama 4 Maverick クラウド API(Groq / Together AI) API 従量。GPT-4o 比で大幅に低い水準
大規模サービス(月間数十億トークン超) Llama 4 Scout / Maverick 自社クラウド GPU または専用ホスティング 月数十万〜数百万円規模のインフラ費用
個人情報・機密データの処理 任意 ローカルまたはプライベートクラウド(オフライン推論) ハードウェア投資が必要だがデータ経路を自社内に閉じられる

LlamaIndex(旧 GPT Index)を用いた RAG 構成でのコスト最適化については LlamaIndex の解説記事も参考になる。また Ollama と他ツールの料金・機能比較については Ollama 比較記事を参照されたい。

なお、総務省「デジタルテクノロジーの高度化とその活用に関する調査研究」(令和6年度)では、オープンウェイトモデルを含む LLM の自社導入にあたって、セキュリティ・プライバシー・ライセンスの三要素を事前に評価する重要性が示されており(総務省, 2024)、商用展開の前段階での確認を怠らないことが求められる。

導入判断のための llama 料金チェックリスト

Llama の料金構造を正しく把握した上で、導入判断に向けた確認事項を列挙する。

  • モデル重みは無償取得可能。月額サブスクは存在しない。ライセンス同意のみで llama.com または Hugging Face からダウンロードできる。
  • ライセンスは「完全自由」ではない。Llama Community License の制限事項(7億 MAU 超の申請義務・製品名使用制限・競合学習禁止等)を法務部門と確認すること。
  • API 料金は従量制。Llama 4 Scout / Maverick はサードパーティ最安水準で入力 $0.08〜$0.15 / 1M トークン前後(2026年6月時点参考値)。プロプライエタリモデルと比べ大幅に低い水準だが、プロバイダー選定と利用規模の試算が必要。
  • 自己ホスティングは月間 26 億トークン超の規模またはデータプライバシー要件がある場合に検討する。それ未満では API 利用の方がコスト効率が高い。
  • PoC は Groq 無料枠から始める。無料枠でトークン消費量を実測した上でスケール時の費用を試算するのが現実的なアプローチだ。
  • クラウド API 利用時はデータの経路を確認する。機密性の高い情報を処理する場合、プロバイダーのデータ取り扱いポリシーとローカル実行の比較検討が不可欠だ。

弊社クリスタルメソッドが開発する DeepAI は、実在の人物の容姿・表情・声を再現するバーチャルヒューマン/AI アバターソリューションであり、リップシンク・表情生成・音声合成・対話 AI を組み合わせた接客・研修・面接練習・広報等の用途で活用される。LLM の料金・導入構成に関するご相談とあわせて、AI 活用の幅広い検討をご希望の場合は別途お問い合わせをいただきたい。


AIの業務活用・導入をご検討の方へ

クリスタルメソッドは、各種LLM・ローカルAI・RAG・AIアバターを活用した業務へのAI導入を支援しています。「自社の業務でどう使えるか」をまずはお気軽にご相談ください。

参考文献

監修

河合 継(クリスタルメソッド株式会社 代表取締役)

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について編集方針

AIブログ購読

 
クリスタルメソッドがお届けする
AIブログの更新通知を受け取る

Study about AI

AIについて学ぶ

  • Grokのコンパニオンモード(Ani)とは?使い方と注意点をやさしく解説【2026年版】

    Grokのコンパニオンモード(Ani)とは?使い方と注意点をやさしく解説【2026年版】

    「Grokのアプリに、アニメ風のキャラクターと会話できる機能があるらしい」——それがGrokのコンパニオンモードです。代表キャラクターのAni(アニ)を中心に、...

  • チャットGPTの危険性とは?5つのリスクと安全に使う判断基準【2026年版】

    チャットGPTの危険性とは?5つのリスクと安全に使う判断基準【2026年版】

    チャットGPTの危険性を正しく理解するために 「ChatGPTは危険なのか」という問いに、単純なyes/noは存在しない。正確に言えば、使い方と文脈によってリス...

  • ChatGPTプロンプトの書き方と用途別の例文集【2026年版】

    ChatGPTプロンプトの書き方と用途別の例文集【2026年版】

    ChatGPTプロンプトを構成する4要素と基本フレーム ChatGPTに良質なアウトプットを出させるには、プロンプト(指示文)の構造を整えることが最初の一歩とな...

View more