blog
AIブログ
Llama APIを無料で使う方法とは?料金の仕組みをわかりやすく解説【2026年版】
監修
河合 継(クリスタルメソッド株式会社 代表取締役)
AI・ディープラーニングに関する特許16件の発明者。国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について | 編集方針
Llamaの料金と無料利用を完全解説|ライセンス・API価格・ローカル実行まで
「Llamaは無料で使えるの?」「クラウドAPIはいくらかかる?」——Meta社が開発するオープンウェイトLLM「Llama」は、モデルの重みを無償公開している点が最大の特徴ですが、「無料」の範囲と条件はバージョン・利用形態によって異なります。さらにクラウドAPIサービスを通じて使う場合は各プロバイダー独自の料金体系が存在し、ローカルで自己ホスティングする場合にはハードウェアコストという別の費用構造が生まれます。本記事では、Llamaの料金に関するあらゆる疑問を「無料で使える範囲の把握」から「有料APIの比較」「損益分岐点の計算」まで、使い方のパターン別に徹底整理します。
LlamaはMetaから「無料」で入手できる|ただし条件がある
Llamaは「オープンウェイト(Open Weight)」モデルです。モデルの重み(パラメータファイル)をMeta公式サイト(llama.com)やHugging Faceから無償ダウンロードできる点が最大の特徴ですが、MITやApache 2.0のような完全オープンソースとは異なり、独自の「Llama Community License(コミュニティライセンス)」が適用されます。ChatGPT・Geminiのような月額サブスクリプション製品ではなく、重みそのものは無料で取得できます。
- モデルの重みは無償配布:個人・研究・商用利用ともに基本的に無料
- 推論・ファインチューニングも無料:自前のサーバーやローカルPCで動かす場合、追加費用はゼロ
- ライセンスによる利用制限あり:商用利用の条件はバージョンによって異なる
- クラウドAPI経由にも無料枠あり:Groq・Hugging Face Inferenceなど複数のサービスで無料試用が可能
つまり「Llamaは無料か」という問いへの答えは、個人・研究・小規模商用であれば基本的に無料、大規模商業展開には条件確認が必要、というのが正確なところです。
バージョン別ライセンスと無料利用の範囲
Llamaのライセンスはバージョンごとに更新されています。2026年6月時点の主要バージョンをまとめます。
| バージョン | 公開年 | ライセンス | 個人利用 | 商用利用 | 特記事項 |
|---|---|---|---|---|---|
| Llama 2 | 2023年 | Llama 2 Community License | ✅ 無料 | ✅ 条件付き無料 | 月間アクティブユーザー7億人超の企業は別途Meta承認が必要。旧世代モデル |
| Llama 3 / 3.1 / 3.2 / 3.3 | 2024年 | Llama 3 Community License | ✅ 無料 | ✅ 条件付き無料 | 月間アクティブユーザー7億人超の企業は別途Meta承認が必要。3.3(70B/8B)は現行実用モデルとして継続提供中 |
| Llama 4 Scout / Maverick | 2025年〜 | Llama 4 Community License | ✅ 無料 | ✅ 条件付き無料 | MoEアーキテクチャ採用・ネイティブマルチモーダル(画像+テキスト)の最新世代。月間7億人超の大規模サービスは要Meta申請 |
全バージョン共通の重要制限事項
「Llama」という単語をサービス名・製品名に使う場合はMetaの書面許可が必要。ただし「Powered by Llama」のような出典表示は可。
Llamaの出力(合成データ含む)を使って、OpenAI・Anthropicなど競合モデルを訓練することはライセンス上禁止。
Llamaをベースにファインチューニングしたモデルを配布する場合、Llamaライセンスに準じた条件での提供が必要。Metaへのライセンス付与条項も含まれる。
月間アクティブユーザーが7億人を超える企業はMetaへの個別申請と承認が必要。一般的な中小・スタートアップは該当しない。
Llamaのモデルラインナップ(2026年6月時点)
| モデル名 | パラメータ数・アーキテクチャ | 主な用途・特徴 | Meta公式からの入手 |
|---|---|---|---|
| Llama 3.3 70B | 700億(テキスト専用) | 高精度テキスト処理・現行実用モデル | 無料(要ライセンス同意) |
| Llama 3.3 8B | 80億(テキスト専用) | 軽量・高速・現行実用モデル | 無料(要ライセンス同意) |
| Llama 4 Scout | MoE:17Bアクティブ・16エキスパート(総パラメータ構成) | 超長文脈(最大10Mトークン)・マルチモーダル(テキスト+画像)対応。単一H100 GPUで動作。ローカル実行(Ollama等)でも利用可能 | 無料(要ライセンス同意) |
| Llama 4 Maverick | MoE:17Bアクティブ・128エキスパート(総パラメータ約400B) | 旗艦マルチモーダルモデル。高い推論・知識性能。マルチモーダル対応。ローカル実行(Ollama等)でも利用可能 | 無料(要ライセンス同意) |
Llama 4 Scout / Maverickの主な特徴
最大10Mトークン(1,000万トークン)のコンテキストウィンドウを謳う。大量のドキュメントや長大な会話履歴を一度に処理できる。単一NVIDIA H100 GPUで動作可能。
17Bアクティブ・128エキスパート(総約400B)のMoE構成で高い推論・知識性能を発揮するフラッグシップモデル。複雑な推論・知識ベースタスクに適している。
Scout・Maverickはともにテキストと画像を組み合わせた入力(マルチモーダル)にネイティブ対応。Llama 4世代で初めて実現した機能で、画像の説明・分析・図解の理解などが可能。
Mixture-of-Experts(MoE)構造により、全パラメータを常に使用しないため、同等品質をより低い計算コストで実現。APIトークン単価の低下につながる。
実際に「お金がかかる」のはどこか|コスト構造を整理する
モデルそのものは無料でも、Llamaを実用的に動かすには必ず何らかのコストが発生します。主なコスト発生ポイントは以下の3つです。
自分のPC・サーバーで動かすケース。コストはGPUハードウェア費用や電力費。モデルライセンス料はゼロ。Llama 4 Scout / MaverickもOllama等でローカル実行可能。
Meta公式「Llama API」(llama.developer.meta.com)やDeepInfra・Fireworks・Groqなどサードパーティが提供するAPIを使うケース。トークン数に応じた従量課金が発生。月額サブスクリプションではない。
Together AI・Replicate・Hugging Face Endpointsなど専用ホスティングを使うケース。月額または従量で課金。
無料でLlamaを使う方法|手軽な順に解説
ブラウザから今すぐ試す(ゼロ設定)
- Meta AI(meta.ai):ブラウザでアクセスするだけでLlama 4(Scout / Maverick)ベースの応答を無料で体験できる。Metaアカウントでログインするとさらに機能が広がる。
- Hugging Face Chat(huggingface.co/chat):アカウント作成(無料)後、Llama 4 Scout / MaverickなどのLlamaシリーズを含む複数モデルをチャット形式で試せる。
Ollamaでローカル実行(最も手軽・完全無料)
Ollamaは、LlamaをはじめとするオープンウェイトモデルをローカルPCで簡単に動かせるオープンソースツールです。macOS・Linux・Windows対応で、インストールからモデル実行まで以下のコマンドのみで完結します。Llama 4 Scout / MaverickもOllamaの対応モデルとして利用できます。
Ollamaは起動後にローカルAPIサーバー(localhost:11434)を立ち上げるため、OpenAI互換形式で自作アプリへの組み込みも可能です。完全オフライン動作なのでデータプライバシーの観点でも優れています。
| モデル名(Ollama) | パラメータ規模 | 最低RAM目安 | 用途 |
|---|---|---|---|
| llama3.3:8b | 8B(テキスト専用) | 8GB | 軽量・高速・現行実用モデル |
| llama3.3:70b | 70B(テキスト専用) | 64GB以上(量子化で32GB) | 高精度テキスト・研究向け |
| llama4:scout | MoE(17Bアクティブ・16エキスパート) | 量子化版で32GB程度〜 | 超長文脈・マルチモーダル対応。最大10Mトークンのコンテキスト |
| llama4:maverick | MoE(17Bアクティブ・128エキスパート) | 量子化版で48GB程度〜 | 旗艦マルチモーダルモデル・高推論性能 |
LM Studio(GUIベース・完全無料)
LM StudioはWindows・macOS・Linux向けのデスクトップアプリで、モデルの検索・ダウンロード・チャットをビジュアル操作で行えます。GGUF形式のモデルをHugging Faceから直接ダウンロードし、量子化(モデルを圧縮する技術)で少ないVRAMでも動作させられます。Llama 4 Scout / MaverickのGGUF量子化版も対応しており、コマンド操作に慣れていない方でもLlamaの最新モデルをローカルで動かせます。
Meta公式サイト・Hugging Faceからダウンロード
llama.comのフォームに氏名・メールアドレス・利用目的を入力し、ライセンスに同意するとダウンロードリンクがメールで届きます。Hugging Faceからも同様に取得可能で、CLIでのダウンロードには以下のコマンドを使います。
Google Colabの無料GPUを活用
Google ColabのT4 GPUを使って量子化モデル(GGUF形式)を動かすことが可能です。Colab Pro+(月額約2,200円)ならA100 GPUが利用でき、軽量モデルのファインチューニングも数十分〜数時間で完了します。
クラウドAPIの無料枠一覧
| サービス | 無料枠の内容 | 対応モデル例 | 特徴 |
|---|---|---|---|
| Groq | 毎日一定数のリクエスト無料(レート制限あり) | Llama 4 Scout / Maverick、Llama 3.3 70Bなど | LPU採用で推論速度が非常に高速 |
| Hugging Face Inference API | 無料枠あり(月ごとに制限) | Llama 4 Scout / Maverick、Llama 3.3など | モデル共有プラットフォームと一体化 |
| Together AI | 新規登録時に$1〜5のクレジット付与 | Llama 4 Scout / Maverick、Llama 3.3 70Bなど | 大型モデルのAPI利用・ファインチューニングに適する |
| Fireworks AI | 新規登録時に無料クレジット付与 | Llama 4系各種 | 高速・低レイテンシに最適化 |
| Meta AI(meta.ai) | 無料チャットUI | Llama 4 Scout / Maverick | ブラウザから直接対話可能 |
クラウドAPIは手軽ですが、送受信したデータがサービス提供者のサーバーを経由する点に注意が必要です。機密性の高い業務データを扱う場合は、ローカル実行またはプライベートクラウドでの運用を検討してください。
Llamaを最短で体験するステップ
meta.aiにアクセス
ブラウザでmeta.aiを開く。Metaアカウントでログインするとチャット機能が使える(無料)。Llama 4 Scout / Maverickベースの応答を即体験可能。
Ollamaをインストール
ollama.comからインストーラーをDL。ollama run llama4:scoutを実行するだけでローカルLlama 4が動く。
APIで組み込み開発
Ollamaが起動するローカルAPI(localhost:11434)を使い、OpenAI互換形式で自分のアプリに組み込む。
クラウドAPIサービス別の料金比較(2026年6月時点)
クラウドプロバイダー各社がLlamaモデルをAPIとして提供しており、料金は1Mトークン(100万トークン)あたりの入力・出力コストで比較できます。為替は1USD≒150円で換算しています。以下の料金はサードパーティ調査ベースの参考値であり、プロバイダーにより変動します。利用前に各社公式サイトで最新単価を確認してください。
| プロバイダー | モデル | 入力(1Mトークン) | 出力(1Mトークン) | 特徴 |
|---|---|---|---|---|
| Meta Llama API(公式) | Llama 4 Scout / Maverick、Llama 3.3系 | 要公式確認 | 要公式確認 | Meta自身が提供するホスト型API(llama.developer.meta.com)。128kコンテキストで提供。 |
| DeepInfra / Fireworks AI(参考最安水準) | Llama 4 Scout | 約$0.08(約12円) | 約$0.30(約45円) | サードパーティ最安水準の参考値。要確認。 |
| DeepInfra / Fireworks AI(参考最安水準) | Llama 4 Maverick | 約$0.15(約23円) | 約$0.60(約90円) | サードパーティ最安水準の参考値。要確認。 |
| Groq | Llama 4 Scout | $0.11(約17円) | $0.34(約51円) | LPU採用で超高速推論。無料枠あり。 |
| Groq | Llama 4 Maverick | $0.50(約75円) | $0.77(約116円) | 旗艦モデルを高速に利用可能。無料枠あり。 |
| Groq | Llama 3.3 70B | $0.59(約89円) | $0.79(約119円) | テキスト専用現行モデル。超高速推論。無料枠あり。 |
| Together AI | Llama 4 Scout | $0.18(約27円) | $0.59(約89円) | 長文脈処理に対応。ファインチューニングも可能。 |
| Together AI | Llama 4 Maverick | $0.27(約41円) | $0.85(約128円) | 旗艦モデルを商用利用。 |
| AWS Bedrock | Llama 4 Scout / Maverick | $0.22〜$0.50(約33〜75円) | $0.88〜$1.50(約132〜225円) | AWSエコシステム統合。エンタープライズ向けSLA対応。 |
| Azure AI Foundry | Llama 4 Scout / Maverick | $0.25〜$0.55(約38〜83円) | $1.00〜$1.65(約150〜248円) | Microsoftエコシステム統合。エンタープライズ向け。 |
| Hugging Face Serverless | 各種Llamaモデル | 無料枠あり(レート制限付き) | 同左 | 開発・テスト用途に最適。 |
注目ポイント:Llama 4のMoEアーキテクチャにより、以前のLlama 3.3 70Bと比べてもAPIトークン単価が全体的に低い水準となっています。特にサードパーティ最安水準ではLlama 4 Scoutの入力が約$0.08と非常に安価です。長文脈タスクでは入力トークン数の増大がコストに直結するため注意が必要です。用途・規模・インフラ要件に応じたプロバイダー選択が料金最適化の鍵です。
OpenAI・Claudeなど競合LLMとの料金比較
Llamaを競合のプロプライエタリLLMと比較すると、料金差は非常に大きいです。
| モデル | 提供元 | 入力(1Mトークン) | 出力(1Mトークン) | モデルの公開状況 |
|---|---|---|---|---|
| GPT-4o | OpenAI | $2.50 | $10.00 | クローズド |
| GPT-4o mini | OpenAI | $0.15 | $0.60 | クローズド |
| Claude 3.5 Sonnet | Anthropic | $3.00 | $15.00 | クローズド |
| Claude 3 Haiku | Anthropic | $0.25 | $1.25 | クローズド |
| Gemini 1.5 Pro | $1.25〜$2.50 | $5.00〜$10.00 | クローズド | |
| Llama 4 Scout(Groq) | Meta / Groq | $0.11 | $0.34 | オープンウェイト |
| Llama 4 Maverick(Groq) | Meta / Groq | $0.50 | $0.77 | オープンウェイト |
| Llama 3.3 70B(Groq) | Meta / Groq | $0.59 | $0.79 | オープンウェイト |
Llama 4 MaverickはGPT-4oと比較して入力コストで約5分の1、出力コストで約13分の1という大幅な価格差があります。さらにChatGPT・Claude・GeminiはモデルAPIを継続利用するには有料プランが必要であり、モデルの重みは非公開です。一方LlamaはモデルをダウンロードしてローカルPC上で動かせるため、ハードウェアコストのみで実質無制限に使用できる点が根本的な差別化ポイントです。
ローカル自己ホスティングの実コスト計算
「APIを使わずに自分のインフラで動かせば安い」と考える方も多いですが、ローカルホスティングにも現実的なコストがかかります。モデルサイズ別の推奨スペックと概算コストを整理します。
| モデル | 精度 | 必要VRAMの目安 | 推奨GPU(オンプレ) | クラウドVM概算(月額) |
|---|---|---|---|---|
| Llama 3.3 8B | FP16 | 16GB | GeForce RTX 3080以上 | $100〜$200程度 |
| Llama 3.3 70B | FP16 | 140GB以上 | A100 80GB×2 / H100 | $2,000〜$5,000程度 |
| Llama 3.3 70B | 4bit量子化 | 40〜48GB | RTX 4090×2 / A40 | $500〜$1,000程度 |
| Llama 4 Scout | 4bit量子化 | 32GB程度〜(MoEによる効率化) | RTX 4090×2 / A40 | $500〜$1,200程度 |
| Llama 4 Maverick | 4bit量子化 | 48GB程度〜(MoEによる効率化) | A100 80GB / H100 | $1,500〜$4,000程度 |
Llama 4のMoEアーキテクチャは全パラメータを常時使用しないため、同等の出力品質をより少ないVRAMで実現できる場合があります。ただし実際の必要VRAMはバッチサイズや利用する量子化レベルによって変動します。Scout利用時に10Mトークンの長文脈処理を行う場合は、KVキャッシュのメモリ確保量が大幅に増えるため注意が必要です。
APIとセルフホスティング、どちらが安いか|損益分岐点の考え方
Llama 4 Scoutを例に、「API利用」と「クラウドGPUサーバーの自己ホスティング」の損益分岐点を簡易計算します。
前提条件
- 使用モデル:Llama 4 Scout(4bit量子化)
- クラウドGPUサーバー:A40相当のGPUを持つインスタンスを月額$600で借用(推論専用)
- API単価:Groqを使用、入力$0.11/1M・出力$0.34/1M(平均$0.225/1Mトークンと仮定)
- 入力・出力比は1:1と仮定
損益分岐点の計算:
サーバー月額 ÷ API単価 = 損益分岐となる月間トークン数
$600 ÷ ($0.225 / 1,000,000) = 約26.7億トークン/月
月に26.7億トークン以上利用する場合のみ、自己ホスティングの方がAPIより安くなる計算です。
26.7億トークンとは、1回あたり平均1,000トークンのやりとりを毎日約89,000回行う量です。中小規模のサービスや個人開発では、ほぼ確実にAPI利用の方がコスト効率が高いといえます。月間30億トークンを超える大規模サービス、またはデータプライバシー上クラウドAPIを使えないケースでのみ、自己ホスティングが合理的な選択となります。
用途別のモデル選定ガイド
用途と手元のリソースに合わせてモデルを選ぶことが、コスト最適化と品質確保のカギです。