blog
AIブログ
Llama比較|バージョン・モデルサイズ・競合LLMを徹底比較
監修
河合 継(クリスタルメソッド株式会社 代表取締役)
AI・ディープラーニングに関する特許16件の発明者。国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について | 編集方針
本ページはLlamaの「比較」(バージョン変遷・モデルサイズ・競合LLM・実行環境・コスト)に特化した解説です。Llamaの基礎概念はLlamaとは?仕組み・活用の解説を、最新Llama 4単体の詳細はLlama 4とは?性能・モデル構成・使い方を参照してください。
Llama比較:バージョン・モデルサイズ・競合AIを徹底解説
Meta社が開発・公開するオープンウェイトLLM「Llama」シリーズは、2023年の初版リリース以降、急速に進化を続け、2026年現在ではLlama 4が最新世代となっています。「どのバージョンを使うべきか」「GPT-4oやGeminiと比べてどうなのか」「8Bと70Bではどれほど差があるのか」——こうした疑問を持つエンジニアや研究者が急増しています。本記事では、Llamaの各バージョン比較・モデルサイズ比較・競合LLMとの比較を一気に網羅し、用途別の選び方まで解説します。
Llamaシリーズのバージョン変遷と主要スペック比較
Llamaは短期間で世代交代を繰り返しており、バージョンごとにアーキテクチャ・学習データ・性能が大きく異なります。まず全体像を把握しましょう。なお、LlamaはChatGPTのような月額サブスクリプション製品ではなく、モデルの重みを無料でダウンロードできる「オープンウェイト」AIです。
| バージョン | リリース時期 | 主なモデルサイズ | コンテキスト長 | 学習トークン数 | ライセンス |
|---|---|---|---|---|---|
| Llama 1 | 2023年2月 | 7B / 13B / 33B / 65B | 2,048 | 1.4T | 研究限定(商用不可) |
| Llama 2 | 2023年7月 | 7B / 13B / 70B(Chat含む) | 4,096 | 2T | Llama 2 Community License(条件付き) |
| Llama 3 | 2024年4月 | 8B / 70B | 8,192 | 15T以上 | Llama 3 Community License(条件付き) |
| Llama 3.1 | 2024年7月 | 8B / 70B / 405B | 128,000 | 15T以上 | Llama 3.1 Community License(条件付き) |
| Llama 3.2 | 2024年9月 | 1B / 3B / 11B / 90B(マルチモーダル) | 128,000 | 非公開 | Llama 3.2 Community License(条件付き) |
| Llama 3.3 | 2024年12月 | 70B / 8B(テキスト専用) | 128,000 | 非公開 | Llama 3.3 Community License(条件付き) |
| Llama 4 Scout | 2025年4月〜 | 17Bアクティブ・16エキスパート(MoE) | 最大10,000,000(10Mトークン)※API上は128k | 非公開 | Llama 4 Community License(条件付き) |
| Llama 4 Maverick | 2025年4月〜 | 17Bアクティブ・128エキスパート(総約400B・MoE) | 最大1,000,000※API上は128k | 非公開 | Llama 4 Community License(条件付き) |
| Llama 4 Behemoth | 訓練中・プレビュー段階(未リリース) | 288Bアクティブ・16エキスパート(総約2T・MoE) | 非公開 | 非公開 | 未定 |
Llama 1:研究コミュニティへの火付け役
Llama 1は研究目的限定で公開されましたが、その直後にウェイトがリークされ、オープンウェイトLLMブームの起点となりました。コンテキスト長が2,048トークンと短く、商用利用不可という制約から、現在の実務用途では選択肢になりません。歴史的意義の大きいバージョンです。
Llama 2:商用利用解禁で普及した世代
商用利用可能なライセンスへ切り替え、Microsoftのサービスへの統合など企業ユースが急拡大した世代です。チャット向けに特化したLlama 2-Chatモデルが充実していたため、RAGシステムやカスタマーサポートbotの基盤として広く利用されました。ただしLlama 3以降と比較すると、推論能力・コード生成・多言語対応いずれも見劣りします。
Llama 3 / 3.1:性能の劇的な跳躍
Llama 3は学習トークン数をLlama 2の約7.5倍(15T超)に増やし、コードや推論タスクで大幅な性能向上を達成しました。特にLlama 3.1ではコンテキスト長が128,000トークンへ拡張され、長文書類の要約や大規模コードレビューが現実的になりました。405Bモデルはオープンウェイト史上最大級のパラメータ数を誇り、公開当時のGPT-4oに肉薄する評価結果を複数ベンチマークで記録しています。現在はLlama 4が最新世代となっているため、新規プロジェクトではLlama 4への移行が推奨されます。
Llama 3.2・3.3:マルチモーダルとエッジへの拡張
Llama 3.2では画像入力に対応したマルチモーダルモデル(11B・90B)と、スマートフォン・組み込みデバイス向けの軽量モデル(1B・3B)が追加されました。1Bモデルは量子化により4GB未満のRAMで動作し、エッジAIの実用域に入りました。Llama 3.3はテキスト専用モデルで、70Bと8Bが提供されており、命令追従性・安全性が改善されたアップデート版として公式Llama APIでも引き続き提供されています。
Llama 4:MoEアーキテクチャ+ネイティブマルチモーダルの新世代(2026年6月時点の最新)
Metaの現行最新世代であるLlama 4からはMixture of Experts(MoE)アーキテクチャを採用し、画像+テキストのネイティブマルチモーダル入力に初めて対応しました。主要モデルの特徴は以下のとおりです。
- Llama 4 Scout:17Bアクティブ・16エキスパート構成のMoEモデル。業界随一とされる最大コンテキスト長1,000万トークン(10M)を実現しており、超長文書の処理や大規模コードベースの一括解析が現実的になりました。単一のNVIDIA H100 GPUでの動作が可能な点も特徴です。画像を含むマルチモーダル入力にネイティブ対応し、OllamaなどのローカルLLMランタイムでも量子化版として利用できます。公式Llama API上のモデルIDは
Llama-4-Scout-17B-16E-Instruct-FP8(API上のコンテキストは128k)。 - Llama 4 Maverick:17Bアクティブ・128エキスパート(総パラメータ約400B)構成のMoEモデル。MMLUで85.5%という高い素の知識性能を持ち、画像を含むネイティブマルチモーダル入力に対応します。Groq・Together AI・AWS Bedrock等のクラウドAPIでも広く提供されています。公式Llama API上のモデルIDは
Llama-4-Maverick-17B-128E-Instruct-FP8(API上のコンテキストは128k)。 - Llama 4 Behemoth:288Bアクティブ・16エキスパート(総パラメータ約2T)構成の超大規模モデル。ScoutおよびMaverickの蒸留元(教師モデル)として位置づけられています。2026年6月時点では訓練中・プレビュー段階であり、一般提供はされていません。
モデルサイズ別比較:使い分けの目安
同一バージョン内でもパラメータ数によって性能・必要リソース・用途が大きく変わります。以下に実用観点での整理を示します。
| モデルサイズ | 最低VRAM目安(FP16) | 得意領域 | 不得意領域 | 推奨ユースケース |
|---|---|---|---|---|
| 1B〜3B | 2〜6GB(量子化で2GB以下も可) | 単純Q&A、分類、キーワード抽出 | 複雑推論、長文生成 | スマートフォン・エッジデバイス |
| 7B〜8B | 14〜16GB | 汎用テキスト生成、コード補完 | 高度な数学・論理推論 | 個人開発・プロトタイプ・RAG |
| 13B | 26GB | 多言語翻訳、要約 | 最先端推論タスク | 中規模API・社内ツール |
| 70B(Llama 3.3等) | 140GB(A100×2以上) | 複雑推論、長文生成、コーディング | レイテンシが求められるリアルタイム | エンタープライズ・高品質コンテンツ生成 |
| Llama 4 Scout(MoE:17Bアクティブ) | 単一H100での動作が可能。MoE構造のため全パラメータのロードが必要だが、推論計算量はアクティブ分に比例 | 超長文コンテキスト(最大10M)、マルチモーダル | フル精度・大規模バッチ処理 | 大規模文書処理・長期会話・ローカル実行(Ollama等) |
| Llama 4 Maverick(MoE:17Bアクティブ・総約400B) | クラスタ推奨(A100×8〜) | 高水準の知識問答(MMLU 85.5%)、マルチモーダル | コスト効率 | エンタープライズ・高品質出力・クラウドAPI利用 |
量子化でVRAM要件を大幅に削減できる
LlamaはGGUF(llama.cpp)やAWQ・GPTQ形式の量子化が充実しており、4bit量子化であれば70Bモデルも40GB程度のGPU(A100 40GB×1〜2)で動作します。品質低下は推論・創作タスクで5〜10%程度と報告されており、コスト重視の本番環境では積極的に活用できます。Llama 4 ScoutもOllamaを通じた量子化版でローカル実行が可能です。
MoEモデルのVRAM計算は「アクティブパラメータ」で考える
Llama 4 Scout・MaverickはMoE構造のため、1トークン処理時に使用するのは全パラメータのうち実際に活性化する一部のエキスパートのみです。理論上は全パラメータをロードする必要があるものの、推論時の計算量はアクティブパラメータ数に比例するため、レイテンシは総パラメータ数から想定されるより小さく収まります。
Llamaと競合オープンウェイトLLMの比較
オープンウェイト領域ではMistral・Qwen・Gemma・Falconなど多くのモデルが並立しています。LlamaをこれらのモデルやクローズドソースのGPT-4o・Geminiと比較します。
| モデル | 開発元 | オープン度 | 最大パラメータ(公開版) | 日本語対応 | マルチモーダル | 特徴 |
|---|---|---|---|---|---|---|
| Llama 4 Scout | Meta | ウェイト公開 | 17Bアクティブ・16エキスパート(MoE) | △(英語中心) | ◎(ネイティブ対応) | 業界随一の10Mトークンコンテキスト、単一H100で動作、Ollama等でローカル実行可 |
| Llama 4 Maverick | Meta | ウェイト公開 | 17Bアクティブ・128エキスパート(総約400B・MoE) | △(英語中心) | ◎(ネイティブ対応) | MMLU 85.5%、高水準の知識性能、クラウドAPI各社が提供 |
| Mistral Large 2 | Mistral AI | ウェイト公開 | 123B | ○ | ×(Pixtralは別) | 欧州産、軽量高性能、MoE版Mixtralも有 |
| Qwen2.5 72B | Alibaba | ウェイト公開 | 72B(非MoE)/ 235B(MoE) | ◎(中国語・日本語強) | QwenVLで対応 | アジア言語で最上位クラスの性能 |
| Gemma 3 | Google DeepMind | ウェイト公開 | 27B | ○ | 一部対応 | 軽量・高性能、TPU最適化、安全性重視 |
| Falcon 180B | TII(UAE) | ウェイト公開 | 180B | △ | × | 公開当初は最大級、現在は相対的に見劣り |
| GPT-4o | OpenAI | クローズド | 非公開 | ◎ | ◎ | 高水準の日本語・推論・マルチモーダル |
| Gemini 1.5 Pro | クローズド | 非公開 | ◎ | ◎ | 100万トークン超コンテキスト、音声・動画対応 | |
| Claude 3.5 Sonnet | Anthropic | クローズド | 非公開 | ◎ | ○ | コーディング・長文分析で高評価 |
主要ベンチマークでのLlamaの立ち位置
Llama 4 MaverickはMMLU(知識問答)で85.5%を記録し、オープンウェイトモデルとして高水準の素の知識性能を示しています。一方、日本語能力評価であるJGLUE系のベンチマークでは、Qwen2.5 72BやGPT-4oと比べて差がある場面があります。日本語をメインに扱うプロジェクトではQwenやGPT-4oとの比較検討が必要です。

用途別:LlamaとクローズドLLMのどちらを選ぶべきか
「Llamaを使うべきか、GPT-4oなどAPIサービスを使うべきか」は多くの開発者が直面する判断です。以下の軸で整理します。
✔ Llamaが向く場面
- データを社外に出せないセキュリティ要件
- コスト最適化(ホスティングAPI費用の削減)
- 独自ドメインへのファインチューニング
- オフライン・エアギャップ環境
- モデルの挙動を完全に制御したい
- 研究・実験目的でモデル内部を参照したい
- Ollama等でローカル実行し超長文脈(Scout:最大10M)を活用したい
✔ クローズドAPIが向く場面
- 最高水準の日本語品質が必要
- インフラ構築・運用コストを避けたい
- マルチモーダル(画像・音声・動画)を即時利用したい
- スケールアップが予測不能で柔軟性が必要
- 最新モデルを常に追いかけたい
TCO(総保有コスト)の観点
Llamaはモデルの重みを無料でダウンロードできるオープンウェイトモデルであり、月額サブスクリプション料金は発生しません。利用コストが生じるのは、任意でホスティングAPIを使う場合のみです。たとえばサードパーティAPI経由では、Llama 4 Scoutが入力約$0.08・出力約$0.30(百万トークンあたり参考値・プロバイダにより変動)、Llama 4 Maverickが入力約$0.15・出力約$0.60(同)という水準が報告されています(2026年6月時点の参考値・要確認)。Llama 4 ScoutをOllamaでローカル実行する場合は、ハードウェア調達後のランニングコストを大幅に抑えられます。一方、エンジニアの運用工数・セットアップコストを含めると初期コストは無視できません。小規模ではクローズドAPIの方が総コストが低くなる場合も多いという事実も踏まえておく必要があります。
Llamaのファインチューニング比較:LoRA・QLoRA・フルファインチューニング
Llamaの大きな強みの一つが、ファインチューニング手法の多様さです。用途に合った手法を選ぶことで、少ないリソースでも高品質な特化モデルを作れます。
| 手法 | 必要VRAM(8B基準) | 学習コスト | 品質 | 推奨場面 |
|---|---|---|---|---|
| フルファインチューニング | 160GB以上(A100×4〜) | 高 | 最高 | 大規模データ・最高品質が必要 |
| LoRA | 24〜40GB | 中 | 高 | 社内ドメイン特化・特定タスク |
| QLoRA(4bit量子化+LoRA) | 10〜16GB | 低〜中 | 中〜高 | 消費者向けGPU・低コスト開発 |
| プロンプトチューニング | 推論時と同等 | 最低 | 中 | 軽微な挙動調整・タスク誘導 |
QLoRAはRTX 3090(24GB)やA10G(24GB)レベルのGPUで8B〜13Bのファインチューニングを可能にし、個人開発者や中小企業にとって最も現実的な選択肢です。Hugging Faceのtrlライブラリやunslothといったツールを使えば、数十〜数百件のデータでも効果的な特化モデルを構築できます。
実行環境別比較:ローカル・クラウド・オンプレミス
Llamaを動かす環境によって、推奨バージョン・サイズが変わります。
Llama 3.2 3B〜8B(Q4量子化)
llama.cpp / Ollama で動作
Llama 4 Scout(量子化版)
Ollama 対応済み・超長文脈最大10Mトークン利用可
Llama 4 Scout / Maverick
Groq・Together AI・AWS Bedrock等
Llama 4 Maverick(FP8 or Q4)
vLLM / TGI で高スループット
推論速度の比較:Groq vs. 自己ホスト vLLM
専用LPUを搭載するGroqはLlama 4系モデルでも高速な生成速度を誇り、A100自己ホスト(vLLM)と比較してリアルタイム用途で優位です。リアルタイム会話UIが必要なアプリケーションでは、Groq等の専用サービスを利用するか、軽量な量子化モデルを選ぶことが現実的な解です。
日本語対応の観点でのLlama比較
Llamaは英語中心の学習データ構成のため、日本語の扱いには注意が必要です。各世代での改善状況と、日本語強化版モデルの選択肢を整理します。
- Llama 1・2:日本語トークン比率が低く、そのままでは応答品質が低い。日本語での利用には必ずファインチューニングが必要。
- Llama 3:多言語トークン比率が向上し、日本語の基礎的な理解・生成が可能になった。ただしGPT-4oやQwenと比べると流暢さで劣る場面がある。
- Llama 3.1 / 3.2:サポート言語が8言語に拡大されたが、日本語は含まれていない(英語・ドイツ語・フランス語・スペイン語・ポルトガル語・ヒンディー語・イタリア語・タイ語)。日本語での品質はコミュニティによるファインチューニングモデルに頼る部分が大きい。
- Llama 3.3(70B / 8B):テキスト専用の現行実用モデルとして引き続き利用可能。日本語品質についてはコミュニティの評価を継続的に参照することが推奨されます。
- Llama 4 Scout / Maverick:多言語対応が強化されましたが、学習データの詳細は非公開であり、日本語品質についてはコミュニティの評価を継続的に参照することが推奨されます。
- Llama 3ベースの日本語強化版:東京大学松尾研究室・Preferred Networks・Cyberagentなどが公開するLlama 3日本語チューニングモデルが引き続き実用的な選択肢です。
- 日本語最優先ならQwen2.5 72Bが有力:アジア言語に対する事前学習データが豊富で、日本語評価でLlamaを上回る場面が多い。

ライセンスの違いと商用利用の注意点
Llamaを商用プロダクトに組み込む際は、バージョンごとのライセンス条件を正確に把握する必要があります。
| バージョン | 商用利用 | 主な制限・条件 |
|---|---|---|
| Llama 1 | 不可 | 研究目的のみ |
| Llama 2 | 条件付き可 | 月間アクティブユーザー7億人超のサービスはMetaの追加許諾が必要 |
| Llama 3〜3.3 | 条件付き可 | 月間アクティブユーザー7億人超で追加許諾。派生モデルは「Llama」の名称使用に制限あり |
| Llama 4(Scout / Maverick) | 条件付き可 | Llama 4 Community Licenseに基づく。月間アクティブユーザー7億人超の事業者は別途Meta許諾が必要。詳細はMetaの公式ページを必ず参照 |
いずれのバージョンもMIT/Apache 2.0のような完全自由なオープンソースライセンスではなく、Meta独自の制限条項付きコミュニティライセンスである点に注意が必要です。特に競合する製品・サービスへのLlamaウェイトの組み込みや、ウェイトを使ったAPIサービス提供は、利用規約の精読と場合によっては法務確認が推奨されます。
まとめ:用途と制約から最適なLlamaを選ぶ
Llamaシリーズの比較ポイントを整理すると、次の選び方が実践的です。
- コスト・リソース最優先(エッジ・個人開発):Llama 3.2 1B〜3B(量子化)+llama.cppまたはOllama
- 汎用プロトタイプ・RAGシステム:Llama 4 Scout(Ollama等でローカル実行)またはLlama 3.3 70B(Groq経由)
- 高品質テキスト生成・複雑推論:Llama 4 Maverick(MMLU 85.5%、クラウドAPI各社で提供)
- マルチモーダル対応が必要:Llama 4 Scout または Llama 4 Maverick(いずれもネイティブマルチモーダル対応)
- 超長文コンテキスト(最大10Mトークン):Llama 4 Scout
- 日本語品質最優先:Llama 3ベースの日本語チューニングモデル、またはQwen2.5 72Bを比較検討
- 商用組み込み:利用バージョンのLlama Community Licenseの条件をMetaの公式ページで必ず確認
Llamaは「無料で使えるGPT-4の代替」ではなく、自社データ・セキュリティ・コスト・カスタマイズ性を優先したい場面でクローズドAPIを代替・補完する戦略的な選択肢です。Llama 4世代では超長文脈処理(Scout:最大10Mトークン)やネイティブマルチモーダル対応、MoEアーキテクチャによる効率的な推論、OllamaによるローカルLLM実行の容易化など、実用性はさらに高まっています。バーチャルヒューマンや対話AIシステムの構築においても、セキュアなオンプレミス推論やドメイン特化ファインチューニングが求められる領域でLlamaの活用価値は高まり続けています。各プロジェクトの要件に照らして最適なバージョンとサイズを選定することが、成功への第一歩です。
関連記事
関連記事
参考文献
Study about AI
AIについて学ぶ
-
AI社長の費用・料金相場|構築と運用のコスト【2026年版】
監修 河合 継(クリスタルメソッド株式会社 代表取締役) マルチモーダルAI・感情推定・バーチャルヒューマンに関する複数の特許を発明したAI研究者。AIの研究開...
-
AI社長の作り方|AIアバター経営者を構築する手順【2026年版】
監修 河合 継(クリスタルメソッド株式会社 代表取締役) マルチモーダルAI・感情推定・バーチャルヒューマンに関する複数の特許を発明したAI研究者。AIの研究開...
-
AI社長の事例|導入企業の活用パターンを解説【2026年版】
監修 河合 継(クリスタルメソッド株式会社 代表取締役) マルチモーダルAI・感情推定・バーチャルヒューマンに関する複数の特許を発明したAI研究者。AIの研究開...