blog
AIブログ
Llama バージョン完全比較|選定基準・世代差・日本語対応を解説
本記事は「Llamaのバージョン選定」に特化した解説です。Llamaの基礎概念はLlamaとは?仕組み・活用の解説を、最新Llama 4単体の詳細はLlama 4とは?性能・モデル構成・使い方をご覧ください。

Llama バージョンの全体像:世代ごとに何が変わったか
MetaのオープンウェイトLLM「Llama」は2023年の初版公開から約3年で急速に世代交代を重ね、2026年6月時点の最新世代はLlama 4となっている。ChatGPTのような月額サブスクリプション製品ではなく、モデルの重みを無料でダウンロードして自前環境で動かせる「オープンウェイト」設計が最大の特徴だ。
バージョン選定で迷う理由の多くは、世代ごとにアーキテクチャ・コンテキスト長・ライセンス・必要ハードウェアが大きく異なるためである。以下の比較表で全世代を通観した上で、各世代の選定基準を整理する。
| バージョン | リリース時期 | 主なモデルサイズ | コンテキスト長 | アーキテクチャ上の特徴 | ライセンス |
|---|---|---|---|---|---|
| Llama 1 | 2023年2月 | 7B / 13B / 33B / 65B | 2,048トークン | デコーダ専用Transformer・研究限定公開 | 研究目的のみ・商用不可 |
| Llama 2 | 2023年7月 | 7B / 13B / 70B(Chat含む) | 4,096トークン | RLHF適用・Chat特化チューニング済み版を別提供 | Llama 2 Community License(条件付き) |
| Llama 3 | 2024年4月 | 8B / 70B | 8,192トークン | 学習トークン数15T超・コード/推論性能が大幅向上 | Llama 3 Community License(条件付き) |
| Llama 3.1 | 2024年7月 | 8B / 70B / 405B | 128,000トークン | コンテキスト長を大幅拡張・405Bはオープンウェイト最大級 | Llama 3.1 Community License(条件付き) |
| Llama 3.2 | 2024年9月 | 1B / 3B / 11B / 90B | 128,000トークン | マルチモーダル対応(11B/90B)+エッジ向け軽量(1B/3B)追加 | Llama 3.2 Community License(条件付き) |
| Llama 3.3 | 2024年12月 | 70B / 8B(テキスト専用) | 128,000トークン | 命令追従性・安全性を改善した現行実用テキストモデル | Llama 3.3 Community License(条件付き) |
| Llama 4 Scout | 2025年4月〜 | 17Bアクティブ・16エキスパート(MoE) | 最大10Mトークン※API上は128k | MoE採用・ネイティブマルチモーダル・単一H100で動作可 | Llama 4 Community License(条件付き) |
| Llama 4 Maverick | 2025年4月〜 | 17Bアクティブ・128エキスパート(総約400B・MoE) | 最大1Mトークン※API上は128k | MoE大規模構成・ネイティブマルチモーダル・MMLU 85.5% | Llama 4 Community License(条件付き) |
| Llama 4 Behemoth | 訓練中・プレビュー段階(未リリース) | 288Bアクティブ・16エキスパート(総約2T・MoE) | 非公開 | Scout/Maverickの蒸留元・一般提供なし | 未定 |
出典:Meta Llama 4公式モデルページ、Meta公式ブログ「Llama 4 herd」、Llama API公式ドキュメント(いずれも2026年6月8日確認)
Llama バージョンごとの選定基準:何を軸に選ぶか
バージョン選定は「最新=最善」とは限らない。必要なハードウェア、用途、日本語対応の要否、ライセンス条件によって最適解は異なる。以下、判断軸ごとに整理する。
ハードウェア・リソース制約からの選定
利用できるVRAMがバージョン選定の第一制約となる。MoEアーキテクチャを採用したLlama 4は、理論上は全エキスパートのロードが必要だが、推論時の計算量はアクティブパラメータ数に比例するため、Dense(密)モデルの同等パラメータ規模より推論コストは低く収まる。
- VRAM 8GB以下(一般的な開発PC):Llama 3.2 3B〜8B(4bit量子化)。llama.cppまたはOllamaを使えば個人GPUで動作する。詳細な実行手順はLlama 導入ガイドおよびOllama セットアップガイドを参照。
- VRAM 24GB前後(RTX 3090・A10G等):Llama 3.3 70B(Q4量子化・2枚構成)またはLlama 4 Scout(量子化版)。Ollama経由での量子化版Scout実行も選択肢に入る。
- NVIDIA H100 単体:Llama 4 ScoutをFP8精度で動かせる唯一の現行世代モデル。Metaが公式に「単一H100での動作」を謳っている(出典:llama.com/models/llama-4/、2026年6月8日確認)。
- A100×8以上のクラスタ:Llama 4 Maverick(FP8)をvLLMまたはTGIで自己ホスト。高スループットAPI用途に向く。
用途からの選定
用途別に現行バージョンの推奨を整理すると下表のとおりとなる。
| 用途 | 推奨バージョン | 選定理由 |
|---|---|---|
| エッジ・スマートフォン | Llama 3.2 1B〜3B(量子化) | 4GB未満のRAMで動作。llama.cppの量子化サポートが充実 |
| 汎用プロトタイプ・RAG | Llama 4 Scout または Llama 3.3 70B | Scout:超長文脈(最大10M)で大規模文書を一括処理。3.3 70B:Groq等のクラウドAPIで低遅延利用が可能 |
| 高品質テキスト生成・複雑推論 | Llama 4 Maverick | MMLU 85.5%。クラウドAPI各社(Groq・Together AI・AWS Bedrock等)で広く提供 |
| 画像+テキストのマルチモーダル処理 | Llama 4 Scout / Maverick | Llama 4世代が初のネイティブマルチモーダル対応世代 |
| ファインチューニング(QLoRA) | Llama 3.3 8B〜70B | HuggingFace trl・unsloth等のエコシステムが成熟。24GB GPU(RTX 3090等)で8B〜13BのQLoRAが現実的 |
| 日本語重視の業務適用 | Llama 3ベースの日本語チューニング版 または Qwen2.5 72Bを比較検討 | 後述の日本語対応セクションを参照 |
Ollamaを使ったローカル実行環境の詳細はOllamaとは?仕組みと活用を、llama.cppを使った軽量推論についてはllama.cppガイドを参照してほしい。料金・コスト設計の詳細はLlama 料金・コストガイドにまとめている。
コスト構造からの選定
Llamaはモデルの重みを無料でダウンロードできるオープンウェイトモデルであり、月額サブスクリプション料金は存在しない。コストが発生するのは、任意でホスティングAPIを利用する場合のみとなる。サードパーティAPI経由の参考最安水準(2026年6月時点・プロバイダにより変動するため要確認)は次のとおりだ。
- Llama 4 Scout:入力約$0.08・出力約$0.30(百万トークンあたり参考値)
- Llama 4 Maverick:入力約$0.15・出力約$0.60(百万トークンあたり参考値)
(出典参考:tokencost.app、pricepertoken.com。Meta公式の単価表は本稿作成時点で明示確認できず、上記数値はあくまで参考値。)
Llama 4 ScoutをOllamaでローカル実行する場合は、初期ハードウェア調達後のランニングコストを大幅に抑えやすい。ただし、エンジニアの運用工数・セットアップコストを含めると、小規模利用ではクローズドAPIの総コストを下回らないケースも多い。この判断軸の詳細はOllama 料金・コストガイドも参照のこと。
Llama バージョンと日本語対応の実情
Llamaは英語中心の学習データ構成であり、日本語での利用には世代ごとの対応状況を正確に把握する必要がある。
- Llama 1・2:日本語トークン比率が低く、そのままでは応答品質が低い。日本語での実用には必ずファインチューニングが必要。
- Llama 3:多言語トークン比率が向上し、日本語の基礎的な理解・生成が可能になった。ただしGPT-4oやQwen系と比べると流暢さで劣る場面がある(出典:gihyo.jp「Meta、大規模言語モデルの新バージョンLlama 3を発表」2024年4月)。
- Llama 3.1 / 3.2:公式サポート言語は8言語(英語・ドイツ語・フランス語・スペイン語・ポルトガル語・ヒンディー語・イタリア語・タイ語)であり、日本語は公式サポート言語に含まれていない。日本語品質はコミュニティによるファインチューニングモデルに依存する。
- Llama 3.3 / Llama 4 Scout / Maverick:多言語対応が強化された旨はアナウンスされているが、学習データの詳細は非公開であり、日本語品質についてはコミュニティの継続的な評価を参照することが推奨される。
注目すべき取り組みとして、産業技術総合研究所(AIST)はLlama 3.1をベースに日本語能力を高めた「Llama 3.1 Swallow」の開発成果を2024年10月に発表している(出典:産業技術総合研究所プレスリリース、2024年10月8日)。このように、Llamaベースモデルを起点とした日本語強化チューニングモデルが国内研究機関から継続的に公開されており、日本語用途では標準版Llamaよりこれらの派生モデルを選ぶ判断が合理的な場合が多い。
日本語品質を最優先とする場合は、Qwen2.5 72B等のアジア言語に強い競合モデルとの比較検討も行った上で選定することが望ましい。LlamaIndexと組み合わせたRAGシステムの構築を検討する際は、LlamaIndexガイドもあわせて参照してほしい。

Llama バージョン共通のライセンス制限と商用利用の注意点
Llamaのいずれのバージョンも、MIT/Apache 2.0のような完全自由なオープンソースライセンスではない。MetaはバージョンごとにLlama Community Licenseを定め、複数の制限条項を設けている。商用プロダクトへの組み込みを検討する際は、以下の点を法務部門と共に確認することが推奨される。
| バージョン | 商用利用 | 主な制限・注意点 |
|---|---|---|
| Llama 1 | 不可 | 研究目的のみ。現在の実務用途では実質的に選択肢にならない |
| Llama 2 | 条件付き可 | 月間アクティブユーザー7億人超のサービスはMetaの追加許諾が必要 |
| Llama 3〜3.3 | 条件付き可 | 月間アクティブユーザー7億人超で追加許諾が必要。派生モデルの「Llama」名称使用に制限あり |
| Llama 4(Scout / Maverick) | 条件付き可 | Llama 4 Community Licenseに基づく。月間アクティブユーザー7億人超の事業者は別途Meta許諾が必要。詳細はMetaの公式ページで必ず最新版を確認のこと |
特に競合製品・サービスへのウェイト組み込みや、ウェイトを活用したAPIサービスの第三者提供は利用規約の精読が欠かせない。ライセンスの詳細はllama.comの公式ライセンスページを参照してほしい。
Llama 4世代が現行バージョン選定の出発点となる理由
2026年6月時点での新規プロジェクトにおけるバージョン選定の起点は、原則としてLlama 4世代とすることが妥当だ。Llama 4からMixture of Experts(MoE)アーキテクチャを初採用し、ネイティブマルチモーダル(画像+テキスト)に対応した最初の世代となっている(出典:Meta公式ブログ「Llama 4 herd」、2026年6月8日確認)。
ただし、Llama 3.3(70B/8B)はテキスト専用の現行実用モデルとして公式Llama APIでも引き続き提供されており、ファインチューニングエコシステムの成熟度・ツール対応の観点では依然として実用的な選択肢だ。特にQLoRAによるドメイン特化チューニングを中心に据えるプロジェクトでは、Llama 3.3ベースの方が整備されたツールチェーンを活用しやすい場面がある。
Llama 4 Behemothは288Bアクティブ・16エキスパート(総パラメータ約2T)という超大規模モデルだが、2026年6月時点では訓練中・プレビュー段階であり、一般提供されていない。Scout/Maverickの蒸留元(教師モデル)として位置づけられており、現行の選定対象には含まれない。
Ollamaを通じたバージョン管理とアップデートの実運用については、Ollama比較ガイドも参考になる。
弊社が開発するDeepAIは、実在の人物の容姿・表情・声・振る舞いをデジタル空間で再現するバーチャルヒューマン/AIアバターソリューションであり、接客・研修・面接練習・広報などの用途でリップシンク・表情生成・音声合成・対話AIを組み合わせて活用される。対話AIの基盤としてオープンウェイトLLMを組み合わせる構成を検討する際、Llamaのバージョン選定はセキュアなオンプレミス推論やデータ主権確保の観点で重要な意思決定となる。
AIの業務活用・導入をご検討の方へ
クリスタルメソッドは、各種LLM・ローカルAI・RAG・AIアバターを活用した業務へのAI導入を支援しています。「自社の業務でどう使えるか」をまずはお気軽にご相談ください。
参考文献
- Meta Llama 4公式モデルページ:https://www.llama.com/models/llama-4/(2026年6月8日確認)
- Meta公式ブログ「Llama 4 herd」:https://ai.meta.com/blog/llama-4-multimodal-intelligence/(2026年6月8日確認)
- Llama API公式ドキュメント(モデルID一覧):https://llama.developer.meta.com/docs/models/(2026年6月8日確認)
- llama.com(トップ・ダウンロード・ライセンス):https://www.llama.com/(2026年6月8日確認)
- 産業技術総合研究所(AIST)「Llama 3.1 Swallow」プレスリリース:https://www.aist.go.jp/aist_j/press_release/pr2024/pr20241008_2/pr20241008_2.html(2024年10月8日)
- サードパーティAPI参考単価(tokencost.app):https://tokencost.app/blog/llama-4-scout-vs-maverick-api-pricing(2026年6月8日確認)
- サードパーティAPI参考単価(pricepertoken.com):https://pricepertoken.com/pricing-page/provider/meta-llama(2026年6月8日確認)
- Meta、大規模言語モデルの新バージョンLlama 3を発表(gihyo.jp):https://gihyo.jp/article/2024/04/meta-llama3
- メタが最新大規模言語モデル「ラマ3」初期バージョンを投入(Reuters):https://jp.reuters.com/markets/global-markets/H5GJLSPAKFKFTDQSEHXJTACD7E-2024-04-19/
監修
河合 継(クリスタルメソッド株式会社 代表取締役)
AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について | 編集方針
Study about AI
AIについて学ぶ
-
大学・高校の面接でよく聞かれる質問と答え方|回答が通用するか確かめる方法
面接の本番まで残り1〜3週間。志望理由書は書き終えたのに、「実際に何を聞かれるか」「自分の答えで大丈夫か」という不安だけが夜になると膨らむ──そういう状態の人に...
-
バイト面接の質問と答え方|面接官が本当に見ているポイント
バイト面接の質問と答え方|面接官が本当に見ているポイントをAI開発者が解説 「どんな質問が来るか」はもう調べた。でも、いざ答えようとすると言葉が出てこない——そ...
-
面接の逆質問|採用する側が評価している視点と、刺さる質問の設計法
「何か質問はありますか?」——この一言を聞くたびに頭が真っ白になる人は少なくない。事前に例文を調べても、どれも使い回し感があって自分の状況に合うか自信が持てない...