blog

Llama 4 とは?性能・モデル構成・使い方【2026年版】

監修

河合 継(クリスタルメソッド株式会社 代表取締役)

AI・ディープラーニングに関する特許16件の発明者。国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について編集方針

Llama 4は、Meta AIが2025年4月にリリースした最新世代のオープンウェイトLLMシリーズです。前世代のLlama 3から大幅にアーキテクチャを刷新し、Mixture-of-Experts(MoE)構造の採用・ネイティブマルチモーダル対応・圧倒的なコンテキスト長を引っ提げて登場しました。自社でも各種LLMの検証・実務利用を継続的に行っていますが、Llama 4はそのラインアップの中でも特に「オープンウェイトでここまでできるのか」という印象を与えたモデルです。本記事では、Llama 4の各モデルの仕様・アーキテクチャの革新点・実際のパフォーマンス・活用シーン・導入時の注意点まで、深く掘り下げて解説します。

Llama 4とは何か——シリーズ全体の位置づけ

Llama 4は、Metaが「Llama」ブランドで展開するオープンウェイトLLMの第4世代です。Llama 3までの「密なTransformerアーキテクチャ」から脱却し、MoE(Mixture-of-Experts)を全面採用した点が最大の転換点です。加えて、テキストと画像をネイティブに扱う初のマルチモーダル世代でもあります。Llamaシリーズ全体の概要や歴史的経緯についてはLlamaとは何かの記事で詳しく解説していますので、「そもそもLlamaって何?」という方はまずそちらをご覧ください。

本記事では、Llama 4固有の仕様・設計思想・実務上の特性に焦点を当てます。

Llama 4のモデルラインアップ

リリース時点(2025年4月)でMetaが公開したLlama 4のモデルは以下の3種類です。用途と規模に応じて使い分けることが前提の設計になっています。

モデル名 総パラメータ数 アクティブパラメータ数 エキスパート数 コンテキスト長 主な用途
Llama 4 Scout 約109B 約17B 16 最大10Mトークン(API上は128k) 長文処理・ローカル展開・軽量推論
Llama 4 Maverick 約400B 約17B 128 API上は128k 汎用・マルチモーダル・高品質な回答生成
Llama 4 Behemoth 約2T(2兆) 約288B 16 未公開 最高性能・教師モデル(訓練中・プレビュー段階)

Behemothは2025年4月時点で訓練中・一部プレビュー公開の段階であり、一般向けの推論APIとしての提供はScoutとMaverickが中心です。なお、テキスト専用の用途では旧世代のLlama 3.3(70B / 8B)も現行の実用モデルとして公式Llama APIで引き続き提供されています。

Scout——10Mトークンという非常識なコンテキスト長

Scoutは「アクティブパラメータ17B・単一NVIDIA H100 GPUでも動作可能」という軽量性と、最大1,000万トークン(10M)という業界最長クラスのコンテキスト長の組み合わせが最大の特徴です。総パラメータは109Bですが、MoEによって推論時に動くパラメータは約17Bに絞られるため、H100 1枚での推論も現実的です。公式Llama APIではモデルID Llama-4-Scout-17B-16E-Instruct-FP8 として提供されています(API上のコンテキストウィンドウは128k)。

10Mトークンとは、A4用紙換算で数万ページ分のテキストを一度に処理できるスケールです。大規模コードベースの全体把握・長大な法律文書の要約・複数会話セッションにまたがるコンテキスト保持など、これまでチャンク分割が必要だったユースケースを一気通貫で処理できるようになります。

Maverick——コスト効率と高品質のバランスモデル

Maverickはアクティブパラメータこそ17BとScoutと同等ですが、128エキスパートという大規模なMoE構成により、総パラメータ400Bに相当する表現力を持ちます。ベンチマーク上ではGPT-4oやGemini 2.0 Flashと同等以上の水準を記録するタスクが複数あり、「オープンウェイトで最先端に匹敵する汎用性能」を最も体現しているモデルです。公式Llama APIでのモデルIDは Llama-4-Maverick-17B-128E-Instruct-FP8 です。

マルチモーダル(テキスト+画像の同時入力)にも対応しており、図表や写真を含む文書の解析・マルチモーダルなRAG構築・ビジョン系エージェントへの組み込みなどにも活用できます。

Behemoth——教師モデルとしての役割

総パラメータ約2兆という規模のBehemothは、主にScout・Maverickへの知識蒸留(Knowledge Distillation)の教師モデルとして機能しています。Metaの発表によると、BehemothはSTEM系ベンチマーク(数学・科学・コーディング)においてGPT-4.5やGemini Ultra相当のモデルを上回る水準を達成しているとされています。訓練中・プレビュー段階のため一般向け安定公開には至っておらず、直接利用できるシーンは限られますが、その知識がScout・Maverickに蒸留されているという点で、間接的に全ユーザーに恩恵が及ぶ構造です。

MoEアーキテクチャ——なぜ性能とコストを両立できるのか

Llama 4最大の技術的革新はMixture-of-Experts(MoE)の採用です。従来の密なTransformerでは「全パラメータを毎回活性化」していたのに対し、MoEは「入力ごとに適切なエキスパートを選択・活性化するだけ」という仕組みです。

入力トークン
ルーター
どのエキスパートを
使うか選択
エキスパート A(活性化)
エキスパート B(非活性化)
エキスパート C(非活性化)
エキスパート D(活性化)

出力

▲ MoEの処理フロー:全エキスパートのうち一部だけが活性化され、推論コストを大幅に削減

Maverickの場合、128エキスパートのうち推論ごとに活性化されるのはごく一部です。これにより「総パラメータ400Bの知識量」と「アクティブパラメータ17Bのコスト効率」を同時に実現しています。密なモデルで同等のパラメータ数(400B)を動かすには大量のGPUが必要ですが、MoEではその制約が大幅に緩和されます。

iRoPE——長文処理を支えるアーキテクチャ

Llama 4ではPositional EncodingにiRoPE(Interleaved RoPE)という独自の手法を採用しています。通常のRoPEは長いコンテキストを扱うと性能が落ちやすい問題がありますが、iRoPEはAttentionレイヤーに一部「位置エンコーディングなし」のレイヤーを挟み込むことで、極端に長いシーケンスでも安定した精度を維持します。Scoutが最大10Mトークンを実用的に処理できる理由の一つがこのiRoPEです。

Early Fusion——マルチモーダルの統合方法

Llama 4はテキストと画像をEarly Fusion(早期融合)で統合しています。テキスト専用モデルに後からビジョンエンコーダーを追加する「後付けマルチモーダル」ではなく、最初からテキストと画像を同一のトークン空間で学習させる設計です。これにより、テキスト文脈と画像情報の相互参照がより自然に行われ、図表の読み取り・画像内テキストの理解・文書全体の文脈を踏まえた画像解釈などで精度が向上しています。

ベンチマーク性能——数字で見るLlama 4の実力

Metaが公開したベンチマーク結果と、自社での検証を踏まえた所感をまとめます。

ベンチマーク Llama 4 Scout Llama 4 Maverick 参考:GPT-4o 参考:Gemini 2.0 Flash
MMLU(知識・推論) 79.6 85.5 85.7 83.0
HumanEval(コーディング) 70.7 77.4 90.2
MATH(数学) 50.3 61.2 76.6
DocVQA(文書理解・マルチモーダル) 94.4 94.4 91.1 92.1
ChartQA(グラフ理解) 90.4 90.0 85.7 88.3

※数値はMeta公式発表(2025年4月)に基づく。ベンチマークは評価条件により変動します。

コーディング・数学などの純粋な推論力ではGPT-4oに一歩譲るシーンもありますが、文書理解・グラフ読み取りといったマルチモーダル系タスクではGPT-4oを上回る結果が出ています。自社の検証でも、PDF・スキャン文書の内容抽出や表を含むレポートの解析では、MaverickはGPT-4oと遜色なく、コスト面で明確に優位でした。

実務での活用シーン——何に使えるか

長文ドキュメント処理(Scout向け)

Scout最大の強みである最大10Mコンテキストは、実務では以下のような場面で特に効果を発揮します。

  • 大規模コードベースの全体把握:数万行のリポジトリ全体をコンテキストに入れてバグ調査・リファクタリング提案が可能
  • 長大な法律・契約文書の精査:数百ページの契約書を一括処理し、リスク条項の抽出・比較に活用
  • 会話履歴を保持したカスタマーサポート:過去の全会話ログをコンテキストに保持したまま応答生成
  • 研究論文群の横断分析:複数の論文をまとめて入力し、矛盾点・共通点の抽出

自社の検証では、数十件の長文ドキュメントをScoutに一括投入してキーポイントを抽出するパイプラインを試したところ、従来のチャンク分割+再結合アプローチより回答の一貫性が明らかに向上しました。分割による文脈の断絶が解消されるためです。

マルチモーダルRAGの構築(Maverick向け)

MaverickのEarly Fusionマルチモーダル対応を活かすと、テキストと画像が混在するドキュメントを丸ごとRAGのナレッジベースに組み込む構成が現実的になります。製品マニュアルの図解・インフォグラフィックを含む資料・スキャン帳票などを、テキスト抽出なしにそのままLLMが解釈できるため、パイプラインのシンプル化とコスト削減につながります。

エージェント・ワークフロー自動化

Llama 4はFunction CallingおよびTool Useに対応しており、エージェント構成での利用が可能です。Maverickを中心LLMとして、Web検索・コード実行・DB照会などのツールと組み合わせた自律エージェントを、クローズドなオンプレミス環境で構築できます。これはプロプライエタリモデルにはない「完全なデータ管理下での高性能エージェント」という大きなアドバンテージです。

Llama 4 Scoutによる長文ドキュメント処理パイプラインのイメージ
Llama 4 Scoutによる長文ドキュメント処理パイプラインのイメージ

Llama 4の商用ライセンスと利用条件

Llama 4は「Llama 4 Community License(コミュニティライセンス)」の下で公開されています。MITライセンスのような完全に自由なオープンライセンスではなく、制限条項付きの独自ライセンスである点に注意が必要です。主な条件は以下の通りです。

項目 内容
商用利用 原則可能(月間アクティブユーザー7億人を超えるサービスは別途Meta側の許諾が必要)
改変・ファインチューニング 可能。ただし「Llama」ブランドを使った派生モデルの再配布には制限あり
モデルウェイトの配布 Metaへの申請・同意後にダウンロード可能(llama.com・Hugging Faceから取得)
競合利用制限 Llama 4を使用して別のLLMのトレーニングデータを生成することは禁止
禁止用途 違法コンテンツ生成・兵器開発・選挙への不正介入など(Acceptable Use Policyに準拠)

月間アクティブユーザー7億人という閾値は一般的な企業にとって現実的に問題になるラインではありませんが、ライセンス条件は利用前に必ず原文を確認することを推奨します。料金体系の詳細(APIの従量課金・セルフホスティングのコスト比較など)はLlamaの料金の記事で詳しく解説しています。

導入方法と推奨環境

Llama 4の実環境への導入方法についてはLlamaの導入方法の記事で手順を詳しくまとめています。ここではLlama 4固有のポイントを補足します。

推奨ハードウェア構成

モデル 最小構成(推論) 推奨構成(本番) 備考
Scout(BF16) NVIDIA H100 × 1(80GB) H100 × 2〜4 単GPU動作はコンテキスト長を短くする必要あり
Scout(INT4量子化) A100 80GB × 1 H100 × 1〜2 量子化による若干の精度低下あり
Maverick(BF16) H100 × 8 H100 × 8〜16 総パラメータ400B、分散推論が基本
Maverick(FP8/INT4量子化) H100 × 2〜4 H100 × 4〜8 API経由なら自社GPU不要

主な推論フレームワーク・配信方法

  • 公式Llama API(llama.developer.meta.com):Metaが直接提供するホスト型APIエンドポイント。Scout・Maverick・Llama 3.3系をトークン従量課金で利用可能。自前GPUを用意せずに使い始めたい開発者に最適
  • Groq:超低レイテンシ推論に特化したLPUクラウド。Llama 4に対応しており、リアルタイム応答が必要なアプリケーションに向く
  • Together AI・Fireworks AI・DeepInfra:マネージドな分散推論サービス。Maverickのフルスペック推論をAPIで利用可能。サードパーティAPI参考料金(2026年6月時点・最安水準)はScoutで入力約$0.08/出力約$0.30、Maverickで入力約$0.15/出力約$0.60(百万トークンあたり、プロバイダにより変動)
  • vLLM(セルフホスト):オープンソース推論エンジン。Llama 4に対応済み。社内環境へのデプロイはvLLMが実績ある選択肢
  • Ollama(ローカル開発):量子化済みScoutをローカルMacやワークステーションで動かす場合に便利

他モデルとの比較——Llama 4をどう位置づけるか

各LLMの詳細な性能・コスト比較はLlamaと他モデルの比較の記事に譲り、ここではLlama 4固有の観点から整理します。

Llama 3系との比較

Llama 4がLlama 3系から大きく変わった点を端的にまとめると以下の通りです。なお、Llama 3.3(70B / 8B)はテキスト専用の現行実用モデルとして今も有効ですが、マルチモーダルや超長コンテキストが必要な用途ではLlama 4を選ぶのが基本となります。

項目 Llama 3系(最大版) Llama 4 Maverick
アーキテクチャ 密なTransformer MoE(128エキスパート)
パラメータ数(最大) 405B(全て活性化) 400B総・17Bアクティブ
最大コンテキスト長 128K トークン Scout:最大10M、API共通128k
マルチモーダル テキストのみ(基本モデル) テキスト+画像(Early Fusion)
推論コスト 高い(全パラメータ活性化) 低い(アクティブは一部のみ)

オープンウェイト vs. プロプライエタリの判断基準

自社での実運用経験から言うと、データのプライバシー要件・カスタマイズの深さ・長期的なコスト最適化という3点がオープンウェイトを選ぶ主な理由になります。Llama 4はその中で、従来のオープンウェイトの弱点だった「マルチモーダル対応の弱さ」「コンテキスト長の短さ」「コスト対性能比」を一度に解決した点で、プロプライエタリモデルとの差を大幅に縮めています。

Llama 4を使う上での注意点・課題

日本語性能の現状

Llama 4は英語中心の学習データで事前学習されており、日本語タスクでは英語比でやや性能が落ちることが自社の検証でも確認されています。特に日本語での複雑な指示追従・長文日本語の要約精度は、GPT-4oやClaude 3.5 Sonnetに比べると一段落ちる印象です。ただし、英語でプロンプトを書いて日本語で出力させる構成や、日本語ファインチューニングを施した派生モデルを使うことで実用水準には十分到達できます。

Maverickのセルフホストは依然ハードルが高い

MaverickをフルBF16でセルフホストするにはH100×8以上の環境が必要であり、個人や中小規模チームには現実的ではありません。量子化(FP8・INT4)を使えばH100×4程度まで下げられますが、精度とのトレードオフが生じます。自社環境へのデプロイが難しい場合は、Together AIやGroq、DeepInfraなどのマネージドAPIを経由することで、Maverickのフル性能を低コストで利用するアプローチが現実解です。

Behemothの一般公開は未定

最高性能のBehemoth(約2T)は訓練中・プレビュー段階であり、一般向けの安定公開には至っていません。利用できるシーンは限られており、Behemothが必要なレベルの推論性能が求められるケースは、当面はプロプライエタリモデルとの併用を検討するのが現実的です。

ライセンスのグレーゾーン——大規模競合サービスへの注意

Llama 4 Community Licenseには「月間アクティブユーザー7億人超は別途Meta側の許諾が必要」という条件のほかに、Llama 4を使って別のLLMをトレーニングする行為の禁止が含まれています。自社サービスでLlama 4の出力を大量に生成して独自モデルの学習データに使う構成は、ライセンス違反になる可能性があるため、利用前に法務部門との確認を強く推奨します。

Llama 4のセルフホスト環境:適切なGPUサーバー構成が性能を最大限に引き出す
Llama 4のセルフホスト環境:適切なGPUサーバー構成が性能を最大限に引き出す

まとめ

Llama 4は、MoEアーキテクチャ・Early Fusionマルチモーダル・iRoPEによる超長コンテキストという3つの技術革新を軸に、「オープンウェイトLLMの限界」を大きく塗り替えたモデルです。重みは無料ダウンロードで入手でき、月額サブスクリプションは存在しません。API利用時はホスティングサービスへのトークン従量課金という形が基本です。

  • Scoutは最大10Mトークンのコンテキスト長と単GPU動作という組み合わせで、長文処理・ローカル展開のユースケースに最適
  • Maverickはコスト効率と汎用性能のバランスが優れており、マルチモーダルRAGやエージェント構築の中核モデルとして実用的
  • Behemothは教師モデルとしてScout・Maverickの品質を底上げしており、現時点では一般向け安定公開前の訓練中・プレビュー段階

日本語性能の課題や、Maverickのセルフホストに必要なGPUリソースの問題はあるものの、公式Llama APIやサードパーティの推論サービスを活用することで多くのシナリオをカバーできます。プロプライエタリモデルとのコスト・プライバシー・カスタマイズ性を比較検討しながら、自社ワークフローへの組み込みを検討してみてください。Llamaシリーズ全体の基礎から学びたい方はLlamaとは何かを、具体的な導入手順はLlama導入ガイドを、コスト感の整理にはLlama料金ページをご参照ください。

関連記事

参考文献

    AIブログ購読

     
    クリスタルメソッドがお届けする
    AIブログの更新通知を受け取る

    Study about AI

    AIについて学ぶ

    • AI全般のイメージ

      AI社長の費用・料金相場|構築と運用のコスト【2026年版】

      監修 河合 継(クリスタルメソッド株式会社 代表取締役) マルチモーダルAI・感情推定・バーチャルヒューマンに関する複数の特許を発明したAI研究者。AIの研究開...

    • アバター・デジタルヒューマンのイメージ

      AI社長の作り方|AIアバター経営者を構築する手順【2026年版】

      監修 河合 継(クリスタルメソッド株式会社 代表取締役) マルチモーダルAI・感情推定・バーチャルヒューマンに関する複数の特許を発明したAI研究者。AIの研究開...

    • AI全般のイメージ

      AI社長の事例|導入企業の活用パターンを解説【2026年版】

      監修 河合 継(クリスタルメソッド株式会社 代表取締役) マルチモーダルAI・感情推定・バーチャルヒューマンに関する複数の特許を発明したAI研究者。AIの研究開...

    View more