blog

AIブログ

Llamaとは？MetaのオープンソースLLMの仕組み・歴史・活用を初心者向けに解説

本ページは「Llamaとは何か」という基礎理解（概要・仕組み・世代の流れ・活用シーン）に特化した入門解説です。最新世代Llama 4の詳細仕様やベンチマークはLlama 4とは？性能・モデル構成・使い方を、実際の導入手順はLlama導入ガイドを参照してください。

Llamaとは？MetaのオープンウェイトLLMの全貌

Llama（ラマ）とは、Meta（旧Facebook）が開発・公開しているオープンウェイトの大規模言語モデル（LLM: Large Language Model）です。2023年2月の初公開以来、研究者・エンジニア・企業が自社環境でAIを構築・カスタマイズするための基盤モデルとして世界中に普及し、2026年時点では累計ダウンロード数が数億回を超えるオープンウェイトLLMの代名詞的存在となっています。

本記事では「Llamaとは何か」という基本概念から、モデルの世代別進化、技術的な仕組み、GPT-4oや他のOSSモデルとの違い、実際の活用方法まで、Llamaにまつわるすべてを一記事で網羅的に解説します。

Llamaの基本概念：大規模言語モデルとは何か

LlamaはLLM（大規模言語モデル）の一種です。LLMとは、膨大なテキストデータを学習し、次に来る単語（トークン）を確率的に予測することで文章を生成・理解するディープラーニングモデルを指します。

具体的には「トランスフォーマー（Transformer）」と呼ばれるアーキテクチャを採用しており、自己注意機構（Self-Attention）によってテキスト内の単語間の関係性を学習します。このアーキテクチャはGPT-4oやClaude、Geminiなど現代の主要LLMがほぼ共通して採用している設計です。

Llamaが他のLLMと最も大きく異なるのは「オープンウェイトである」という点です。MetaはLlamaのモデルウェイト（学習済みパラメータ）を公開しており、ライセンス条件の範囲内であれば誰でも無料でダウンロード・利用・改変が可能です。ChatGPTやClaudeのように月額サブスクリプションを支払ってAPIにアクセスするモデルとは根本的に異なり、重みそのものを取得して自前環境で動かせることが最大の特徴です。これにより、以下のような自由度が生まれます。

自社サーバーやクラウド環境でのローカル実行
特定ドメイン（医療・法律・金融など）へのファインチューニング
モデル内部の動作確認・研究・監査
ホスティングAPI利用料不要の大量推論処理

Llamaの歴史と世代別進化

Llamaは2023年から始まり、約1〜2年サイクルで急速に進化してきました。各世代の主なスペックと特徴を以下にまとめます。

バージョン	公開時期	パラメータ数	コンテキスト長	主な特徴
Llama 1	2023年2月	7B / 13B / 33B / 65B	2,048トークン	研究目的限定公開。GPT-3を上回る効率性を実証
Llama 2	2023年7月	7B / 13B / 70B	4,096トークン	商用利用解禁。RLHF搭載のChatバリアント同時公開
Llama 3	2024年4月	8B / 70B	8,192トークン	128Kボキャブラリ、多言語対応強化、instruction tuning改善
Llama 3.1	2024年7月	8B / 70B / 405B	128,000トークン	405Bで初のフロンティアモデル級性能。ツール呼び出し対応
Llama 3.2	2024年9月	1B / 3B / 11B / 90B	128,000トークン	マルチモーダル（画像入力）対応。エッジ向け軽量モデル追加
Llama 3.3	2024年12月	70B / 8B	128,000トークン	テキスト専用の現行実用モデル。70Bが高性能、8Bが軽量・高速。コスト効率の大幅改善
Llama 4 Scout	2025年4月	17B（アクティブ）/ 16エキスパート（MoE）	最大10,000,000トークン（10M）	MoEアーキテクチャ採用。業界随一の超長文脈、マルチモーダル標準装備。単一H100 GPUで動作
Llama 4 Maverick	2025年4月	17B（アクティブ）/ 128エキスパート（MoE・総約400B）	128,000トークン（公式API上）	旗艦マルチモーダルモデル。MoE効率と高い知識性能を両立
Llama 4 Behemoth	訓練中・未リリース	288B（アクティブ）/ 総約2T（MoE）	未公表	Scout/Maverickの蒸留元（教師モデル）。一般提供はされていない

Llama 1：研究コミュニティへの衝撃

2023年2月、MetaはLlama 1を学術・研究目的に限定して公開しました。最大65Bパラメータのモデルが、当時最強クラスとされていたGPT-3（175B）を多くのベンチマークで上回る性能を示したことは大きな衝撃でした。これは「パラメータ数を闇雲に増やすより、高品質なデータで効率よく学習する方が性能が出る」という方向性を業界に示した転換点となりました。

Llama 2：商用利用解禁で産業利用が加速

2023年7月のLlama 2では商用利用が認められ（月間アクティブユーザー7億人以上のサービスへの利用は別途ライセンスが必要）、企業による本格採用が急増しました。またMeta独自のRLHF（人間のフィードバックによる強化学習）を適用した「Llama 2 Chat」バリアントが同時公開され、チャットAI用途でも実用レベルに達しました。

Llama 3〜3.3：性能とコンテキストの飛躍

Llama 3（2024年4月）では128,000トークンという語彙サイズの拡張により、多言語・コード対応が飛躍的に向上しました。Llama 3.1（2024年7月）では405Bパラメータのモデルが登場し、当時のフロンティアモデルに匹敵する性能を示しました。さらにLlama 3.3（2024年12月）では70Bおよび8Bのテキスト専用実用モデルとして継続提供され、現在も公式Llama APIで利用可能な現行ラインナップに位置づけられています。

Llama 4：MoEと超長文脈・マルチモーダルの新時代

2025年4月公開のLlama 4は、アーキテクチャを大きく刷新した現行最新世代です。従来のDense（密）モデルからMoE（Mixture of Experts：専門家混合）モデルへ移行し、推論時には全パラメータの一部のみを活性化させることで計算効率を大幅に向上させています。テキストと画像の両方を扱うネイティブマルチモーダル機能がLlama 4世代で初めて標準装備されました。

現在一般公開されている主要モデルは以下の2つです。

Llama 4 Scout（旗艦・軽量長文脈）：アクティブパラメータ17B・16エキスパートのMoE構成。コンテキストウィンドウは最大10,000,000トークン（約1,000万）と業界随一の超長文脈処理能力を持ち、単一のNVIDIA H100 GPU上での動作を謳います。OllamaなどのローカルLLM実行ツールでも主要モデルとして利用可能です。
Llama 4 Maverick（旗艦・マルチモーダル主力）：アクティブパラメータ17B・128エキスパートのMoE構成（総パラメータ約400B）。知識集約型タスクでの高精度な回答が求められる用途に適した旗艦モデルです。

なおLlama 4 Behemoth（288Bアクティブ・総約2T規模のMoE）はScout/Maverickの蒸留元となった教師モデルで、2026年6月時点では訓練中・プレビュー段階であり、一般提供はされていません。

Llamaの技術的仕組み

Llamaがどのように動作するのかを、主要な技術要素から解説します。

トランスフォーマーアーキテクチャ

Llamaはデコーダのみのトランスフォーマー（Decoder-only Transformer）を採用しています。入力テキストをトークン（単語や単語の断片）に分割し、各トークンをベクトル表現（埋め込み）に変換した後、複数の自己注意層を通過させることで文脈を理解し、次のトークンを予測します。

入力テキスト

→

トークン化

→

埋め込み変換

→

Self-Attention層 × N

→

次トークン予測

→

出力テキスト

RMSNorm・SwiGLU・RoPEによる改良

Llamaは元のトランスフォーマーから以下の3つの改良を加えており、これが学習効率・推論速度の優位性につながっています。

RMSNorm（Root Mean Square Layer Normalization）：従来のLayerNormより計算コストが低く、学習安定性が高い正規化手法
SwiGLU活性化関数：FFN（Feed-Forward Network）部分でGated Linear Unitを改良した活性化関数を使用。同じ計算量でより高い表現力を実現
RoPE（Rotary Position Embedding）：相対的な位置関係を回転行列で表現するポジションエンコーディング。長いシーケンスでの性能劣化を抑制

MoE（Mixture of Experts）アーキテクチャ（Llama 4）

Llama 4から採用されたMoEでは、モデル内部に複数の「専門家（Expert）」ネットワークが存在し、入力ごとにルーター（Router）が適切な専門家を選択して処理を担当させます。全専門家を同時に動かす必要がないため、総パラメータ数が巨大でも実際の計算量（FLOPs）を抑えることができます。ScoutおよびMaverickはいずれもアクティブパラメータ17Bという効率的な設計で、高い性能と実用的な推論コストを両立しています。

MoEの処理イメージ（Llama 4 Scout / Maverick）

入力トークン

→

ルーター
（最適Expert選択）

→

Expert A（活性化）

Expert B（非活性）

Expert C（活性化）

Expert D（非活性）

→

出力（統合）

Llamaと他のLLMの比較

Llamaを選ぶべきかどうかを判断するために、主要なLLMと多角的に比較します。

モデル	提供元	オープンウェイト	商用利用	ローカル実行	最大コンテキスト	主な強み
Llama 4 Scout	Meta	○	○（条件付き）	○	10Mトークン	業界随一の超長文脈、MoE効率、マルチモーダル、Ollamaでローカル実行可
Llama 4 Maverick	Meta	○	○（条件付き）	○	128Kトークン（API上）	旗艦マルチモーダル、128エキスパートMoE、高知識性能
Llama 3.3 (70B)	Meta	○	○（条件付き）	○	128Kトークン	テキスト特化・高コスト効率、カスタマイズ性、プライバシー
GPT-4o	OpenAI	×	○	×	128Kトークン	汎用高性能、APIエコシステム
Claude 3.5 Sonnet	Anthropic	×	○	×	200Kトークン	文章品質、安全性設計
Gemini 2.0 Flash	Google	×	○	×	1Mトークン	速度、マルチモーダル、Google統合
Mistral Large	Mistral AI	△（一部）	○	△	128Kトークン	欧州データ規制対応、軽量高性能
Qwen2.5	Alibaba	○	○（条件付き）	○	128Kトークン	中国語・多言語、コード生成

Llamaを選ぶ理由・選ばない理由

Llamaを選ぶべき場面としては、まず「データをクラウドに送りたくない」プライバシー・コンプライアンス要件がある場合が挙げられます。医療・法務・金融など機密情報を扱うシステムでは、ローカル実行できるLlamaは大きなアドバンテージとなります。また、ホスティングAPIコストを極力下げたい大量バッチ処理、特定ドメインに特化したモデルをゼロから作りたいファインチューニング用途でも優位です。Llama 4 ScoutのようにOllamaでローカル実行できる超長文脈・マルチモーダルモデルが登場したことで、従来はクラウドAPIに頼らざるを得なかった用途の一部もオンプレミスで賄えるようになっています。

一方、Llamaが不向きな場面もあります。モデルの実行にはGPUサーバーの調達・運用コストが必要で、小規模な利用ではOpenAIのAPIをそのまま使う方がトータルコストが安い場合があります。また、最先端クローズドモデルとの性能差が存在する領域（特に複雑な推論・数学）もあり、最高性能を求めるならクローズドモデルが有利な場面もあります。

Llamaのライセンスと利用条件

Llamaのライセンスは「オープンソース」と称されることが多いですが、OSI（Open Source Initiative）定義の厳密なオープンソースとは異なる独自の「コミュニティライセンス」です。各バージョンで条件が異なるため注意が必要です。

バージョン	ライセンス名	商用利用	主な制限事項
Llama 1	独自（研究専用）	×	学術・非商用研究のみ
Llama 2	Llama 2 Community License	○（条件付き）	月間アクティブユーザー7億人超の企業は別途Meta許諾が必要。派生物にはLlama 2ライセンス継承
Llama 3〜3.3	Llama 3 Community License	○（条件付き）	月間アクティブユーザー7億人超の企業は別途Meta許諾が必要。禁止用途あり（兵器・不正利用等）
Llama 4（Scout / Maverick）	Llama 4 Community License	○（条件付き）	同上。MITや完全自由ライセンスではなく制限条項付きオープンライセンス。最新禁止用途・利用規定を必ず原文確認のこと

実際に商用利用する際は、Metaの公式Llamaライセンス（llama.com）で最新のライセンス原文を必ず確認してください。月間7億MAU以下の企業・サービスであれば、禁止用途に該当しない限りは商用利用可能です。ただし「Llamaを使っている」旨を宣伝材料に使う場合にはMetaへの事前通知義務があるなど、細かい条件が存在します。

Llamaの主な活用方法・ユースケース

Llamaが実際にどのような場面で使われているかを、代表的なユースケースとともに解説します。

1. ファインチューニングによるドメイン特化モデルの構築

Llamaのモデルウェイトを出発点に、特定業種のデータで追加学習（ファインチューニング）を行うことで、汎用モデルよりも精度の高いドメイン特化モデルを比較的少ないコストで作成できます。医療文書の要約特化モデル、社内規定に基づいたQAシステム、特定プログラミング言語に特化したコード生成モデルなどが代表例です。コーディング用途にはLlama 4 MaverickやScout、テキスト専用ではLlama 3.3系が実績のある選択肢です。

ファインチューニング手法としては、全パラメータを更新するFull Fine-tuningのほか、少数のパラメータのみ更新するLoRA（Low-Rank Adaptation）やQLoRAが広く使われています。QLoRAはモデルを4bit量子化した状態でファインチューニングを行うため、コンシューマーグレードのGPU（VRAM 24GB程度）でも大規模モデルを扱えます。

2. RAG（検索拡張生成）システムの推論エンジン

RAG（Retrieval-Augmented Generation）は、ベクトルデータベースで検索した関連文書をプロンプトに付与し、LLMに回答生成させるアーキテクチャです。LlamaはこのRAGシステムの推論エンジン（LLM部分）として自社環境に閉じた形で運用できるため、社内文書・顧客データを扱う企業でのナレッジベースQAシステムに多数採用されています。Llama 4 Scoutの最大10Mトークンという超長文脈を活かせば、大量の参照文書をそのままコンテキストに含める「Long-Context RAG」的なアプローチも現実的になっています。

3. エージェント・ツール呼び出しへの応用

Llama 3.1以降はFunction Calling（ツール呼び出し）に対応しており、Llama 4でもこの機能が引き継がれています。検索エンジン・データベース・外部APIなどのツールをLlamaが自律的に呼び出して複数ステップのタスクを実行するAIエージェントの構築に利用されています。LangChainやLlamaIndex、AutoGenなどのエージェントフレームワークとも容易に統合できます。

4. エッジデバイス・オンデバイスAI

Llama 3.2で追加された1Bおよび3Bの軽量モデルは、スマートフォンやIoTデバイスへの搭載を想定した設計になっています。Metaは独自のモバイル向け推論エンジン「ExecuTorch」も公開しており、iOSやAndroidデバイスでのオンデバイス推論が実現しています。クラウドに接続せずにプライバシーを保護したままAI機能を提供したいモバイルアプリに適しています。

5. マルチモーダルAIシステム（Llama 4）

Llama 4のScoutおよびMaverickはネイティブマルチモーダル（画像＋テキスト）に標準対応しています。画像説明・文書画像の理解・視覚的QAなど、視覚情報と言語を組み合わせたシステムの構築に活用できます。特にLlama 4 ScoutはOllamaなどのローカル実行ツールでも利用可能なため、プライバシーを保ちながらマルチモーダル処理を自社環境で完結させるシナリオが現実的な選択肢となっています。

Llamaを動かす方法：実行環境と主要ツール

Llamaを実際に動かすための主要な手段を、難易度順に紹介します。

① Hugging Face Transformersを使う（中級）

最も一般的な方法です。Hugging Face（huggingface.co）でMetaのモデルにアクセス申請を行い承認されると、Pythonのtransformersライブラリから数行のコードでモデルをロードして推論が実行できます。VRAM 16GB以上のGPUが目安ですが、量子化ライブラリ（BitsAndBytes、GGUF等）を使えばより少ないVRAMでも動作します。

② Ollama（初級〜中級）

Ollamaは、Llamaをはじめとする各種OSSモデルをDockerコンテナのような感覚で簡単に実行できるローカル実行ツールです。macOS・Linux・Windowsに対応しており、コマンド一行でモデルのダウンロードから実行までが完結します。Llama 4 ScoutやMaverickも主要モデルとして対応しており、超長文脈・マルチモーダルをローカルで試せます。OpenAI互換のAPIサーバー機能も備えており、既存のOpenAI SDK製アプリをLlamaに差し替えるのも容易です。

③ LM Studio（初級）

GUIベースのデスクトップアプリで、テクニカルな知識なしでもLlamaをローカルで試せます。モデルのダウンロード・切り替え・チャットUI・ローカルAPIサーバー機能が一体化しています。

④ クラウドAPI（Fireworks AI・Groq・Together AIなど）

Llamaをセルフホストせず、専用クラウドのAPIとして使う選択肢もあります。GroqはLPU（Language Processing Unit）という専用チップでLlamaを高速推論し、非常に低レイテンシなAPIを提供しています。Together AIやFireworks AIも複数のLlamaバリアントをAPIとして提供しており、OpenAI APIと互換性のあるエンドポイントを持つ場合が多いです。サードパーティ経由のAPI料金は、Llama 4 Scoutで入力約$0.08・出力約$0.30／百万トークン、Llama 4 Maverickで入力約$0.15・出力約$0.60／百万トークンが参考水準（プロバイダにより変動。要最新確認）です。なお、モデルの重みそのものは無料でダウンロード可能であり、これらの課金はあくまで任意のホスティング/API利用料です。

⑤ 公式Llama APIおよびMeta AIインターフェース

Metaは開発者向けに公式ホスティングAPI「Llama API」（llama.developer.meta.com）を提供しています。Llama 4 Scout・Maverick・Llama 3.3系がトークン課金で利用可能で、自前のGPUインフラを用意したくない開発者向けの選択肢です。また、Metaは自社SNS（Instagram・WhatsApp・Messenger・Facebook）にLlamaをベースとした「Meta AI」アシスタントを統合しており、meta.aiのウェブサイトからもチャット形式でLlamaを試すことができます。開発目的でなく単純に試してみたい場合の最も手軽な入り口です。

Llamaのエコシステムと派生モデル

Llamaのオープンウェイト性は、活発なコミュニティと多数の派生モデルを生み出しています。主要なものを以下に示します。

派生モデル名	ベース	特徴
Vicuna	Llama 1/2	ShareGPT会話データでファインチューニング。初期のオープンウェイトチャットモデルの代表格
Alpaca	Llama 1	Stanford発。GPT-3.5生成のinstruction dataでSFT。instruction followingの研究基盤
Code Llama	Llama 2	Meta公式のコード特化版。Python・C++・Javaなど多言語コード補完・生成に特化（Llama 2世代）
Llama Guard	Llama	Meta公式の安全性分類モデル。プロンプト・応答の有害コンテンツ検出に使用
Hermes（NousResearch）	Llama 3/4	instruction following・ツール呼び出し能力を強化したコミュニティファインチューニング版
Elyza-japanese-llama	Llama 2	日本語能力を強化したファインチューニング版（ELYZA社）

このようなエコシステムの広がりは、Llamaが単なる一つのモデルではなく「AI開発のための基盤プラットフォーム」としての地位を確立していることを示しています。

Llamaの安全性・倫理的配慮

MetaはLlamaの公開にあたり、いくつかの安全性への取り組みを実施しています。

まず、前述のLlama Guardという安全性分類モデルを開発・公開し、Llamaを使うシステム開発者が有害出力を検出・フィルタリングするための専用ツールを提供しています。また、CyberSec EvalやPurple Llamaといった評価・セキュリティフレームワークも公開し、ロールプレイによる脱獄（jailbreak）への耐性やサイバーセキュリティリスクの評価手法を業界全体で共有しようとしています。

ただし、オープンウェイトであるが故の課題もあります。モデルウェイトが公開されている以上、Metaがシステム側で設けた安全フィルタをバイパスした改変版を作ることは技術的に可能であり、悪意ある利用を完全に防ぐことはできません。この点はOpenAIやAnthropicのような中央集権的にAPIを管理するクローズドモデルとの根本的な違いであり、オープンウェイトAIの普及をめぐる議論の核心部分でもあります。

Llamaをめぐる今後の展望

2026年時点のLlamaの進化方向性として、以下のトレンドが顕著です。

MoEのさらなる深化と効率化：Llama 4で本格導入されたMoEは、今後もさらなる効率向上の主要技術となる見込みです。アクティブパラメータを抑えながら総パラメータを拡大することで、より少ない計算資源でより高い性能を実現する方向への継続的な改善が期待されます。
ネイティブマルチモーダルの拡充：Llama 4でテキスト・画像の統合処理が標準化されました。今後は音声・動画を含むより広範なマルチモーダル対応への発展が見込まれます。
超長文脈処理の実用化：Llama 4 Scoutで実現した最大10Mトークンのコンテキストウィンドウは、業界最長水準です。今後はこの超長文脈を活かしたユースケースの開拓が進むと考えられます。
エージェント・推論特化：複雑なマルチステップ推論（Reasoning）能力を強化した思考連鎖型の発展が引き続き進んでいます。
オンデバイスAIの拡充：スマートフォン・PC・車載系への軽量モデル展開はMetaにとって戦略的な重点領域であり、1B〜3Bクラスのモデルの性能向上が継続すると見られます。
日本語を含む多言語対応の強化：Llama 4では多言語対応がさらに改善されており、日本語での自然な対話・生成品質も向上しています。

まとめ

Llamaとは、MetaがオープンウェイトLLMとして

参考文献

AIの業務活用をご検討の方へ

クリスタルメソッドは、バーチャルヒューマンをはじめとするAIの開発・業務導入を支援しています。生成AI・AIエージェントの活用や、自社業務へのAI導入をご検討の際は、お気軽にご相談ください。

AI活用のご相談：お問い合わせはこちら
製品・ソリューション一覧：ソリューションを見る

Study about AI

AIについて学ぶ

AI軍事利用の規制リスクと企業戦略——Grok訴訟が示す構造変化

Grok訴訟の要点——国家安全保障がAI企業の環境法違反を覆す構図 2026年6月16日、米司法省（DOJ）はミシシッピ州北部連邦地方裁判所に係属するNAACP...
AI企業海外展開の規制リスク対策——米xAI訴訟が示す三層構造と実務フレーム

米司法省のxAI支持が示す——AI企業海外展開の規制リスクが持つ三層構造 2026年6月16日、米国司法省（DOJ）がイーロン・マスク氏のAI企業xAIを相手...
Meta AI Facebook活用方法——AI検索モード導入で企業マーケティングは何が変わるか

Meta AI Facebook新機能の要点——2026年6月15日発表の概要 2026年6月15日、MetaはFacebook向けの新AI機能群を発表・ロール...