blog
AIブログ
LLaMA Factory 使い方を徹底解説|環境構築からファインチューニング実装まで

LLaMA Factory とは何か:設計思想と技術的位置づけ
LLaMA Factory は、大規模言語モデル(LLM)のファインチューニングを統合的に扱うオープンソースのトレーニングフレームワークである。GitHub リポジトリ(hiyouga/LLaMA-Factory)で公開されており、LoRA・QLoRA・フルファインチューニング・事前学習継続(PT)・SFT(Supervised Fine-Tuning)・DPO(Direct Preference Optimization)など多様な学習手法を、単一のコードベースで扱える点が最大の特長だ。
従来、LoRA 実装には PEFT ライブラリを直接操作し、量子化には bitsandbytes を個別に組み込み、データセット整形は独自スクリプトで行うという断片的な作業が必要だった。LLaMA Factory はこれらを抽象化し、WebUI(LLaMA Board)またはコマンドライン(CLI)から一元操作できる統合インタフェースを提供する。ノーコードでの操作を謳ってはいるものの、実用的な精度を出すためにはパラメータの意味を理解した上での設定が不可欠であり、本稿はその技術的判断を支援する目的で執筆している。
対応モデルは Llama 4(Scout・Maverick)、Llama 3.3(70B・8B)をはじめ、Mistral・Qwen・Gemma など多数に及ぶ。Meta が2025年4月にリリースした Llama 4 世代は MoE(Mixture-of-Experts)アーキテクチャとネイティブマルチモーダル(画像+テキスト)を採用した最初の世代であり(出典:Meta AI Blog – Llama 4 herd 公式発表)、LLaMA Factory での対応状況は公式リポジトリのリリースノートを随時確認することを推奨する。Llama の基本概念については Llama の概要解説記事を参照されたい。
LLaMA Factory 使い方(1):環境構築と依存パッケージのインストール
動作要件として、NVIDIA GPU と CUDA 環境が前提となる。CPU 推論は可能だが、実用的なファインチューニングは GPU なしでは非現実的であるため、まず利用可能な GPU のスペック(VRAM 容量)を確認してから手法を選定する。
ステップ1:リポジトリのクローンと依存パッケージのインストール
git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"
オプション指定によって異なる依存パッケージが導入される。bitsandbytes(量子化)、deepspeed(マルチGPU分散学習)、vllm(高速推論)などが代表的であり、用途に応じて追加する。インストール時のオプション名は公式リポジトリの README.md および pyproject.toml を参照すること。存在しないオプション名を推測で指定しないよう注意が必要だ。
ステップ2:Hugging Face からのモデルダウンロード
Llama 4 Scout・Maverick、Llama 3.3 等のモデル重みは llama.com または Hugging Face から無償取得できる。Llama はオープンウェイトモデルであり、月額サブスクリプションは存在しない。ただしライセンスは Llama Community License(制限条項付き)であり、月間アクティブユーザー数が極めて大きい事業者(公表基準:月7億 MAU 超)は別途 Meta の許諾が必要となる(出典:llama.com – Llama 4 モデルページ)。詳細は Llama の料金・ライセンス解説を参照されたい。
huggingface-cli download meta-llama/Llama-3.3-8B-Instruct \
--local-dir ./models/llama3.3-8b
ダウンロードには Hugging Face アカウントとライセンス同意が必要である。Llama 4 Maverick の FP8 版は数十 GB 規模のストレージを要する。Llama 4 Scout は単一の NVIDIA H100 GPU で動作するよう設計されているが(出典:Meta AI Blog – Llama 4 herd 公式発表)、手元の環境によっては Llama 3.3 8B からファインチューニングを試みる方が現実的である。
ステップ3:Google Colab での簡易検証
手元の GPU が不足する場合、Google Colab の A100 インスタンスで LLaMA Factory を試す方法がある。Colab のメニューから「編集 → ノートブックの設定」で「GPU」に「A100」を選択し、パッケージをインストールすることで動作確認が可能だ。Seeed Studio Wiki の Jetson 向けファインチューニング手順(Seeed Studio Wiki – Llama-Factoryでファインチューニング)も環境構築の参考になる。セルフホスト環境のセットアップ詳細については Llama のセットアップガイドも参照されたい。
LLaMA Factory 使い方(2):WebUI(LLaMA Board)による基本操作とパラメータ設定
WebUI は以下のコマンドで起動する。
llamafactory-cli webui
ブラウザで http://localhost:7860 にアクセスすると LLaMA Board が表示される。GUIで操作できるため導入障壁は低いが、各パラメータの意味を理解せずに設定すると学習が収束しない・VRAM が枯渇するといった問題が頻発する。主要な設定項目の技術的意味を以下にまとめる(出典:Qiita – LLaMA Factory 入門:よく使う重要項目をやさしく解説)。
| パラメータ名 | 概要 | 実装上の勘所・トレードオフ |
|---|---|---|
| Model name / Model path | 使用するベースモデルの指定 | Hugging Face Hub ID またはローカルパスを指定。Llama 4 系は FP8/BF16 で提供されることが多く、量子化形式とフレームワークの互換性を事前確認する |
| Finetuning method | 学習方式の選択(LoRA / QLoRA / Full / Freeze) | GPU メモリが限られる場合は QLoRA(4bit 量子化)が現実的。フルファインチューニングは高性能 GPU 複数枚を要し、個人・小規模チームでの実施は容易ではない |
| Learning rate | 学習率。LoRA では 1e-4 〜 5e-4 が一般的な出発点 | 高すぎると壊滅的忘却(catastrophic forgetting)が生じる。Cosine スケジューラとの組み合わせを推奨。モデル規模が大きいほど小さな学習率から始める |
| LoRA rank (r) | LoRA の低ランク行列の次元数 | 値が大きいほど表現力が増すが VRAM も増加。8〜64 が実用域。増やすほど収束も遅くなるため、まず 16 前後から試すことを推奨する |
| Batch size / Gradient accumulation | 有効バッチサイズ = batch_size × gradient_accumulation_steps | 物理バッチサイズを下げ、gradient accumulation で有効バッチを確保することで VRAM を節約できる。過度な accumulation は学習の安定性に影響することがある |
| Max source / target length | 入力・出力のトークン長上限 | 長くするほど VRAM 消費が増大する(Attention のメモリ特性)。Flash Attention 2 を有効化すると大幅に緩和される。必要最小限に留めることが VRAM 効率化の基本 |
| Template | プロンプトフォーマット(llama3・alpaca・chatml 等) | ベースモデルの公式チャットテンプレートと一致させること。不一致はトークン境界のズレを招き、精度劣化の原因となる。Llama 3.3 系は llama3 テンプレートを使用する |
| Dataset | 使用するデータセットの選択 | data/dataset_info.json に登録したデータセットのみ選択可能。Alpaca 形式(instruction/input/output)または ShareGPT 形式に対応 |
データセットの登録方法
LLaMA Factory は data/dataset_info.json にデータセット定義を登録する方式をとる。最もシンプルな Alpaca 形式は以下のような JSON ファイルで構成される。
[
{
"instruction": "次の文章を要約してください。",
"input": "人工知能とは...",
"output": "AIは機械に人間の知的機能を模倣させる技術。"
}
]
その後 dataset_info.json に以下を追記することで WebUI から選択できるようになる。
{
"my_custom_dataset": {
"file_name": "my_data.json"
}
}
データ品質はファインチューニングの結果に直結する。ノイズの多いデータや instruction と output の一貫性が低いデータは、モデルの応答品質を著しく低下させる。データクリーニングに十分な工数を割り当てることを強く推奨する。
LLaMA Factory 使い方(3):LoRA・QLoRA によるファインチューニングの実装詳細
LoRA(Low-Rank Adaptation)はトランスフォーマーの重み行列を直接更新せず、小さな低ランク行列を追加することでパラメータ効率的な学習を実現する。Llama 3.3 8B を LoRA でファインチューニングする場合、RTX 3090(24GB VRAM)程度の環境でも動作が可能とされている。QLoRA は 4bit 量子化(bitsandbytes の NF4 形式)と LoRA を組み合わせることでさらにメモリ効率を高めた手法だ(出典:rabiloo – LoRA/QLoRAでLLaMA 3をファインチューニングする方法)。
CLI によるファインチューニング実行
llamafactory-cli train \
--model_name_or_path ./models/llama3.3-8b \
--stage sft \
--do_train \
--finetuning_type lora \
--dataset my_custom_dataset \
--template llama3 \
--lora_rank 16 \
--lora_alpha 32 \
--lora_dropout 0.05 \
--output_dir ./output/lora_llama3.3 \
--per_device_train_batch_size 2 \
--gradient_accumulation_steps 8 \
--learning_rate 2e-4 \
--num_train_epochs 3 \
--lr_scheduler_type cosine \
--fp16
上記では有効バッチサイズを 2×8=16 に設定している。lora_alpha はスケーリング係数であり、lora_alpha / lora_rank が実効スケールとなる。慣例として alpha = 2 × rank を起点に調整するケースが多い。引数名や利用可能なオプションは LLaMA Factory のバージョンによって変化することがあるため、必ず実行時のバージョンの公式ドキュメントを参照すること。
学習手法の選択と技術的トレードオフ
LLaMA Factory が対応する学習段階(--stage)の主要なものを以下に整理する(出典:モデルトレーニングガイド拡張:LLaMA-Factoryの紹介)。
- PT(Pretraining 継続):生のコーパスで事前学習を継続する。ドメイン知識の注入に適するが計算コストが最大であり、データ量と GPU 時間の見積もりを慎重に行う必要がある。
- SFT(Supervised Fine-Tuning):instruction/output ペアで指示追従を学習する。最も一般的な用途であり、まず SFT から始めることを推奨する。
- DPO(Direct Preference Optimization):選好データ(chosen/rejected ペア)でアライメントを調整する。RLHF の簡易代替として注目されている。
- KTO / ORPO:バイナリ選好やオフポリシー比率最適化など、より新しいアライメント手法。実験的な性格が強いため、まず DPO で検証してから検討する。
マルチ GPU 分散学習(DeepSpeed 連携)
複数 GPU を活用する場合は DeepSpeed ZeRO-2/3 を組み合わせることで大型モデルのフルファインチューニングが現実的になる。--deepspeed ds_config.json を引数に追加し、ZeRO ステージや offload の有無を JSON で指定する。ZeRO-3 は CPU オフロードと組み合わせると VRAM 使用量を大幅削減できるが、ホスト-デバイス間のデータ転送がボトルネックになりやすいため、学習スループットと VRAM 削減効果のトレードオフを実測した上で判断する。Ollama など軽量ローカル実行環境との役割分担については Ollama 解説記事および Llama 比較記事が参考になる。
LLaMA Factory 使い方(4):推論・評価・デプロイの実装手順
LoRA アダプタのマージと推論
LoRA 学習後、アダプタをベースモデルに統合(マージ)してからデプロイするか、分離したまま PEFT でロードするかを選択できる。マージすると推論時の追加オーバーヘッドがなくなる一方、元の重みは上書きされるため、必ず元の checkpoint を別途保存した上で実施する。
llamafactory-cli export \
--model_name_or_path ./models/llama3.3-8b \
--adapter_name_or_path ./output/lora_llama3.3 \
--template llama3 \
--finetuning_type lora \
--export_dir ./merged_model \
--export_size 4 \
--export_device cpu
WebUI チャットでの動作確認
LLaMA Board の「Chat」タブからアダプタをロードした状態でインタラクティブに動作確認できる。ベースモデルと比較した応答の変化を定性的に確認する際に有効だが、本番適用の判断には定量評価が必要であり、その手順を次項で示す。
評価パイプラインの設定
llamafactory-cli eval \
--model_name_or_path ./merged_model \
--template llama3 \
--task mmlu \
--split test \
--lang ja \
--n_shot 5
評価タスクは MMLU・C-Eval などに対応している。ファインチューニング後に元のベースモデルと比較してタスク精度がどの程度変化したかを定量的に確認することが、実運用判断において不可欠なステップだ。特定ドメインへの過度な適応は汎用能力を損なう壊滅的忘却のリスクを伴うため、ドメインスコアと汎用スコアの両方を評価する体制を整えることを推奨する。
vLLM を使った高速推論 API の構築
マージ済みモデルを vLLM でサーブすることで、OpenAI 互換の REST API エンドポイントを構築できる。LLaMA Factory は vLLM との統合オプション(--infer_backend vllm)を備えており、llamafactory-cli api コマンドからサービスを起動できる。本番環境への適用を検討する場合、llama.cpp との比較や Ollama セットアップ手順と組み合わせてアーキテクチャを選定することを推奨する。
産業応用における実装の考え方
弊社が開発する DeepAI は、実在の人物の容姿・表情・声・振る舞いをデジタル空間で再現するバーチャルヒューマン/AIアバターソリューションであり、対話 AI と RAG を組み合わせることで接客・研修・広報といった用途に活用されている。LLM のファインチューニングとはアプローチが異なるが、「特定ドメインの知識や振る舞いをモデルに適応させる」という設計課題は共通する。製造業向けのナレッジベース構築やアラーム解析においても、LLaMA Factory によるドメイン適応は有効な選択肢となり得る。AI を活用した工場向けアラーム検知への応用事例については AI ファクトリーアラーム検知の解説記事も参照されたい。
LLaMA Factory を選択する際の限界とデメリット
LLaMA Factory の利便性は高い一方、以下の技術的制約と運用上のリスクを把握しておくことが導入判断において重要だ(出典:findy-tools – LLaMA-Factoryとは?機能や特徴・製品の概要まとめ)。
- GPU メモリの要求水準:QLoRA でも Llama 4 Maverick(総パラメータ約 400B)のファインチューニングは現実的ではない。Llama 4 Scout(17B アクティブパラメータ)が実質的な上限となる場合が多く、まず Llama 3.3 8B で手法を検証することを推奨する。
- マルチモーダル対応の成熟度:Llama 4 の画像+テキスト入力に対するファインチューニングサポートは、本稿執筆時点では開発途上の可能性がある。公式リポジトリの Issue トラッカーと CHANGELOG を随時確認すること。
- 再現性管理:乱数シードや量子化の状態によって学習結果が変動しやすい。MLflow・Weights & Biases などの実験管理ツールとの併用が望ましい。
- 壊滅的忘却のリスク:特定ドメインへの過度な適応は汎用能力を損なう。学習データのバランスと epoch 数の設定に慎重さが求められ、評価セットにドメイン外のタスクも含めることが重要だ。
- ライセンスリスク:Llama Community License の制限条項(大規模 MAU 事業者への規制)は、スタートアップがスケールした後に問題となり得る。商用展開前に法務部門での確認を行うことを推奨する(出典:llama.com – Llama 4 モデルページ)。
- バージョン追従コスト:LLaMA Factory は活発に更新されており、引数名・デフォルト値・対応モデルが頻繁に変化する。CI/CD パイプラインへの組み込みには固定バージョンの pinning が不可欠だ。
ローカル実行ではなく API 経由での利用を検討する場合は Ollama の料金比較や Ollama の比較記事も意思決定の参考になる。
弊社クリスタルメソッドが開発する DeepAI は、実在の人物の容姿・表情・声・振る舞いをデジタル空間で再現するバーチャルヒューマン/AIアバターソリューションである。リップシンク・表情生成・音声合成・対話 AIなどを組み合わせ、接客・研修・面接練習・広報等への活用を支援しており、LLM のドメイン適応と組み合わせることでさらに高度な対話体験の実現も可能だ。導入をご検討の方はお問い合わせいただきたい。
参考文献
- llama.com – Llama 4 現行モデル一覧・ダウンロード提供(2026-06-08 取得)
https://www.llama.com/ - llama.com – Llama 4 モデルページ(Scout/Maverick・ライセンス詳細、2026-06-08 取得)
https://www.llama.com/models/llama-4/ - Meta AI Blog – Llama 4 herd 公式発表(Scout/Maverick/Behemoth・パラメータ構成・オープンウェイト、2026-06-08 取得)
https://ai.meta.com/blog/llama-4-multimodal-intelligence/ - Llama Developer Docs – 公式 Llama API モデル ID 一覧(2026-06-08 取得)
https://llama.developer.meta.com/docs/models/ - rabiloo – LoRA / QLoRA で LLaMA 3 をファインチューニングする方法
https://rabiloo.co.jp/blog/llama3-lora-qlora-finetune-guide - Seeed Studio Wiki – Llama-Factory でファインチューニング(Jetson 向け手順)
https://wiki.seeedstudio.com/ja/Finetune_LLM_on_Jetson/ - Qiita (softbase) – LLaMA Factory 入門:よく使う重要項目をやさしく解説
https://qiita.com/softbase/items/b6227587a072ae577d5f - lodenhu.com – モデルトレーニングガイド拡張:LLaMA-Factory の紹介
https://www.lodenhu.com/ja/post/extended-model-training-guide-introduction-to-llama-factory - findy-tools – LLaMA-Factory とは?機能や特徴・製品の概要まとめ
https://findy-tools.io/products/llama-factory/1140 - JST – アジア・太平洋主要国における人工知能(AI)の政策と研究開発動向(spap.jst.go.jp)
https://spap.jst.go.jp/investigation/downloads/2024_rr_06.pdf
関連記事
監修
河合 継(クリスタルメソッド株式会社 代表取締役)
AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について | 編集方針
Study about AI
AIについて学ぶ
-
感情認識API ビジネス活用の判断軸——KLIPYのGoogle AI支援参加が示す転換点
KLIPYのGoogle AI Futures Fund参加が示す「感情認識API ビジネス活用」の転換点 2026年6月17日、GIF・ミーム・短尺クリップ向...
-
社員向けAI研修 効果的な進め方——「小分け×積み上げ式」が定着を変える理由
なぜ「一度きりの長時間研修」はAIスキルを定着させないのか 2026年6月、EdTech Magazineが報じたところによれば、GoogleはISTEおよびA...
-
生成AI 政府導入 セキュリティ——米国防総省事例から読む日本企業の実務対応
米国防総省が生成AI 政府導入を本格化——「GenAI.mil」展開の要点 2026年6月16日、バージニア州アーリントン開催のDefense One Tech...