blog
AIブログ
オープンソースllm 使い方|2026年版ガイド
オープンソースLLMとは何か:基礎から使い方まで徹底解説
オープンソースLLM(Large Language Model)は、モデルの重みやアーキテクチャ、場合によってはトレーニングコードまでが公開されており、誰でも自由にダウンロード・実行・改変できる大規模言語モデルです。ChatGPTのようなクラウドAPIに依存せず、自社サーバーやローカルPC上で動かせるため、データプライバシーの確保、コスト削減、カスタマイズの自由度という三つの軸で注目が急速に高まっています。本記事では「オープンソースLLMをどう使うか」という実践的な問いに正面から答えます。環境構築から推論実行、ファインチューニング、プロダクション活用まで、初心者から上級者まで必要な知識をステップごとに解説します。
代表的なオープンソースLLMの種類と特徴
使い方を学ぶ前に、どのモデルを選ぶかが重要です。2025〜2026年時点で実運用に耐えうる主要モデルを以下に整理します。
| モデル名 | 開発元 | 代表的なサイズ | ライセンス | 主な用途・特徴 |
|---|---|---|---|---|
| Llama 3.1 / 3.2 / 3.3 | Meta | 8B・70B・405B | Llama 3 Community License | 汎用・英語強。70Bは商用でも高品質 |
| Mistral / Mixtral | Mistral AI | 7B・8x7B・8x22B | Apache 2.0 | 軽量高速・商用可。MoE構造で効率的 |
| Qwen2.5 | Alibaba | 0.5B〜72B | Qwen License / Apache 2.0 | 日本語・中国語・コード生成に強い |
| Gemma 2 | Google DeepMind | 2B・9B・27B | Gemma Terms of Use | 小型でも高精度。エッジ向け |
| Phi-3 / Phi-4 | Microsoft | 3.8B・14B | MIT | 小型モデルの中で最高水準の推論力 |
| DeepSeek-R1 | DeepSeek | 7B〜671B | MIT | 推論特化・数学・コードに強い |
| Command R+ | Cohere | 104B | CC-BY-NC / Commercial | RAG・多言語対話向け |
日本語を扱う場合の選択指針:Qwen2.5-72BまたはLlama 3.3-70Bが2026年時点で日本語品質の実績が高く、ビジネス用途の入口として推奨されます。小型デバイスやローカルPC(16GB VRAM以下)ではQwen2.5-7BやPhi-4が現実的な選択肢です。
環境構築:ローカルで動かすための準備
オープンソースLLMは「クラウドに送らずローカルで推論する」ことに最大の意義があります。ハードウェア要件を正しく把握してから環境を整えましょう。
ハードウェア要件の目安
| モデルサイズ | 量子化なし(fp16) | 4bit量子化時 | 推奨GPU |
|---|---|---|---|
| 7B | 約14GB VRAM | 約4〜5GB VRAM | RTX 3060 12GB〜 |
| 13B | 約26GB VRAM | 約8〜9GB VRAM | RTX 3090 / 4090 |
| 70B | 約140GB VRAM | 約40〜48GB VRAM | A100×2 / H100 |
| GPUなし(CPU推論) | 7B程度まで動作可。速度は数token/秒と低速 | ||
最速で試す方法:Ollamaを使ったワンコマンド起動
Ollamaは2024〜2025年にかけて最も普及したローカルLLM実行ランタイムです。Mac・Linux・Windowsに対応しており、コマンド一本でモデルのダウンロードから推論サーバーの起動まで完了します。
- Ollamaのインストール:公式サイト(ollama.com)からインストーラーを取得し実行する
- モデルのダウンロードと起動:ターミナルで以下を実行する
ollama run qwen2.5:7b - 対話開始:コマンドラインに質問を入力するとレスポンスが返ってくる
- REST APIとして利用:デフォルトで
http://localhost:11434にOpenAI互換のAPIが立ち上がる
Ollamaの強みは量子化済みモデル(GGUF形式)を自動で選択・管理する点にあります。特別なPython環境を構築しなくても、インストール後すぐに試せます。
Pythonから直接動かす方法:Transformers + Accelerate
HuggingFaceのtransformersライブラリはオープンソースLLMを扱う際の事実上の標準です。以下の手順で動作します。
- 依存パッケージのインストール
pip install transformers accelerate bitsandbytes - モデルのロードと推論(Qwen2.5-7Bの例)
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_id = "Qwen/Qwen2.5-7B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.float16,
device_map="auto"
)
messages = [{"role": "user", "content": "日本のAI活用事例を3つ教えて"}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer([text], return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
device_map="auto"を指定することで、利用可能なGPU・CPU・RAMに対してモデルが自動的に分散配置されます。VRAMが不足する場合はload_in_4bit=Trueを追加することで4bit量子化が適用されます。
推論を高速化する量子化の仕組みと使い方
量子化(Quantization)は、モデルの重みをfp32やfp16からint8・int4といった低精度フォーマットに変換することで、メモリ使用量と推論速度を大幅に改善する技術です。品質の低下は7B〜13Bモデルの4bit量子化であれば実用上ほぼ問題ないレベルに抑えられています。
品質:高
VRAM:多
速度:標準
品質:やや低下
VRAM:約50%削減
速度:向上
品質:実用水準
VRAM:約75%削減
速度:最速
主な量子化ツールと使い分け
- bitsandbytes:Transformersライブラリにネイティブ統合。
load_in_4bit=Trueで即利用可。NVIDIAのみ対応 - GGUF / llama.cpp:CPU推論や低スペックGPU向け。Ollamaが内部で使用。Mac(Apple Silicon)でも高速動作
- GPTQ / AWQ:精度重視の量子化。推論速度と品質のバランスが最も良い。vLLMと組み合わせると高スループット
- ExLlamaV2:GGUFより高速でGPTQより使いやすい。コンシューマGPU向け
プロダクション向け推論サーバーの構築
個人利用や社内ツールへの組み込みでは、OpenAI互換のAPIエンドポイントを立てるのが標準的なアプローチです。既存のOpenAI SDKやLangChainのコードをほぼそのまま流用できます。
vLLMによる高スループットサーバー
vLLMはPagedAttentionと呼ばれるメモリ管理技術により、Transformers単体と比較して数倍〜数十倍のスループットを実現します。複数ユーザーからの同時リクエストを捌くプロダクション環境に適しています。
- インストール:
pip install vllm - サーバー起動:
python -m vllm.entrypoints.openai.api_server --model Qwen/Qwen2.5-7B-Instruct --port 8000 - クライアントからの呼び出し:OpenAIクライアントの
base_urlをhttp://localhost:8000/v1に変更するだけで既存コードが動作する
DockerによるコンテナデプロイのポイントGPU設定
本番環境ではDockerを用いてサービスをコンテナ化するのが一般的です。GPU対応コンテナを動かすにはnvidia-container-toolkitのインストールと、docker run時の--gpus allフラグが必要です。Kubernetes環境ではNVIDIA GPU Operatorを利用することでスケーラブルなデプロイが可能になります。
RAG(検索拡張生成)との組み合わせ方
オープンソースLLMをビジネス活用する際に最も効果的なアーキテクチャがRAG(Retrieval-Augmented Generation)です。社内ドキュメント・製品マニュアル・FAQ等を検索して関連箇所をプロンプトに挿入し、LLMが根拠を持って回答を生成します。モデルの学習データにない最新情報や機密情報を扱えることがクラウドAPIにはない大きな優位点です。
- ユーザーが質問を入力
- 質問をEmbeddingモデルでベクトル化
- ベクトルDBから関連チャンクを検索(例:ChromaDB・Qdrant・pgvector)
- 取得チャンクと質問をプロンプトに組み込む
- ローカルLLMが回答を生成してユーザーへ返す
Embeddingモデルの選択
RAGではLLM本体とは別にEmbeddingモデルが必要です。日本語テキストを扱う場合は以下が現実的な選択肢です。
- multilingual-e5-large(Microsoft):日本語の検索精度が高く、商用利用可
- text-embedding-004(Google):APIベースだが高精度
- cl-nagoya/ruri-large:名古屋大学発の日本語特化Embeddingモデル。ローカル完結可能
LangChainとLlamaIndexを使った実装
RAGパイプラインはスクラッチで書くことも可能ですが、LangChainまたはLlamaIndexを使うと抽象化されたAPIで迅速に実装できます。どちらもOllamaやvLLMのローカルエンドポイントに対応しています。LangChainはエージェント・ツール連携まで含めた複雑なワークフロー向け、LlamaIndexはインデックス構築とRAGに特化したシンプルな実装に向いています。

ファインチューニング:自社データでモデルを育てる
既存のオープンソースLLMを自社ユースケース向けに再訓練することで、汎用モデル以上の性能を特定タスクで引き出せます。フルファインチューニングはコストが高いため、実務ではPEFT(Parameter-Efficient Fine-Tuning)手法が主流です。
LoRA / QLoRAによる効率的なファインチューニング
LoRA(Low-Rank Adaptation)は、モデル全体の重みを更新せず、少数の追加パラメータ層だけを学習させる手法です。QLoRAはLoRAと4bit量子化を組み合わせることで、コンシューマGPU(24GB VRAM)でも70Bクラスのモデルをファインチューニング可能にしました。
- 必要なライブラリのインストール:
pip install peft trl datasets - データセットの準備:instruction・input・outputの形式に整形したJSONLファイルを用意する
- TRLのSFTTrainerで学習:
SFTTrainerクラスにLoRA設定(LoraConfig)とデータセットを渡してtrainer.train()を実行する - アダプタの保存とマージ:
trainer.save_model()でLoRAアダプタを保存し、必要であればmerge_and_unload()でベースモデルにマージする
ファインチューニングに必要なデータ量の目安
| データ量 | 期待できる効果 | 注意点 |
|---|---|---|
| 100〜500件 | 出力フォーマットの統一・口調の調整 | 品質のばらつきに注意 |
| 1,000〜5,000件 | 特定ドメインへの適応(医療・法律・社内FAQなど) | データの多様性が重要 |
| 10,000件以上 | 汎化性能も維持しつつドメイン特化 | 過学習防止のための検証セット必須 |
評価とハルシネーション対策
ファインチューニング後は必ず評価フェーズを設けます。BLEUやROUGEなどの自動指標だけでなく、人手評価または強力な別のLLMを判定役にしたLLM-as-a-Judge方式が精度確認に有効です。ハルシネーション(事実と異なる回答の生成)はファインチューニングで悪化することがあるため、RAGと組み合わせて根拠のある回答を強制する設計が有効です。
エージェント・ツール呼び出しへの応用
オープンソースLLMは単なるテキスト生成にとどまらず、ツール呼び出し(Function Calling)やマルチエージェント構成に組み込むことができます。Llama 3.1以降やMistral 7B Instructはfunction calling形式をネイティブサポートしており、天気APIや社内データベース、カレンダーシステムとの連携が可能です。
エージェントフレームワークとしてはLangGraphやAutogenが実績を持ちます。複数のLLMエージェントが役割分担して複雑なタスクをこなす「マルチエージェント」構成は、バーチャルヒューマンや対話型AIシステムの構築において特に力を発揮します。クリスタルメソッドが取り組むバーチャルヒューマン事業においても、ローカルLLMをコアエンジンとして使いながらエージェント連携で対話品質を高めるアーキテクチャが現実的な選択肢になっています。
セキュリティ・ライセンス・コンプライアンスの確認ポイント
オープンソースLLMを業務利用する際に見落としがちなリスクを整理します。
ライセンスの種類と商用利用の可否
| ライセンス種別 | 商用利用 | 改変・再配布 | 主な例 |
|---|---|---|---|
| Apache 2.0 | 可 | 可(表示義務あり) | Mistral 7B |
| MIT | 可 | 可(最も自由) | Phi-4、DeepSeek-R1 |
| Llama 3 Community | 条件付き可(MAU 7億超は別途契約) | 可 | Llama 3.x系 |
| CC-BY-NC | 不可 | 非商用なら可 | 一部のCohere製品 |
| 独自ライセンス | 個別確認必須 | 個別確認必須 | Gemma等 |
セキュリティ上の注意点
- プロンプトインジェクション:悪意あるユーザー入力でシステムプロンプトを無効化されるリスク。入力のサニタイズとシステムプロンプトの堅牢化が必要
- モデルの毒化リスク:ファインチューニングに使うデータが汚染されているとモデル挙動が意図しない方向に変わる。データソースの検証が必須
- 推論サーバーの公開設定:vLLMやOllamaはデフォルトで認証なし。本番環境では認証レイヤーやVPN内限定アクセスを設定する
- ログと個人情報:入力プロンプトをログに残す設定は個人情報保護の観点から注意が必要。ローカル動作であっても内部ガイドラインとの整合性確認を行う

クラウドAPIと比較したときの使い分け判断基準
オープンソースLLMが常に最適解とは限りません。用途・規模・チームのスキルセットに応じて判断する必要があります。
- 個人情報・機密情報を含むデータを扱う
- 大量のトークンを処理しAPIコストが高騰している
- 特定ドメインへのファインチューニングが必要
- オフライン環境・エアギャップ環境での稼働
- モデルの挙動を完全にコントロールしたい
- 最高品質の汎用能力が必要(GPT-4o・Claude 3.5等)
- MLインフラを管理するリソースがない
- プロトタイプ段階で素早く検証したい
- トラフィックが不定期でスケールが読めない
- マルチモーダル(画像・音声)が主要機能
よくあるトラブルと対処法
CUDA out of memory エラー
VRAMが不足しているサインです。対処法として①4bit量子化(load_in_4bit=True)を試す、②より小さいモデルに切り替える、③max_new_tokensを減らすことで出力長を制限する、のいずれかが有効です。
日本語の出力品質が低い
日本語対応が明記されていないモデルを使っている可能性があります。Qwen2.5・Llama 3.3・DeepSeek-R1への切り替え、または日本語データでファインチューニング済みの派生モデル(HuggingFace Hub上でjp/jaタグのもの)を検討してください。
推論が遅すぎる
CPU推論の場合は速度の限界があります。GPU環境に移行するか、vLLM+FlashAttention 2の組み合わせを試してください。Ollamaを使っている場合はGPUオフロード設定が有効になっているかollama psコマンドで確認できます。
Ollamaでモデルが見つからない
ollama pullコマンドでモデルを事前にダウンロードしてからollama runを実行してください。利用可能なモデル一覧はollama listで確認できます。
まとめ
オープンソースLLMの使い方は、①適切なモデルを選ぶ、②環境(Ollama・Transformers・vLLM)を整える、③量子化でリソースを最適化する、④RAGやファインチューニングで用途に特化させる、⑤エージェント・APIとして本番利用するという段階で整理できます。
クラウドAPIへの依存から脱却し、データをオンプレミスで管理しながら高品質な言語AI機能を実現できる点が、オープンソースLLMの最大の価値です。2026年時点では7Bクラスのモデルでも実用水準の日本語能力を持つものが増え、コンシューマGPU一枚から本番運用が現実的になっています。まずはOllamaで動作確認し、ユースケースが固まったら量子化・RAG・ファインチューニングを段階的に組み合わせていくアプローチが、最も着実な道筋です。
関連記事
Study about AI
AIについて学ぶ
-
GPT-5.5 Claude エージェント ベンチマーク選定——日本企業が問い直すべき評価軸
GPT-5.5がClaude Fable 5を上回った——「Agents’ Last Exam」とは何か 2026年6月、AIエージェント評価の文脈...
-
米上院 金融AI 規制 公聴会——日本の銀行・証券への実務的示唆
上院 金融AI 規制 公聴会の要点——何が、なぜ今議題に上ったか 2026年6月11日午前10時(米東部夏時間)、米上院銀行・住宅・都市問題委員会(U.S. S...
-
Cerebras NvidiaのGPUに対抗——SuperAI Singaporeデモが日本のAIインフラ調達に示す論点
CerebrasがSuperAI SingaporeでNvidiaのGPUに対抗——デモの概要と報道の背景 2026年6月10〜11日、シンガポールのMarin...