blog

AIブログ

ローカルで動くマルチモーダルLLM｜OSSモデルと始め方【2026年版】

マルチモーダルLLMをローカルで動かす完全ガイド――セットアップから実務活用まで

「画像も音声も扱えるマルチモーダルLLMを、クラウドに頼らず自社サーバーやPCで動かしたい」――そう考えるエンジニアや企業が急増しています。データプライバシーの確保、API費用の削減、オフライン環境での推論、そして社内RAGとの深い統合。こうした要求に応えるのが、マルチモーダルLLMのローカル実行です。本記事では、ローカル実行の意義から代表モデルの選び方・セットアップ・実務への組み込みまでを、実際にマルチモーダルAIとRAG・ベクトルDBを業務で扱う立場から詳しく解説します。

マルチモーダルの基本概念についてはマルチモーダルとは何かを、実際のビジネス活用事例はマルチモーダルAI活用事例を併せてご参照ください。

なぜ「ローカル実行」が選ばれるのか

マルチモーダルLLMをローカルで動かす最大の理由はデータ主権の確保です。医療・法務・製造など機密画像や音声を扱う領域では、外部APIへのデータ送信がそもそも許可されないケースがあります。加えて、クラウドAPIはトークン課金に加えて画像1枚あたりの付加料金が発生するため、高頻度・大量バッチ処理ではコストが膨らみます。

実務での経験から言うと、もう一つ見落とされがちなメリットがレイテンシの安定性です。クラウドAPIはネットワーク輻輳や事業者側の負荷によって応答時間が変動しますが、ローカル推論はハードウェアが固定されている分、レイテンシの予測が立てやすくなります。リアルタイム処理パイプラインを組む際に、この安定性は設計の前提として大きく効いてきます。

プライバシー・コンプライアンス：画像・音声データが外部に出ない
コスト最適化：大量推論ではGPUサーバー固定費のほうが安くなる損益分岐点がある
オフライン・エアギャップ環境：工場・病院・官公庁など
カスタムファインチューニング：手元でLoRAを当てて業務ドメインに特化できる
RAG・ベクトルDB統合：ローカルのベクトルDBと直結して低レイテンシの検索拡張推論を実現

ローカル実行に必要なハードウェア要件

マルチモーダルLLMはテキスト専用LLMよりモデルサイズが大きく、画像エンコーダ分のVRAMが追加で必要になります。以下は2025〜2026年時点での目安です。

モデル規模	代表モデル例	最低VRAM目安	推奨GPU	量子化(4bit)時
〜7B	LLaVA-7B, Qwen2-VL-7B, InternVL2-8B	8 GB	RTX 3080/4070	6 GB前後
〜13B	LLaVA-13B, InternVL2-26B(4bit)	16 GB	RTX 3090/4090	10〜12 GB
〜34B	Qwen2-VL-72B(4bit), InternVL2-40B	40 GB	A100 40GB / 2×4090	20〜24 GB
70B以上	Qwen2-VL-72B(full), LLaMA-3.2-Vision-90B	80 GB+	A100 80GB / H100	40〜48 GB

CPUオフロード（llama.cppのGPU/CPU分割推論）を使えばVRAM不足をRAMで補えますが、速度は大幅に低下します。開発・検証用途なら許容範囲ですが、本番バッチ処理には向きません。Apple Silicon（M2 Pro以降）はユニファイドメモリのためVRAM/RAM区別がなく、M3 Max(128GB)なら34Bクラスの量子化モデルを実用速度で動かせます。

2025〜2026年注目のローカル対応マルチモーダルLLM

モデルの網羅的な一覧・スペック比較はマルチモーダルAI一覧およびマルチモーダルAI比較に詳しくまとめています。ここではローカル実行の観点で特に重要なポイントに絞って解説します。

Qwen2-VL（Alibaba）

7B・72Bのバリアントがあり、日本語の文字認識（OCR）精度が高いのが特徴です。文書画像やスクリーンショットを日本語で解析するユースケースで実績があります。transformersライブラリとvLLMの両方でロードできるため、既存のPythonパイプラインへの組み込みが容易です。

LLaVA / LLaVA-NeXT

マルチモーダルLLMのローカル実行における「リファレンス実装」的な存在です。ollama・LM Studio・llama.cppなど主要なローカル推論ツールほぼ全てでサポートされており、セットアップのハードルが最も低いのが強みです。精度面ではQwen2-VLやInternVLに後れを取るものの、学習コスト・コミュニティの豊富さは随一です。

InternVL2（Shanghai AI Lab）

2B〜76Bまで細かいサイズ展開があり、エッジデバイスから高性能サーバーまでスケールを選べるのが実務上の利点です。2Bモデルはラズベリーパイ相当の非GPUデバイスでも動作するため、IoTカメラとの連携など組み込み用途にも使われています。

LLaMA 3.2 Vision（Meta）

11B・90Bのビジョン対応モデル。Metaのオープンウェイトポリシーにより商用利用可能な範囲が広く、ollamaでの対応も早かったです。英語中心の設計ですが、多言語ファインチューニングのベースとして採用されています。

Phi-3.5-Vision（Microsoft）

4.2Bと小型ながら画像理解の質が高く、VRAM 6GBのコンシューマGPUで実用的に動くのがポイント。オンプレミス環境でGPUを増やせない場合の現実的な選択肢です。

主要なローカル推論フレームワークとセットアップ方法

ollama ― 最速で試すならこれ

ollama（ollama.com）はモデルのダウンロード・実行を1コマンドで完結させるツールです。LLaVA・LLaMA3.2-Visionなど主要マルチモーダルモデルに対応しています。

ollamaによるLLaVAのローカル起動手順

公式サイトからollamaをインストール（macOS/Linux/Windows対応）
ollama pull llava:13b でモデルをダウンロード
ollama run llava:13b でインタラクティブセッション開始
画像はファイルパスを指定するか、REST APIの/api/generateエンドポイントにbase64で渡す

vLLM ― 本番バッチ処理向け高スループット推論

vLLMはPagedAttentionによる効率的なKVキャッシュ管理で、同一GPUでの同時リクエスト処理スループットが大幅に向上します。vllm serve Qwen/Qwen2-VL-7B-Instruct のようなコマンドでOpenAI互換のAPIサーバーが立ち上がるため、既存のクラウドAPI向けコードをほぼそのまま流用できます。実務でのRAGパイプラインへの統合に最も使いやすいフレームワークです。

llama.cpp ― VRAM不足環境のCPUオフロード

C++実装で依存ライブラリが少なく、量子化（GGUF形式）による4bit/8bit推論が可能です。GPU/CPU間でレイヤーを分割する--n-gpu-layersオプションにより、VRAMが足りない環境でもマルチモーダルモデルをある程度動かせます。Pythonからはllamacpp-pythonバインディングを使います。

LM Studio ― GUIで手軽に試す

GUI操作でモデルのダウンロード・切り替えができる開発者向けツールです。技術検証や非エンジニアへのデモに適しています。バックエンドはllama.cppベースです。

マルチモーダルLLMのローカル推論パイプライン設計

ローカルで動かすだけでなく、実務システムに組み込む際のアーキテクチャ設計が重要です。以下は、画像＋テキストの問い合わせをRAGで拡張してローカルLLMに渡すパイプラインの概要です。

入力
画像＋テキスト

→

画像エンコーダ
CLIPなど

→

ベクトルDB検索
関連コンテキスト取得

→

プロンプト構築
画像＋コンテキスト統合

→

ローカルLLM推論
vLLM / ollama

→

応答出力

画像の前処理と解像度管理

ローカル推論でボトルネックになりやすいのが画像の前処理です。多くのマルチモーダルLLMは内部でViTベースの画像エンコーダを通しており、入力解像度を上げるほどVRAM消費と推論時間が増加します。Qwen2-VLのDynamic Resolutionのような仕組みを持つモデルは、画像内容に応じて自動でパッチ数を調整しますが、それでも高解像度の工業図面や医療画像を扱う際は事前のリサイズ戦略が必要です。

実務での推奨は「まず896×896前後にリサイズして推論し、詳細が必要な領域だけクロップして再推論する」二段階アプローチです。この方法でVRAMとレイテンシのバランスを取っています。

マルチモーダルRAGとローカルベクトルDBの統合

画像を含むドキュメントをRAGで検索可能にする際、テキストチャンクのベクトル化だけでなく画像の埋め込みベクトル化も必要です。CLIP系のローカルモデル（open_clip等）でローカルに画像を埋め込み、ChromaやQdrant、PGVector（PostgreSQL拡張）などのローカル対応ベクトルDBに格納します。

LangChain・LlamaIndexはどちらもローカルLLMとの統合をサポートしており、ollamaバックエンドやvLLMのOpenAI互換APIエンドポイントをそのまま指定できます。データが外部に一切出ないフルローカルRAGパイプラインの構築は、2024年以降かなり現実的なコストで実現可能になりました。

ローカルLLMの導入やRAG構築をご検討の方は、AI開発会社クリスタルメソッドの無料相談をご利用ください。

量子化と精度トレードオフ

ローカル実行でハードウェア制約を緩和する最も一般的な手段が量子化です。精度と速度・VRAM消費のトレードオフを以下に整理します。

量子化方式	VRAM削減率目安	精度低下	推奨用途
FP16（半精度・無量子化）	基準	なし	精度最優先・A100/H100環境
INT8（8bit）	約50%削減	極小	本番推論・コンシューマGPU
INT4（4bit / GPTQ/AWQ）	約75%削減	小〜中	VRAM制約環境・開発検証
GGUF Q4_K_M（llama.cpp）	約75%削減	小〜中	CPUオフロード・Apple Silicon
2bit（AQLM等）	約87%削減	大	実験用・超省メモリ環境

マルチモーダルモデルの場合、言語モデル部分は4bit量子化しても影響が小さい一方、画像エンコーダ（ViT部分）は量子化の影響を受けやすいという特性があります。AWQ/GPTQを使う際は、ビジョンエンコーダをFP16のまま残してLLM側だけ量子化するオプションを持つ実装（BitsAndBytesのload_in_4bit等）を選ぶと精度低下を最小限に抑えられます。

ファインチューニング（LoRA）でドメイン特化させる

ローカル実行のもう一つの強みは、手元でファインチューニングしてモデルを業務ドメインに特化できる点です。フルパラメータ更新は非現実的でも、LoRA（Low-Rank Adaptation）を使えばコンシューマGPU1枚で数時間〜1日程度のファインチューニングが可能です。

マルチモーダルLoRAの基本的な進め方

データ準備：画像＋テキストの教師データをJSON Lines形式で用意。最低でも200〜500サンプル、理想は1,000以上
ライブラリ選定：LLaMA-Factory・Axolotl・Swift（ms-swift）がマルチモーダルLoRAに対応しており、設定ファイルベースで扱いやすい
LoRAターゲット層の指定：言語モデル側のattention層（q_proj/v_proj等）をターゲットに。ビジョンエンコーダは凍結するのが一般的
学習実行：bf16混合精度・gradient checkpointingを有効化してVRAM効率を上げる
マージまたはアダプターのみ保存：本番運用ではベースモデル＋LoRAアダプターの分離保存が管理しやすい

製造業の品質検査や医療画像の所見分類など、クラウドAPIに出せない特定ドメイン画像でのLoRAファインチューニングは、ローカル実行と組み合わせることで初めて成り立つユースケースです。

セキュリティと運用管理の注意点

ローカル実行はデータが外部に出ない分、セキュリティの責任がすべて自社に移る点を忘れてはなりません。

モデルの出所確認：Hugging Faceからダウンロードする際は、公式組織アカウントからのモデルであることを確認。コミュニティ製の量子化モデルは信頼できるユーザーのものを選ぶ
推論サーバーのネットワーク分離：vLLMやollamaのAPIサーバーはデフォルトで認証なしのため、本番環境では必ずリバースプロキシ（nginx等）でアクセス制限を設ける
入力バリデーション：画像入力経由のプロンプトインジェクション攻撃（画像内に命令を埋め込む手法）への対策として、入力の前処理と出力のフィルタリングを実装する
モデルバージョン管理：MLflowやDVC等でモデルのバージョン・量子化設定・LoRAアダプターを管理し、ロールバックできる体制を整える
GPU監視：nvidia-smiやPrometheus + nvidia_gpu_exporterでVRAM使用率・温度・スループットを継続監視する

実務での活用シーン別おすすめ構成

製造業の品質検査シーンでカメラが部品をスキャンしモニターに検査結果が表示されるイメージ

ユースケース	推奨モデル	推奨フレームワーク	ポイント
文書・帳票OCR＋理解	Qwen2-VL-7B（INT8）	vLLM	日本語OCR精度が高い
製造ライン画像検査	InternVL2-8B＋LoRA	vLLM / transformers	ドメインLoRAで精度向上
社内ナレッジRAG（画像含む）	LLaVA-13B or Qwen2-VL-7B	LlamaIndex＋ollama	フルローカルRAGパイプライン
エッジ・IoTデバイス	InternVL2-2B or Phi-3.5-Vision	llama.cpp	VRAM 4GB以下でも動作
開発・プロトタイピング	LLaVA-7B（4bit）	LM Studio / ollama	最短セットアップ時間

クラウドAPIとの使い分け基準

ローカル実行が万能ではないことも重要な認識です。GPT-4o・Gemini 3.1 Pro・Claude Sonnet 5などクラウドトップモデルとの性能差は、特に複雑な多段推論・長いコンテキストウィンドウ・最新情報へのアクセスで依然として存在します（2026年7月時点）。以下の基準で使い分けを判断することを推奨します。

ローカル一択：機密画像・音声を扱う／オフライン必須／大量バッチで単価を下げたい／ドメイン特化LoRAが必要
クラウドAPIが優位：最高品質の推論が必要／開発初期のプロトタイプ／GPUリソースが確保できない／マルチモーダルの種類（動画・音声合成等）が多岐にわたる
ハイブリッド：機密度の低いデータはクラウドAPI、機密データはローカルと振り分けるルーティング設計

まとめ

マルチモーダルLLMのローカル実行は、2025〜2026年時点で開発者が手の届く現実的な選択肢になっています。要点を整理します。

データプライバシー・コスト・レイテンシ安定性の観点でローカル実行の優位性がある
7Bクラスの量子化モデルならRTX 3080〜4070（VRAM 8GB）で実用推論が可能
ollamaは最速セットアップ、vLLMは本番バッチ、llama.cppはVRAM不足対策という使い分けが基本
Qwen2-VL・InternVL2・LLaMA3.2-Vision・Phi-3.5-Visionがローカル用途の主要モデル
RAG統合はvLLMのOpenAI互換APIとローカルベクトルDBの組み合わせで実現しやすい
LoRAファインチューニングにより業務ドメイン特化が可能
セキュリティ・運用管理の責任が自社に移る点を必ず設計に織り込む

マルチモーダルAIの活用事例・適用ビジネスシーンについてはマルチモーダルAI活用事例を、主要モデルの性能・機能比較の詳細はマルチモーダルAI比較をご参照ください。

監修

河合継（クリスタルメソッド株式会社代表取締役）

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について｜編集方針

Study about AI

AIについて学ぶ

生成AIの著作権と法的リスクを回避する安全対策｜米国xAI社提訴から学ぶ経営視点の実務

## 生成AIの法的リスクを浮き彫りにしたxAI社への民事訴訟 2026年7月23日、米国の法律事務所Potts Law Firmは、xAI社（Grok AIの...
AI ユーザー活用実態調査から紐解く日本企業の現在地と経営層が取るべき次の一手

対話型AIの急速な普及に伴い、世界のユーザーが実際にどのような目的でAIを使い、どのような課題に直面しているのか、その具体的なデータの蓄積が進んでいます。Goo...
AIモデル盗用セキュリティリスクとは？MoonshotのClaude 5蒸留疑惑から学ぶ企業の防衛策

AIモデル盗用セキュリティリスクとは？MoonshotのClaude 5蒸留疑惑から学ぶ企業の防衛策生成AIの急速な普及と高度化に伴い、企業の意思決定者は生産...