blog

AIブログ

stable diffusion 導入｜2026年版ガイド

Stable Diffusion 導入完全ガイド｜インストールから画像生成まで丁寧に解説

Stable Diffusionは、テキストや画像から高品質な画像を生成できるオープンソースのAI画像生成モデルです。商用利用の幅が広く、自分のPCにローカル環境を構築できるため、クリエイターやエンジニアを中心に急速に普及しています。しかし「導入手順が難しそう」「どこから始めればいいかわからない」という声も多く聞かれます。本記事では、Stable Diffusionの仕組みの基礎から、Windows・Macそれぞれへのインストール手順、初回起動・画像生成の流れ、よくあるトラブルの対処法まで、ゼロから使い始められるよう網羅的に解説します。

Stable Diffusionとは｜導入前に知っておきたい基礎知識

Stable Diffusionは、Stability AIが2022年に公開した潜在拡散モデル（Latent Diffusion Model）ベースの画像生成AIです。「ノイズを徐々に除去することで画像を生成する」という拡散モデルの仕組みを、計算コストを大幅に削減した潜在空間上で動作させることが特徴です。

最大の特徴はソースコードとモデルウェイトが公開されている点です。OpenAIのDALL-EやMidjourneyといったクラウド型サービスとは異なり、手持ちのPCにインストールして完全にオフラインで動かせます。生成した画像はライセンス条件を満たせば商用利用も可能で、カスタマイズの自由度が非常に高いため、プロダクション環境への組み込みや独自モデルのファインチューニングにも対応できます。

なお、開発元のStability AIは財務難・経営変更を経た時期がありましたが、1億ドルを超える債務免除とEA・Warner Music Groupとの提携を経て2026年初に経営を立て直しており、引き続きオープンモデルの開発・公開を継続しています。

主なバージョンと特徴

バージョン	リリース時期	主な特徴	推奨VRAM
SD 1.5	2022年10月	軽量・コミュニティモデルが最も豊富。入門に最適	4GB〜
SD 2.1	2022年12月	解像度向上・NSFW除去済み。1.5系のカスタムモデルとの互換性なし	6GB〜
SDXL 1.0	2023年7月	1024×1024ネイティブ出力・高精細。現在も実用的なワークホースとして広く利用されている	8GB〜
SD 3.5 Medium	2024年10月	Transformerベースアーキテクチャ。コンシューマ向けGPUで動作。LoRA・ControlNet対応	8GB〜
SD 3.5 Large	2024年10月	テキスト描写力・構図精度が大幅向上。Stability AIの現行主力モデル	12GB〜
SD 3.5 Large Turbo	2024年10月	Large相当の品質を少ないステップで高速生成。コンシューマ向けハードでも実用的	12GB〜
FLUX.1（派生）	2024年8月	Black Forest Labs開発。高い注目を集め、ComfyUIエコシステムとの親和性が高い	12GB〜

2026年6月時点でのStability AIの主力オープンモデルはStable Diffusion 3.5シリーズ（Large / Large Turbo / Medium）です。SD 3.5はComfyUI・LoRA・ControlNetといった既存のエコシステムに対応しており、コンシューマ向けハードウェアでも動作します。一方、SDXL 1.0は依然として実績のあるワークホースとして広く使われており、カスタムモデルやLoRAの蓄積量はSD 3.5を大きく上回ります。初めて導入するなら、対応カスタムモデルが最も豊富なSD 1.5系またはSDXLベースのAUTOMATIC1111 WebUIが情報量の面では有利です。品質を優先するならSD 3.5 MediumまたはLarge Turboが現実的な選択肢となります。まずは動作環境のVRAM容量を確認してから選択しましょう。

導入前に確認すべき動作環境

Stable Diffusionのローカル動作には、GPUの性能とVRAM容量が特に重要です。CPUのみでも動作しますが、生成速度が数十倍遅くなるため、現実的な用途にはGPUが必須と考えてください。

推奨スペック一覧

項目	最低限（動作確認レベル）	推奨（実用レベル）	快適（SD 3.5 Large・高解像度）
GPU（NVIDIA）	GTX 1060 / VRAM 4GB	RTX 3060 / VRAM 12GB	RTX 4070以上 / VRAM 12GB以上
GPU（AMD）	RX 6600 / VRAM 8GB	RX 7800 XT / VRAM 16GB	RX 7900 XTX / VRAM 24GB
RAM（メインメモリ）	8GB	16GB	32GB以上
ストレージ	10GB以上の空き	SSD 30GB以上	SSD 100GB以上（モデル複数）
OS	Windows 10 / macOS 12	Windows 11 / macOS 13以上	同左

Macの場合、M1/M2/M3/M4チップのApple Silicon搭載モデルであればMPS（Metal Performance Shaders）を通じてGPU加速が使えます。Intel MacはCPU動作のみとなるため、生成に数分かかることを覚悟してください。

NVIDIAのGPUが最も対応状況がよく、CUDAによる高速化が安定しています。AMD GPUはROCm（Linux）またはDirectML（Windows）経由で動作しますが、一部の機能に制限がある場合があります。SD 3.5 Largeは12GB以上のVRAMを推奨しますが、SD 3.5 Mediumであれば8GB前後のコンシューマ向けGPUでも動作します。

WebUIの選択肢｜AUTOMATIC1111・ComfyUI・Forge

Stable Diffusion本体はPythonライブラリとして提供されており、そのままではコマンドライン操作が必要です。実際の導入では、ブラウザ上で操作できるWebUI（グラフィカルフロントエンド）を組み合わせて使うのが一般的です。主要な選択肢を整理します。

AUTOMATIC1111 WebUI

最も普及・情報量が多い
拡張機能（Extension）が豊富
初心者〜中級者に最適
動作がやや重め

ComfyUI

ノードベースのワークフロー
処理をビジュアルで組み立てられる
中級〜上級者・開発者向け
SD 3.5・FLUX対応が速く積極的

Stable Diffusion WebUI Forge

AUTOMATIC1111のフォーク
軽量化・高速化が改善済み
SDXL・SD 3.5への対応が進む
1111の操作感をそのまま継承

本記事では最も情報が多く初心者に向いているAUTOMATIC1111 WebUIを中心に手順を解説します。SD 3.5やFLUX系モデルを積極的に活用したい場合はComfyUIへの移行を検討してください。ComfyUIやForgeへの切り替えは、操作に慣れてから行うとスムーズです。

Windows環境へのインストール手順

WindowsでのAUTOMATIC1111 WebUIインストールは、いくつかの前提ソフトウェアの準備から始まります。順番を守って進めることが、つまずきを防ぐポイントです。

ステップ1：Pythonのインストール

AUTOMATIC1111はPython 3.10.x（推奨バージョン）を必要とします。公式サイト（python.org）からインストーラーをダウンロードし、インストール時に必ず「Add Python to PATH」のチェックボックスをオンにしてください。これを忘れると後の手順でエラーが出ます。

Pythonのバージョンは3.11や3.12でも動作報告がありますが、拡張機能との互換性を考慮すると3.10.xが最も安定しています。複数バージョンを管理したい場合はpyenvの利用も有効です。

ステップ2：Gitのインストール

Git（git-scm.com）をインストールします。WebUIはGitHubリポジトリからクローン（ダウンロード）する形で取得するため、Gitが必須です。インストール時の設定はデフォルトのままで問題ありません。

ステップ3：NVIDIAドライバーとCUDAの確認

NVIDIAのGPUを使用する場合、最新のグラフィックドライバーをインストールしてください。CUDA自体はWebUIの起動時に自動的に必要なバージョンが準備されるため、別途CUDAツールキットを手動インストールする必要は原則ありません。コマンドプロンプトで nvidia-smi を実行し、GPUが認識されていることを確認しましょう。

ステップ4：WebUIのクローンと起動

コマンドプロンプトを開き、インストール先に指定したいフォルダに移動してから以下のコマンドを実行します。

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
cd stable-diffusion-webui

クローンが完了したら、フォルダ内の webui-user.bat をダブルクリックします。初回起動時はPythonパッケージや依存ライブラリの自動ダウンロードが走るため、環境によっては10〜30分程度かかります。完了すると自動的にブラウザが開き、http://127.0.0.1:7860 にアクセスした状態になります。

ステップ5：モデルファイルの配置

初期状態ではモデル（チェックポイント）が入っていないため、画像生成はできません。モデルファイル（拡張子 .safetensors または .ckpt）を以下のフォルダに配置します。

stable-diffusion-webui/models/Stable-diffusion/

モデルの入手先としては、Hugging FaceやCivitaiが主要なリポジトリです。Hugging Face上のSD 3.5モデルはライセンスへの同意後にダウンロードできます（例：stabilityai/stable-diffusion-3.5-medium）。CivitaiはコミュニティのカスタムモデルやLoRAが豊富で、SDXL向けのアセットが特に充実しています。ファイルを配置後、WebUI上の「Checkpoint」ドロップダウンを更新アイコンで再読み込みすれば選択可能になります。

Mac（Apple Silicon）環境へのインストール手順

M1/M2/M3/M4搭載のMacでは、MPSバックエンドを利用したGPU加速が可能です。手順はWindowsと大きく異なりますが、ターミナルを使えば問題なく導入できます。

ステップ1：HomebrewとPythonの準備

まずmacOSのパッケージマネージャーであるHomebrewをインストールします。ターミナルを開き、公式サイト（brew.sh）に記載されているインストールコマンドを実行してください。

次にHomebrewを使ってPythonとGitをインストールします。

brew install python@3.10 git cmake protobuf

ステップ2：リポジトリのクローンと起動

Windowsと同様にリポジトリをクローンします。

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
cd stable-diffusion-webui
./webui.sh

webui.sh を初回実行すると仮想環境の作成とパッケージインストールが自動で行われます。Mac向けにはMPS対応が自動検出されますが、起動が上手くいかない場合は webui-user.sh を開き、export COMMANDLINE_ARGS の行に --skip-torch-cuda-test を追加するとエラーを回避できる場合があります。

モデルファイルの配置場所はWindowsと同じく models/Stable-diffusion/ フォルダです。

初回の画像生成手順

WebUIが起動したら、実際に画像を生成してみましょう。画面の構成を把握することが最初のステップです。

WebUI基本画面の構成（txt2img タブ）

① Prompt
生成したい内容を英語で記述

↓

② Negative Prompt
含めたくない要素を記述

↓

③ 生成パラメータ
サンプリング手法・ステップ数・CFGスケール・解像度

↓

④ Generate
ボタンをクリックして生成

基本パラメータの意味と推奨設定

パラメータ	意味	初心者向け推奨値
Sampling Method	ノイズ除去アルゴリズムの選択	DPM++ 2M Karras（速度と品質のバランスが良い）
Sampling Steps	ノイズ除去の繰り返し回数	20〜30（多いほど精緻だが時間も増加）
CFG Scale	プロンプトへの忠実度	7（高すぎると破綻しやすい）
Width / Height	出力解像度	512×512（SD1.5系）/ 1024×1024（SDXL・SD 3.5）
Batch Size	一度に生成する枚数	1〜4（VRAMに応じて調整）
Seed	ランダム生成の起点	-1（ランダム）で開始し、気に入ったら固定

プロンプトの書き方基礎

プロンプトは英語で記述し、カンマ区切りで要素を並べます。前に書いた要素ほど影響が強くなる傾向があります。

例（ポジティブプロンプト）：
masterpiece, best quality, 1girl, long black hair, forest, sunlight, detailed eyes, high resolution

例（ネガティブプロンプト）：
lowres, bad anatomy, worst quality, blurry, extra fingers, watermark

丸括弧 () で要素を囲むと重みが1.1倍に、(( )) で1.21倍になります。逆に重みを下げたい場合は [要素] と角括弧で囲みます。LoRAモデルを適用する場合は <lora:モデル名:1.0> という構文をプロンプトに追記します。

よくあるエラーと対処法

初回導入時に遭遇しやすいエラーをまとめます。エラーメッセージを確認し、該当する対処法を試してください。

「CUDA out of memory」エラー

VRAMが不足しているときに発生します。以下の対策を試してください。

解像度を下げる：512×512から384×512に落とすだけでVRAM消費が大幅に減る
Batch sizeを1にする：複数枚同時生成をやめる
起動引数に追加する：webui-user.bat（またはwebui-user.sh）のCOMMANDLINE_ARGSに --medvram または --lowvram を追加
xformersを有効にする：同じく起動引数に --xformers を追加するとVRAM効率が向上
より軽量なモデルに切り替える：SD 3.5 LargeでVRAMが不足する場合はSD 3.5 MediumやSDXLへ切り替えを検討

「Torch not compiled with CUDA」エラー

PyTorchのCPU版が誤ってインストールされている場合に発生します。仮想環境内でPyTorchをGPU版に再インストールする必要があります。venv/Scripts/activate（Windows）または source venv/bin/activate（Mac）で仮想環境を有効にしてから、PyTorch公式サイト（pytorch.org）のGet Startedページで自分の環境に合ったインストールコマンドを確認し実行してください。

起動時に「No Python」または「Python not found」と表示される

PythonがPATHに追加されていないことが原因です。Pythonのインストーラーを再実行し、「Add Python to PATH」を有効にしてインストールし直してください。または、Windowsの「システム環境変数」からPATHにPythonのインストールディレクトリを手動追加する方法もあります。

生成画像が真っ黒または真っグレーになる

主にNSFW（不適切コンテンツ）フィルターが過剰に反応している場合に起こります。起動引数に --no-half-vae を追加すると改善することがあります。また、使用しているモデルとWebUIのバージョンが合っていない場合にも発生することがあるため、WebUIを最新版にアップデートしてみてください（起動後に git pull を実行）。

拡張機能のインストール後にWebUIが起動しなくなる

特定の拡張機能がPythonパッケージと競合することがあります。extensions フォルダから最後に追加した拡張機能のフォルダを削除し、WebUIを再起動することで問題を切り分けられます。

便利な拡張機能と活用テクニック

AUTOMATIC1111 WebUIは「Extensions」タブから追加機能をインストールできます。導入初期に特に役立つ拡張機能を紹介します。

拡張機能名	主な用途	特徴
ControlNet	ポーズ・構図の制御	骨格・深度・エッジ情報を入力として構図を厳密に指定できる。SD 3.5エコシステムでも対応が進んでいる
ADetailer	顔・手の自動修正	崩れやすい顔や手を自動検出して再描画・品質向上
Ultimate SD Upscale	高解像度化	タイル処理で大きな画像も破綻なくアップスケール
Aspect Ratio Selector	解像度選択UI改善	アスペクト比ボタンを追加し解像度設定を簡易化
Civitai Helper	モデル管理	CivitaiからのモデルダウンロードやプレビューをWebUI内で完結

img2img（画像to画像）の活用

WebUIにはテキストから画像を生成する「txt2img」に加え、既存の画像を入力として変換・加筆する「img2img」機能があります。「Denoising Strength」パラメータで元画像をどの程度変化させるかを0〜1の範囲で調整できます。0.3〜0.5程度であれば元画像の構図を保ちながらスタイルを変えることができ、0.7以上では大胆に変換されます。スケッチをリアルなイラストに変換したり、ラフ画を完成画に近づけたりといった用途に活用できます。

LoRAモデルの活用

LoRA（Low-Rank Adaptation）は特定のスタイルやキャラクターを少ないファイルサイズ（数十MB程度）で再現できる追加学習モデルです。SD 3.5シリーズはLoRAに対応しており、Hugging Face上でも対応LoRAの公開が進んでいます。CivitaiなどからダウンロードしたLoRAファイルを models/Lora/ フォルダに配置し、プロンプト内に <lora:ファイル名:0.8> と記述するだけで適用できます。ベースモデルとLoRAの組み合わせにより、特定の画風やスタイルを一貫して出力することが可能になります。

クラウド環境での利用（GPUが不足している場合）

手元のPCのスペックが不足している場合、クラウドGPUサービスを使う方法があります。代表的な選択肢として、RunPodやVast.aiなどのGPUレンタルサービスが利用されています。時間課金でH100やA100を借りられるため、SD 3.5 Largeのような高VRAM要求モデルの生成やファインチューニングを試したい場合に有効です。

なお、Google ColabはStable Diffusionのような継続的なGPU利用に対してポリシー上の制限が設けられており、無料プランでの安定した運用は難しい状況です。有料プランを検討するか、RunPod等の専用サービスを利用することを推奨します。

クラウド環境の場合も基本的なWebUIの操作方法はローカルと変わりません。モデルファイルのアップロードや永続化ストレージの設定が必要になる点のみ、各サービスの手順を参照してください。

まとめ

Stable Diffusionのローカル導入は、事前準備を正しく行えば多くのユーザーが問題なく完了できる作業です。要点を振り返ります。

バージョン選択：2026年6月時点でのStability AIの主力モデルはSD 3.5シリーズ（Large / Large Turbo / Medium）。コンシューマ向けGPUで動作し、LoRA・ControlNetにも対応。初めてならカスタムモデルが豊富なSD 1.5系やSDXLから入るのも有効
動作環境確認：VRAM 8GB以上のNVIDIA GPUが推奨。SD 3.5 Largeには12GB以上が望ましい。Mac Apple SiliconはMPS対応で実用的に動作する
インストール順序：Python → Git → リポジトリのクローン → モデル配置の順で進める
エラー対処：VRAMエラーには --medvram オプション、CUDAエラーにはPyTorchの再インストールが有効
活用範囲の拡張：ControlNet・LoRA・img2imgを組み合わせることで表現の幅が大きく広がる

Stable Diffusionは導入後もモデルの更新や新しい拡張機能の登場が続いており、常に進化しています。まずは基本的な環境を整えて画像生成を試し、慣れてきたらComfyUI上でのSD 3.5やFLUX系モデルの活用も視野に入れてみてください。クリスタルメソッドでは、生成AIを活用したバーチャルヒューマンやDeepAIソリューションの実装支援も行っています。業務への本格導入を検討している方はお気軽にご相談ください。

監修

河合継（クリスタルメソッド株式会社代表取締役）

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について｜編集方針

動画・画像生成AIの業務活用をご検討の方へ

クリスタルメソッドは、動画・画像を生成するAIやAIアバターの開発と業務導入を支援しています。「広告・研修動画の制作を効率化したい」「自社サービスに画像・動画生成を組み込みたい」といったご相談を承っています。

無料相談・お問い合わせ：ご相談はこちら

Study about AI

AIについて学ぶ

オンボーディングの設計と実践｜定着しない根本原因と「練習ループ」の組み込み方

「オンボーディングが大事なのはわかっている。でも、実際に何をすれば定着するのかがわからない」——そんな声を、人事担当者や現場マネージャーから繰り返し聞いてきまし...
AI学習データ・公開情報の著作権リスク——Appleの訴訟が示す日本企業の法的盲点

Appleが直面した訴訟——「公開動画」をAI学習に使えば問題ないのか 2026年4月、YouTubeチャンネルh3h3ProductionsのEthan Kl...
ChatGPT翻訳の使い方：精度を引き出すプロンプトと注意点【2026年版】

ChatGPT翻訳が従来ツールと根本的に異なる理由 Google翻訳やDeepLが「文字列を別言語に置き換える」ことに特化しているのに対し、ChatGPTによる...