blog

stable diffusion とは?仕組み・活用を分かりやすく解説【2026年版】

Stable Diffusionとは?仕組みから使い方・活用事例まで徹底解説

Stable Diffusion(ステーブル・ディフュージョン)は、テキストや画像を入力するだけで高品質な画像を自動生成できる、オープンソースのAI画像生成モデルです。2022年8月の公開以降、世界中のクリエイター・エンジニア・企業に急速に普及し、画像生成AIのデファクトスタンダードとして定着しています。「どんな仕組みで動いているのか」「無料で使えるのか」「商用利用はできるのか」といった疑問を持つ方に向けて、本記事では基礎知識から実践的な使い方、最新モデルの動向まで、必要な情報をすべてこの一記事で解説します。

テキストから画像が生成されるイメージ:拡散プロセスで色彩とノイズが徐々に意味ある画像へ変換される様子
テキストから画像が生成されるイメージ:拡散プロセスで色彩とノイズが徐々に意味ある画像へ変換される様子

Stable Diffusionの基本定義と開発背景

Stable Diffusionは、ドイツのミュンヘン大学(LMU)を中心とした研究グループ「Runway ML」と「CompVis」が開発した潜在拡散モデル(Latent Diffusion Model:LDM)です。資金提供と商業展開はStability AIが担い、2022年8月に一般公開されました。最大の特徴はモデルの重みデータを完全公開(オープンソース)していること。同時期に公開されたDALL·E 2やMidjourneyがAPIや専用サービスとしてクローズドに提供されたのとは対照的に、誰でも無料でダウンロードし、自分のマシンで動かせる設計になっています。

開発の出発点となった論文「High-Resolution Image Synthesis with Latent Diffusion Models」(Robin Rombach et al., 2022)は、ピクセル空間ではなく低次元の潜在空間で拡散処理を行うことで、当時の画像生成AIが抱えていた「高解像度生成に膨大なGPUメモリが必要」という課題を突破しました。この設計思想が、コンシューマーGPU(例:NVIDIA RTX 3060以上)での動作を可能にし、個人開発者・クリエイターへの普及を加速させた最大の要因です。

なお、Stability AIは財務難・経営変更という困難な時期を経ましたが、2026年初頭に1億ドル超の債務免除とEA・Warner Music Groupとの提携を経て経営を立て直しており、モデル開発・エコシステムの維持は継続しています。

Stable Diffusionの仕組み:拡散モデルとは何か

Stable Diffusionの動作原理を理解するには、まず「拡散モデル(Diffusion Model)」という概念を把握する必要があります。拡散モデルは「ノイズを段階的に取り除く逆拡散プロセス」によって画像を生成する深層学習モデルです。

拡散プロセスの2段階

① 順拡散(学習時)
きれいな画像
少しずつノイズを加える
完全なランダムノイズ
モデルが「どう壊れるか」を学習

② 逆拡散(生成時)
ランダムノイズ
テキスト条件に沿って
ノイズを段階的に除去
高品質な画像が完成
「壊し方の逆」を適用して復元

潜在空間処理の役割

通常の拡散モデルはピクセル空間(例:512×512=262,144次元)で処理を行うため計算コストが膨大です。Stable DiffusionはVAE(Variational Autoencoder)を使って画像を64×64程度の潜在空間に圧縮し、その低次元空間で拡散処理を実施します。生成後、再びVAEのデコーダーで元の解像度に復元します。これにより、処理コストを約48分の1に削減しながら高解像度出力を実現しています。

テキスト条件付けの仕組み(CLIP)

「どんな画像を生成するか」を指定するテキスト(プロンプト)の処理には、OpenAIが開発したCLIPテキストエンコーダーが使われます。テキストをベクトルに変換し、そのベクトルをU-Netと呼ばれるノイズ除去ネットワークに「クロスアテンション」機構で注入することで、テキストの意味に沿った画像が徐々に形成されます。なお、SD 3.5などの新世代モデルではU-Netに代わってDiffusion Transformer(DiT)アーキテクチャが採用されており、テキスト理解力と構図精度がさらに向上しています。

主要コンポーネント一覧

コンポーネント 役割 詳細
VAEエンコーダー 画像→潜在空間圧縮 入力画像を低次元ベクトルに変換
CLIPテキストエンコーダー テキスト→条件ベクトル変換 プロンプトの意味を数値化
U-Net/Diffusion Transformer ノイズ除去の中核処理 クロスアテンションでテキスト条件を反映。SD 3.5はDiTを採用
VAEデコーダー 潜在空間→画像復元 潜在ベクトルをピクセル画像に戻す
スケジューラー ノイズ除去ステップの管理 DDPM/DDIM/DPM++など複数方式

Stable Diffusionの主要バージョンと進化

Stable Diffusionは公開以来、複数の世代にわたって進化を続けています。バージョンによって生成品質・必要スペック・ライセンスが異なるため、目的に合ったモデル選択が重要です。

バージョン 公開時期 主な特徴 ベース解像度
SD 1.4 / 1.5 2022年8〜10月 初期版。最も多くのLoRA/ファインチューニングモデルが存在。コミュニティ資産が豊富 512×512px
SD 2.0 / 2.1 2022年11月〜 OpenCLIPに移行。768px対応。ただし既存LoRAとの互換性が低く、普及は限定的 768×768px
SDXL 1.0 2023年7月 二段階生成(Base+Refiner)で1024px対応。細部品質が大幅向上。現在も多くの現場でワークホースとして利用される 1024×1024px
SDXL Turbo 2023年11月 蒸留技術でステップ数を1〜4に削減。リアルタイムに近い生成速度を実現 512×512px
SD 3.5 Large / Large Turbo / Medium 2024年10月〜 Stability AIの現行主力オープンモデル。Diffusion Transformerアーキテクチャを採用し、テキスト理解力・構図精度・文字描画が大幅向上。コンシューマ向けハードウェアで動作し、ComfyUI・LoRA・ControlNetのエコシステムに対応。Largeは最高品質、Large Turboは高速化版、Mediumは軽量版の三系統を提供 1024px以上
Flux.1(Black Forest Labs) 2024年8月 SD開発者らが新設した会社によるモデル。Rectified Flowベースで高品質。SD系エコシステムと互換 可変

2026年時点では、Stability AIが提供するSD 3.5(Large / Large Turbo / Medium)が同社の主力オープンモデルとして位置づけられています。並行してSDXLも依然として幅広い現場で実用されており、豊富なLoRAやカスタムモデル資産を持つワークホースとして根強い支持を集めています。さらに、SD開発者らが立ち上げたBlack Forest LabsのFlux.1も多くのプラットフォームで採用が進んでいます。

Stable Diffusionの使い方:環境と主要ツール

Stable Diffusionを使うには、大きく分けて「ローカル環境に導入する方法」と「クラウド・Webサービスで使う方法」の2つがあります。それぞれ特徴が異なるため、目的とスキルレベルに応じた選択が重要です。

ローカル環境での導入

自分のPCにインストールして動かす場合、最もよく使われるのが以下のGUIツールです。

  • AUTOMATIC1111(Stable Diffusion Web UI):最も広く普及しているWebベースGUI。拡張機能(Extension)が豊富で、img2img・インペインティング・ハイレゾ化など多様な機能をブラウザから操作できる。導入にはPythonとGitの基礎知識が必要。
  • ComfyUI:ノードベースのワークフロー型GUI。処理の流れを視覚的に組み立てられ、高度なカスタマイズに適する。SD 3.5・Flux.1への対応も早く、プロユーザーに人気が高い。SD 3.5のエコシステムを支える中心的なツールの一つ。
  • Fooocus:Midjourneyライクな操作感を目指したシンプルなUI。設定項目を最小化し、プロンプトを入力するだけで高品質な画像を生成できる。初心者に適している。
  • InvokeAI:クリエイター・プロ向けに洗練されたUI。キャンバス機能・インペインティング・アウトペインティングに強み。

ローカル動作に必要な推奨スペックの目安は以下の通りです。

モデル 最低VRAM 推奨VRAM 備考
SD 1.5 4GB 6〜8GB fp16利用でさらに軽量化可
SDXL 8GB 12〜16GB Refinerモデル使用時はさらに必要
SD 3.5 Medium 8GB 10〜12GB コンシューマ向けハードウェアで動作。三系統中で最も省メモリ
SD 3.5 Large / Large Turbo 10GB 16〜24GB 量子化版で省メモリ化可。Large Turboは速度優先
Flux.1(dev/schnell) 8GB(量子化版) 16〜24GB GGUF量子化モデルで省メモリ化可

クラウド・Webサービスで使う方法

GPU非搭載のPCでも手軽に試したい場合、以下のサービスが利用できます。

  • Google Colab:無料枠のGPUでAUTOMATIC1111やComfyUIを起動できるノートブックが多数公開されている。無料版は連続利用時間に制限あり。
  • Stability AI DreamStudio:Stability AI公式のWebサービス。クレジット課金制でSD 3.5系モデルを利用可能。
  • Civitai:コミュニティ投稿モデルのダウンロードサイトとして有名だが、オンライン生成機能(Civitai Generate)も提供。多様なカスタムモデルをブラウザ上で試せる。
  • Replicate・fal.ai:APIベースのクラウドGPUサービス。開発者向けに各種SDモデルをAPIで呼び出せる。従量課金制。

プロンプトの書き方:良い画像を生成するコツ

Stable Diffusionで意図した画像を生成するためには、プロンプト(指示テキスト)の書き方が品質を大きく左右します。基本的なルールを理解するだけで、生成結果は飛躍的に向上します。

ポジティブプロンプトの構成要素

例:a serene Japanese garden in autumn, maple trees with red leaves, stone lantern, koi pond, golden hour lighting, 8K, photorealistic, sharp focus, depth of field

  1. 主題・シーン(何を描くか):例 “a serene Japanese garden in autumn”
  2. 構成要素(具体的なオブジェクト):例 “maple trees, stone lantern, koi pond”
  3. 照明・雰囲気:例 “golden hour lighting”
  4. 品質・スタイル修飾語:例 “8K, photorealistic, sharp focus, depth of field”

ネガティブプロンプトの活用

Stable Diffusionには「生成してほしくない要素」を指定するネガティブプロンプトがあります。SD 1.5系では特に効果的で、以下のような定番ネガティブプロンプトを使うことで品質が上がります。

ugly, blurry, low quality, deformed, extra limbs, bad anatomy, watermark, text, signature, cropped

SDXLやSD 3.5、Flux.1ではネガティブプロンプトの効果が薄れる場合がありますが、依然として破綻防止に有効です。特にSD 3.5はテキスト理解力が高いため、ポジティブプロンプトの記述精度を高める方向で調整するのが効果的です。

CFGスケールとステップ数の目安

  • CFGスケール(Guidance Scale):プロンプトへの追従度。SD 1.5では7〜9が標準。高すぎると過彩色・不自然な画像になりやすい。SDXL・SD 3.5以降では5〜7が推奨されることが多い。
  • サンプリングステップ数:20〜30ステップで品質と速度のバランスが取れる。DPM++ 2M Karrasなどの高効率スケジューラーでは20ステップでも十分な品質が得られる。SD 3.5 Large Turboはより少ないステップ数での高品質生成を実現している。

主要な応用技術:img2img・LoRA・ControlNetなど

Stable Diffusionの真価は、テキストから画像を生成する「txt2img」にとどまりません。多彩な拡張技術との組み合わせにより、プロフェッショナルなワークフローに対応できます。SD 3.5はComfyUI・LoRA・ControlNetのエコシステムに対応しており、以下の応用技術を継続して活用できます。

img2img(画像to画像)

既存の画像とプロンプトを入力として、元画像の構図・色調を活かしつつ新しい画像を生成する手法です。ラフスケッチをリアルなイラストに変換したり、写真のスタイルを変えたりする用途で広く使われます。「デノイズ強度(Denoising Strength)」パラメータで元画像への追従度を調整します。

インペインティング・アウトペインティング

インペインティングは画像の一部をマスクして、その部分だけを再生成する機能です。人物の顔を修正したり、背景の不要な物体を消したりする用途に有効です。アウトペインティングは逆に画像の外側を延伸・拡張する技術で、構図を後から広げるときに使われます。

LoRA(Low-Rank Adaptation)

ベースモデルに対して少ないパラメータで特定のスタイル・キャラクター・被写体を追加学習させる軽量ファインチューニング手法です。数十〜数百枚の学習画像とGPUがあれば個人でも作成可能で、CivitaiなどにはコミュニティによるLoRAが大量に公開されています。SD 3.5もLoRAによるファインチューニングに対応しており、エコシステムの拡充が進んでいます。

ControlNet

ポーズ・エッジ・深度マップ・法線マップなど、さまざまな「構造情報」を条件として画像生成を制御する拡張機能です。例えば、人物のポーズ情報(OpenPose)を入力すれば、そのポーズを忠実に再現したキャラクターを生成できます。コンセプトアートや商業デザインの現場で特に重宝されます。SD 3.5向けのControlNet対応も進んでいます。

Textual Inversion(Embedding)

特定のコンセプト・スタイル・人物などをテキストトークンとして学習させ、プロンプトに組み込んで使う手法です。LoRAより軽量ですが表現の自由度はやや低めです。

ハイレゾ化(Upscale)

生成した画像を、Real-ESRGAN・ESRGAN・Tile Upscaleなどのアルゴリズムで2〜4倍に高解像度化する処理です。SD 3.5はもともと高解像度出力に対応していますが、印刷や大型ディスプレイ向けにさらなる拡大が必要な場合にも有効です。

Stable Diffusionの活用事例

Stable Diffusionは、個人の趣味的な利用から企業の業務プロセスへの組み込みまで、幅広いシーンで活用されています。

クリエイターがAI生成画像をベースにデジタルイラストを仕上げている作業イメージ
クリエイターがAI生成画像をベースにデジタルイラストを仕上げている作業イメージ

クリエイティブ・コンテンツ制作

  • ゲーム・アニメのコンセプトアート:世界観・キャラクターデザインのアイデア出しを数分単位に短縮。最終的な仕上げは人手で行いながらも、初期ラフの大量生成をAIが担う。
  • マンガ・イラスト背景の補助生成:人物は手描きで、背景やオブジェクトをAIで生成して組み合わせるハイブリッドワークフロー。
  • 映像制作のプリビズ・ストーリーボード:撮影前の映像イメージをプロンプトで素早くビジュアル化し、監督・クライアントとの合意形成に活用。

マーケティング・広告

  • 商品のバリエーション別バナー画像を自動生成し、A/Bテストの素材コストを削減。
  • SNS向けビジュアルコンテンツの量産。テキストだけでトンマナを統一した複数パターンを一括生成。
  • ECサイトの商品背景差し替え(img2img+インペインティング活用)。

プロダクト・UI設計

  • アプリのUIワイヤーフレームをControlNetでビジュアルに変換し、デザインプロトタイプを素早く作成。
  • 建築・インテリアの内装イメージを複数スタイルで生成し、クライアント提案資料に活用。

企業・開発者向けAPI統合

  • SaaS製品のAI画像生成機能としてReplicate・fal.ai経由でAPIに組み込み、エンドユーザー向けのパーソナライズ画像生成を提供。
  • バーチャルヒューマンやアバターの外観生成・衣装変更への応用。

ライセンスと商用利用のルール

Stable Diffusionのライセンスはバージョンによって異なるため、商用利用の前に必ず確認が必要です。

モデル ライセンス 商用利用 主な制限
SD 1.4 / 1.5 CreativeML Open RAIL-M 条件付き可 違法コンテンツ・誤情報の生成禁止など使用制限条項あり
SD 2.x CreativeML Open RAIL++-M 条件付き可 ほぼ同上
SDXL 1.0 Open RAIL++-M 条件付き可 同上
SD 3.5 Large / Large Turbo / Medium Stability AI Community License 年間収益100万ドル未満なら無料で商用可 大企業はエンタープライズ契約が必要
Flux.1 [dev] FLUX.1 [dev] Non-Commercial License 非商用のみ 商用利用は別途ライセンス契約が必要
Flux.1 [schnell] Apache 2.0 商用利用可 品質はdevより若干劣る

生成した画像の著作権については、日本では「AIを道具として使った創作物は人間の創作的寄与があれば著作権が認められる可能性がある」との見解が示されています(文化庁、2024年)。ただし法解釈は現在も議論中であり、最新の法的動向を継続的に確認することを推奨します。また、学習データに含まれる可能性がある既存作品との類似問題については、特定スタイルの再現を意図的に求めるプロンプト使用時に注意が必要です。

Stable DiffusionとMidjourney・DALL·E 3の比較

項目 Stable Diffusion Midjourney DALL·E 3(ChatGPT)
オープンソース ✅ はい ❌ クローズド ❌ クローズド
ローカル動作 ✅ 可能 ❌ 不可 ❌ 不可
無料利用 ✅ 基本無料(ハード費用のみ) △ 限定的(有料プランが基本) △ ChatGPT無料枠内で一部可
カスタマイズ性 ✅ 非常に高い(LoRA・ControlNetなど) △ 限定的 △ 限定的
操作の容易さ △ 導入に学習コストあり ✅ Discordから直感的に使える ✅ チャットから自然言語で使える
プロンプト精度 ✅ 細かい制御が可能(SD 3.5でテキスト理解力が大幅向上) △ 独自解釈が入りやすい ✅ 自然言語理解が優秀
商用利用 ✅ ライセンス条件内で可 ✅ 有料プランで可 ✅ 利用規約内で可

Stable Diffusionはカスタマイズ性・コスト・プライバシー(ローカル処理)の面で他ツールを大きく上回る一方、初期セットアップの敷居が高い点が課題です。MidjourneyやDALL·E 3は手軽さを重視するユーザー向けです。業務への本格統合や特定スタイルへの特化を求めるならStable Diffusionが有力な選択肢となります。

よくある質問

Stable Diffusionは完全無料で使えますか?

モデルのダウンロード・ローカル実行は基本的に無料です。ただし、動作に必要なGPU(VRAM 6GB以上推奨、SD 3.5 Largeは10GB以上推奨)のハードウェアコストは自己負担となります。Google ColabなどのクラウドGPUを使う場合も、無料枠内で動作しますが利用制限があります。

Mac(Apple Silicon)でも動きますか?

はい、AUTOMATIC1111やComfyUIはApple SiliconのMetalバックエンドに対応しており、M1以降のMacで動作します。パフォーマンスはNVIDIA GPU比で劣りますが、実用的な速度で使えます。

生成した画像は著作権フリーですか?

生成画像の著作権帰属は国・法解釈・生成のプロセスによって異なります。日本では人間の創作的関与の度合いが考慮されます。商用利用前に最新の法的ガイドラインと利用するモデルのライセンスを確認してください。

NSFW(成人向けコンテンツ)の生成はできますか?

デフォルトではNSFWフィルターが有効です。一部のコミュニティモデルではフィルターが無効化されているものもありますが、利用する地域の法律・モデルのライセンス条件を厳守する必要があります。違法コンテンツの生成はすべてのライセンスで明示的に禁止されています。

まとめ

Stable Diffusionは、潜在拡散モデルという革新的なアーキテクチャによって「高品質・低コスト・オープン」という三拍子を実現した画像生成AIです。テキストから画像を生成するtxt2imgを基本として、img2img・LoRA・ControlNetといった拡張技術により、クリエイターから企業の開発現場まで幅広いユースケースをカバーします。

2026年現在、Stability AIの主力オープンモデルはStable Diffusion 3.5(Large / Large Turbo / Medium)です。Diffusion Transformerアーキテクチャを採用し、テキスト理解力・構図精度・文字描画が従来世代から大幅に向上しています。コンシューマ向けハードウェアで動作し、ComfyUI・LoRA・ControlNetのエコシステムをそのまま活用できる点も強みです。並行して、豊富なコミュニティ資産を持つSDXLが依然ワークホースとして広く使われており、SD開発者らによるFlux.1も選択肢の一つです。なお、Stability AI自体は財務難を経て2026年初頭に1億ドル超の債務免除とEA・Warner Music Groupとの提携により経営を立て直し、開発体制を継続しています。

AUTOMATIC1111やComfyUIを使ってローカルで無料起動できる点はMidjourneyやDALL·E 3にない最大の強みです。ライセンスはモデルごとに異なるため、商用利用時は必ず原文ライセンスを確認してください。

まず試す場合は、Google ColabでComfyUIを起動するか、FooocusをローカルPCにインストールするのがスムーズな入門経路です。プロンプトの書き方・パラメータ調整・LoRAの活用を積み上げることで、AIが生み出す表現の可能性を着実に広げていくことができます。

関連記事

監修

河合 継(クリスタルメソッド株式会社 代表取締役)

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について編集方針

AIブログ購読

 
クリスタルメソッドがお届けする
AIブログの更新通知を受け取る

Study about AI

AIについて学ぶ

  • AI規制・州法ルール形成の最前線——米国の現実から日本企業が学ぶ教訓

    AI規制・州法ルール形成の最前線——米国の現実から日本企業が学ぶ教訓

    AI規制・州法ルール形成の現在地——連邦停滞が生む「パッチワーク」構造 2026年6月4日、米下院のJay Obernolte議員(共和・カリフォルニア州)とL...

  • Supermicro AIサーバー調達・受注390億ドルが日本企業に示す戦略的含意

    Supermicro AIサーバー調達・受注390億ドルが日本企業に示す戦略的含意

    Supermicro AIサーバー受注390億ドル・70億ドル調達計画の要点 Super Micro Computer(ティッカー: SMCI、以下Superm...

  • AI広告・合成パフォーマー開示規制の全米初施行——日本企業が今取るべき対応

    AI広告・合成パフォーマー開示規制の全米初施行——日本企業が今取るべき対応

    NY州「AI合成パフォーマー」広告開示規制——全米初の法律が施行 2026年6月9日、ニューヨーク州でAI生成の「synthetic performers(合成...

View more