Stable Diffusionは、テキストから画像を生成するための画像生成アルゴリズムです。2022年にGoogle AIによって発表されました。
Stable Diffusionの生成アルゴリズムは、拡散モデルと呼ばれる技術に基づいています。拡散モデルは、画像にノイズを徐々に追加しながら、元の画像を復元するプロセスを学習します。このプロセスを逆にすると、画像からノイズを徐々に除去しながら、新しい画像を生成することができます。
具体的には、Stable Diffusionの生成アルゴリズムは、次の手順で動作します。
- 初期画像として、ガウス分布に従うノイズを生成します。
- ノイズを徐々に除去しながら、画像を生成します。
- 生成された画像を、入力テキストの条件に合致するように調整します。
1. 初期画像の生成
Stable Diffusionでは、初期画像として、ガウス分布に従うノイズを生成します。ガウス分布とは、ベル曲線と呼ばれるような分布のことです。ガウス分布に従うノイズは、平均と標準偏差によって分布の形状が決まります。
2. 画像の生成
初期画像からノイズを徐々に除去しながら、画像を生成します。このプロセスを逆方向の拡散プロセスと呼びます。逆方向の拡散プロセスでは、画像の各ピクセルについて、次の式で計算された確率に基づいて、ノイズの有無を決定します。
P(x) = 1 / (1 + exp(-x))
ここで、xはピクセルの値を表します。この式の値は、xが0に近いほど大きく、xが大きいほど小さくなります。つまり、xが0に近いピクセルは、ノイズである可能性が高くなります。
3. 画像の調整
生成された画像を、入力テキストの条件に合致するように調整します。この調整は、ニューラルネットワークによって行われます。ニューラルネットワークは、入力テキストと生成された画像の間の相関関係を学習し、入力テキストの条件に合致するように画像を調整します。

Stable Diffusionの特徴
Stable Diffusionは、次の特徴を備えています。
- 安定した学習が可能
Stable Diffusionは、GANなどの他の画像生成アルゴリズムと比較して、安定した学習が可能です。これは、Stable Diffusionでは、画像の生成と調整を同時に行うため、GANのようなモード崩壊(生成される画像のパターンが限られたものになってしまう現象)を起こしにくいためです。
- 高品質な画像を生成可能
Stable Diffusionは、高品質な画像を生成することができます。これは、Stable Diffusionでは、画像の各ピクセルについて、確率的にノイズを除去するため、自然な画像を生成する傾向があるためです。
Stable Diffusionの応用
Stable Diffusionは、次の用途に応用されています。
- 画像生成
Stable Diffusionは、テキストから画像を生成するのに使用できます。たとえば、絵画や写真、イラストなどの画像を生成できます。
- 画像の編集
Stable Diffusionは、画像の編集にも使用できます。たとえば、画像の背景を消去したり、画像にオブジェクトを追加したりすることができます。
- 画像の創作
Stable Diffusionは、新しい画像の創作にも使用できます。たとえば、架空の生き物や風景などの画像を生成できます。
Stable Diffusionは、画像生成の分野で注目を集めている画像生成アルゴリズムです。今後、さらにさまざまな用途に応用されていくと考えられます。
こちらの記事もおすすめ:stable-diffusion-xlのおすすめモデル