画像生成AI「Stable Diffusion 2.0」リリース――画質を向上させ新機能も追加

2023-1-15
制御・IT系, 技術ニュース, 海外ニュース
depth-to-imageモデル（depth2img）, DreamStudio, Inpaintingモデル, LAION（Large-scale Artificial Intelligence Open Network）, Stability AI, Stability AI API Platform (platform.stability.ai）, Stable Diffusion, Stable Diffusion 2.0, Stable Diffusion v2.1, text-to-imageモデル, Upscalerモデル, テキストエンコーダー（OpenCLIP）, 画像生成AI

ロンドンに拠点を置くStability AIは2022年11月24日、画像生成AI「Stable Diffusion」の最新モデル、「Stable Diffusion 2.0」をリリースした。

Stable Diffusion 2.0には、新しいtext-to-imageモデル、解像度を高めるUpscalerモデル、image-to-image機能を拡張した新しいdepth-to-imageモデル（depth2img）、アップデートされたInpaintingモデルが含まれている。

新しいtext-to-imageモデルは、全く新しいテキストエンコーダー（OpenCLIP）を使用して学習させた堅牢なモデルとなっている。以前の1.0モデルと比較して生成画像の品質が大幅に向上した。解像度が512×512ピクセルと768×768ピクセルの両方の画像を生成できる。OpenCLIP は、Stability AIのサポートのもと、LAION（Large-scale Artificial Intelligence Open Network）が開発したものだ。

text-to-imageモデルは、Stability AIのDeepFloydチームが作成したLAION-5Bデータセットの美的サブセットで学習され、さらにLAIONのNSFWフィルターを使用してアダルトコンテンツを除去しているのも特徴だ。

Upscalerモデルは、画像の解像度を4倍に高めることができるものだ。text-to-imageモデルと組み合わせることで、2048×2048ピクセルまたはそれ以上の解像度の画像を生成することが可能になった。

depth2imgは、V1からの従来のimage-to-image機能を拡張したものだ。入力画像の奥行きを推測し、テキストと奥行き情報の両方を使用して新しい画像を生成する。画像の構造を保持したimage-to-imageや、形状条件付き画像合成に利用できる。

新しいtext-guided inpaintingモデルは、新しいStable Diffusion 2.0ベースのtext-to-imageで微調整されており、画像の一部をインテリジェントかつ素早く変更することが簡単にできる。

これらはStability AI API Platform (platform.stability.ai）とDreamStudioにリリースされた。また、すでに2022年12月7日にはStable Diffusion v2.1 と DreamStudio のアップデートが発表されている。

画像生成AI「Stable Diffusion 2.0」リリース――画質を向上させ新機能も追加