- 2024-4-26
- 制御・IT系, 技術ニュース, 海外ニュース
- Conference on Computer Vision and Pattern Recognition(CVPR), DALL-E-3, Stable Diffusion, マサチューセッツ工科大学(MIT), 分布マッチング損失, 分布マッチング蒸留(DMD: Distribution Matching Distillation), 回帰損失, 教師モデル, 生徒モデル, 画像生成ツール
米マサチューセッツ工科大学(MIT)は2024年3月21日、画像生成ツールの研究成果を発表した。ツールの主な特徴は処理性能にあり、Stable DiffusionやDALL-E-3などの既存のモデルと比較して、30倍の高速化が期待できると説明している。
AIを利用した画像生成ツールは、いくつかの単語を与えると、拡散モデルによって独自の「アート」を生成する。この処理は、ノイズの多い初期画像データに繰り返して「構造」を追加し、画質を向上させるが、反復的なアルゴリズムの実行が処理時間を長引かせていた。
この課題について研究者らは、「教師モデル」と「生徒モデル」の関係で、拡散モデルの複雑な処理を単一ステップに簡略化した。複雑な構造を持ったオリジナルのモデルを教師モデルとし、生徒モデルに模倣させることで画像生成の簡略化を達成した。
このアプローチは、「分布マッチング蒸留(DMD: Distribution Matching Distillation)」として知られている。DMDは、「回帰損失」と「分布マッチング損失」という2つの概念を持つ。
具体的な動作は以下の通りである。回帰損失により、画像の構造である「マッピング」を固定しながらトレーニングを安定させる。一方で、分布マッチング損失により、元の画像と生成された画像の差異をシステムが理解し、現実世界との相違を最小化するようにトレーニングする。
研究チームはこの成果を、2024年6月に開催される「Conference on Computer Vision and Pattern Recognition(コンピュータービジョンとパターン認識に関する国際会議)」で発表する予定だ。