人工知能技術の急速な発展に伴い、ディープラーニングによるテキストから画像への変換モデルである「Stable Diffusion」が2022年に正式にリリースされ、コミュニティで急速に注目を集めました。この革新的なモデルは、テキストの説明に基づいて詳細な画像を生成できるだけでなく、インペインティングやアウトペインティングなどのさまざまなタスクにも適用できます。
この安定した拡散は、ドイツのミュンヘンにあるルートヴィヒ・マクシミリアン大学の CompVis チームと Runway の研究者との共同研究の結果です。このモデルはStability AIの支援を受けて開発され、非営利団体からの大量のトレーニングデータを使用しているため、クラウドサービスを通じてのみアクセス可能だった従来のプロフェッショナルモデルとは異なり、ほとんどの消費者向けハードウェアで実行できます。 DALL-E や Midjourney などのイメージモデルとは対照的です。
安定拡散の出現は人工知能における新たな革命を意味し、将来的にはより革新的で便利な創造方法につながる可能性があります。
安定拡散は、ルートヴィヒ・マクシミリアン大学ミュンヘンとハイデルベルク大学の研究者によって開発された潜在拡散と呼ばれるプロジェクトから生まれました。その後、プロジェクトの元の作成者 4 人が Stability AI に加わり、Stable Diffusion の後続バージョンをリリースしました。 CompVis チームは、このモデルの技術ライセンスをリリースしました。
開発チームの中核メンバーには、初期の安定拡散で使用された潜在拡散モデル フレームワークを発明した Runway の Patrick Esser 氏と CompVis の Robin Rombach 氏が含まれています。このプロジェクトは、安定した拡散トレーニング データの整理を担当するドイツの非営利団体 EleutherAI と LAION からもサポートされています。
安定拡散モデルは、ガウスノイズを徐々に除去することでモデルをトレーニングするために 2015 年に提案された潜在拡散モデル (LDM) と呼ばれるアーキテクチャを使用します。このプロセスでは、画像をピクセル空間からより小さな潜在空間に圧縮し、画像のより基本的な意味を捉えます。
Stable Diffusion は、変分オートエンコーダ (VAE)、U-Net、およびオプションのテキストエンコーダの 3 つの部分で構成されます。
VAE エンコーダーは画像を潜在空間に圧縮し、U-Net は出力潜在表現のノイズを除去します。最後に、VAE デコーダーは表現をピクセル空間に戻します。このプロセスにおけるノイズ除去ステップは、テキスト、画像、その他の形式に基づいて柔軟に調整できます。
StableDiffusion は、言語別にフィルタリングされた 50 億の画像とテキストのペアの公開データセットである LAION-5B データセットでトレーニングされています。トレーニングの最新バージョンである SD 3.0 では、コア アーキテクチャが完全に見直され、解析構造が改善され、生成の詳細と精度が強化されています。
安定した拡散モデルにより、ユーザーはテキストプロンプトに基づいてまったく新しい画像を生成したり、既存の画像を変更したりすることができます。しかし、この技術の使用は、特にモデルの初期のトレーニング データに大量の個人情報や機密情報が含まれているため、知的財産と倫理の面でいくつかの論争も引き起こしています。さらに、モデルは主に英語のデータを使用してトレーニングされているため、生成された画像は異なる文化的背景に偏っている可能性があります。
安定的な普及が技術応用と社会的影響のバランスをとれるかどうかは解決すべき課題であり、今後の発展に向けた重要な試金石となるのではないでしょうか。