2022 年以降、Stable Diffusion は、拡散テクノロジーに基づいたディープラーニングのテキストから画像へのモデルとして急速に登場しました。 Stability AI が発表したこの生成人工知能技術は、現在の人工知能ブームのスター製品となっています。安定した拡散は、テキストの説明に基づいて詳細な画像を生成できるだけでなく、テキスト プロンプトに基づいて画像を修復、拡張、相互に変換することにも適用できます。その開発には、ミュンヘンのルートヴィヒ マクシミリアン大学と Runway の CompVis グループの研究チームが参加しており、Stability からの計算上の寄付と非営利団体からのトレーニング データによってサポートされています。
安定拡散は潜在拡散モデルであり、深層生成人工ニューラル ネットワークの一種です。
安定した拡散の技術アーキテクチャは非常に洗練されており、主に変分オートエンコーダ (VAE)、U-Net、およびオプションのテキスト エンコーダで構成されています。 VAE は、画像の基本的な意味を捕捉するために、画像をピクセル空間からより小さな潜在空間に圧縮する役割を果たします。モデルは、ガウス ノイズを徐々に追加することにより、順拡散プロセスでトレーニングされます。 U-Net は、これらのノイズを前方拡散から除去し、潜在的な表現を復元します。
安定拡散のオリジナル バージョンでは、2015 年に CompVis グループによって開発された潜在拡散モデル (LDM) と呼ばれる拡散モデルが使用されました。これらのモデルのトレーニングの目標は、トレーニング画像のガウス ノイズを除去して、より鮮明な画像を生成できるようにすることです。バージョンが繰り返されることで、安定した拡散アーキテクチャも適時に更新されます。たとえば、SD 3.0 の 3 番目のバージョンでは、基礎となるアーキテクチャが完全に変更され、Rectified Flow Transformer と呼ばれる新しいアーキテクチャが使用され、テキストと画像のエンコード処理におけるモデルの効率が大幅に向上しました。
「安定した拡散の設計では、生成される画像の品質だけでなく、計算効率も重視します。」
安定した拡散のトレーニングは、50 億の画像とキャプションのペアを含む公的に利用可能なデータセットである LAION-5B データセットに依存しています。データセットの作成には、インターネットから公開データをスクレイピングし、言語と解像度に基づいてフィルタリングすることが含まれます。トレーニングの最終目標は、ユーザーに好まれる画像を生成することであり、生成の精度と多様性を向上させるために、そのプロセスではさまざまなデータ駆動型の手法が使用されます。このため、画像生成の分野では安定した拡散が重要な位置を占めます。
「安定した拡散のためのトレーニング プロセスは、データ セットを使用して結果を生成する可能性を最適化する方法を示します。」
安定した拡散には、ビデオ アートの作成から医療画像や音楽の生成まで、幅広い用途があり、テクノロジーの柔軟性により、多くの革新的な状況に簡単に適応できます。現バージョンでは、特定の状況において人間の四肢の生成が不十分になるなどの制限がありますが、技術の進歩とバージョンのアップデートにより、これらの問題は将来的に解決されることが期待されます。 Stable Diffusion XL の最新バージョンでは、いくつかの品質問題が修正され、より高い解像度と生成機能が導入されました。
「ユーザーはさらに微調整することでモデルの初期制限を克服し、よりパーソナライズされた生成出力を実現できます。」
安定した拡散という驚くべき技術的成果にもかかわらず、この技術の使用には依然として慎重な検討が必要です。生成された画像には、不適切な情報や機密情報が意図せず含まれている可能性があり、これにより一連の倫理的問題が生じます。モデルが徐々にソースコードをオープン化し、生成された画像をユーザーが使用できるようにするにつれて、これらのテクノロジーの適用とそれがもたらす社会的影響をどのように規制するかが、解決すべき緊急の問題となっています。
安定した普及は、重大な技術革新であるだけでなく、社会文化を反映する鏡でもあります。テクノロジーのさらなる発展により、今後はどれだけの驚くべきアプリケーションが登場するのでしょうか?