生成型人工知能の急速な台頭により、Stable Diffusion は間違いなく注目を集めるスター製品です。 2022 年の発表以来、拡散技術に基づくこの深層学習テキストから画像への変換モデルは、その詳細な画像生成機能でユーザーを驚かせただけでなく、クラウド サービス ベースのアプローチを打ち破り、一般消費者がハードウェアを使用できるようにしました。家で走ります。このような技術革新はどのようにして実現されるのでしょうか?
技術的な背景
安定した拡散は、ミュンヘンのルートヴィヒ マクシミリアン大学と滑走路の CompVis グループの研究者によって開発されました。
安定拡散は、潜在拡散モデルと呼ばれる深層生成人工ニューラル ネットワークであり、その開発プロセスには多くのコンピューティング リソースが必要ですが、そのオープン コードとモデルの重みにより、このテクノロジはより多くの人々に簡単にアクセスできます。これまでクラウドサービスでしか利用できなかったDALL-EやMidjourneyなどの独自テキスト画像変換モデルと比べ、安定した普及の到来により、一般的なGPUを搭載したユーザーでも最新の人工知能技術を享受できるようになりました。
アーキテクチャとパフォーマンス
安定した拡散のアーキテクチャは、変分オートエンコーダ (VAE)、U-Net、およびオプションのテキスト エンコーダという 3 つの主要コンポーネントで構成されます。このモデルは、強力な U-Net フレームワークを通じて、ガウス ノイズを含むエンコード表現 (ノイズ除去と呼ばれるプロセス) から鮮明な画像を復元できます。多くのユーザーにとって、パラメーターの多い U-Net とエンコーダーの操作は負荷がかかりますが、安定した拡散は比較的軽いため、個人使用には適しています。
安定した拡散は、生成された画像モードで 860 万のパラメータの最適化を実現し、コンシューマ グレードの GPU で実行できます。
データ ソースとトレーニング プロセス
安定した拡散のためのトレーニング データは、LAION-5B データセットから取得されます。このデータセットには、データの品質と多様性を確保するためにフィルタリングされた、注釈付きの画像とキャプションの 5 億ペアが含まれています。開発者はトレーニング プロセス中にこのデータを選択的に使用し、モデルの生成機能を向上させるために数ラウンドの深層学習トレーニングを実施しました。
ユーザーフレンドリーな機能
安定拡散は画像の生成だけでなく、補完や拡張などの画像修正もサポートします。ユーザーはテキスト プロンプトを通じて画像生成プロセスをガイドできるため、ユーザーは自分のアイデアを比較的簡単に実現できます。
DreamStudio や AUTOMATIC1111 などの多くのオープンソース フレンドリーなインターフェイスは豊富な機能を提供しており、技術的な背景に関係なくユーザーがこのテクノロジーを簡単に使用できるようにしています。
調整可能性と偏見の課題
安定拡散はあらゆる面で優れた性能を発揮しますが、運用にはまだいくつかの課題があります。たとえば、モデルは主に英語のラベルが付けられたデータに基づいてトレーニングされるため、生成される画像は西洋文化に偏り、他の文化が過小評価されることがよくあります。
作成者は、モデルがアルゴリズムのバイアスに悩まされる可能性があることを認めており、これは将来的に克服する必要がある課題の 1 つです。
結論
つまり、安定した普及の出現は、ディープラーニング技術に新たなビジョンを提供するだけでなく、アイデアの衝突も刺激します。一般の消費者向けハードウェア上で実行できるディープラーニング技術として、将来的にはさらに多くのイノベーションや応用が生まれる可能性があります。このテクノロジーは、私たちが新たな可能性を生み出し、切り開く方法をどのように形作るのでしょうか?