自2022年以來,穩定擴散(Stable Diffusion)作為一種基於擴散技術的深度學習文本到圖像模型迅速崛起。這項由Stability AI推出的生成式人工智慧技術,已成為當前人工智慧熱潮中的明星產品。穩定擴散不僅可以生成基於文字描述的詳細圖像,還可以應用於修補、擴展以及在文本提示引導下進行圖像的相互轉換。它的發展涉及來自慕尼黑路德維希瑪克西米連大學CompVis小組和Runway的研究團隊,並透過Stability的計算捐贈和非營利機構的訓練數據支持。
穩定擴散是一種潛在擴散模型,這是一種類型的深度生成人工神經網絡。
穩定擴散的技術架構十分精密,主要由變分自編碼器(VAE)、U-Net和可選的文本編碼器組成。VAE負責將圖像從像素空間壓縮到較小的潛在空間,以捕獲圖像的基本語義意義。通過逐步添加高斯噪音,模型在前向擴散過程中進行訓練。U-Net則將這些噪音從前向擴散中去除,恢復潛在表示。
穩定擴散的原始版本使用了一種擴散模型,稱為潛在擴散模型(LDM),由CompVis小組於2015年開發。這些模型的訓練目標是去除訓練圖像上的高斯噪音,使其能夠生成更加清晰的圖像。隨著版本的迭代,穩定擴散的架構也適時更新。例如,第三版SD 3.0完全改變了底層架構,使用了一種名為矯正流變壓器(Rectified Flow Transformer)的新架構,這使得模型在處理文本和圖像編碼時的效率大大提升。
「穩定擴散的設計不僅注重生成圖像的質量,還強調了計算效率。」
穩定擴散的訓練依賴於LAION-5B數據集,這是一個包含50億對圖像和標題的公開數據集。數據集的創建過程涉及從互聯網上抓取公共數據,並根據語言和解析度進行過濾。訓練的終極目標是生成被用戶喜愛的圖像,而過程中採用了多種數據驅動的方法來提高生成的準確性和多樣性。這使得穩定擴散在圖像生成領域中佔據了重要的一席之地。
「穩定擴散的訓練過程展示了如何使用數據集來優化生成結果的可能性。」
穩定擴散的應用範圍極為廣泛,從影像藝術創作到醫療圖像和音樂生成,該技術的靈活性使其能夠輕鬆適應許多創新場合。儘管目前的版本存在著對某些特定情境的人體肢體生成效果不佳等限制,但隨著技術的進步和版本更新,這些問題有望在未來得到解決。最新的穩定擴散XL版本已經修復了部分質量問題,並引入了更高的解析度和生成能力。
「用戶可透過進一步的微調來克服模型的初始限制,實現更加個性化的生成輸出。」
儘管穩定擴散在技術上取得了驚人成就,使用這項技術仍需謹慎考量。生成的圖像可能無意中包含一些不當或敏感的信息,這引發了一系列的道德問題。隨著模型逐步開放源代碼並允許用戶使用生成的圖像,如何規範這些技術的應用及其所帶來的社會影響,成為了一個亟需解決的問題。
穩定擴散不僅是一項深奧的科技創新,更是一面反映社會文化的鏡子。隨著科技的進一步發展,未來還會有多少令人驚訝的應用會出現?