隨著人工智慧技術的飛速發展,穩定擴散(Stable Diffusion)作為一種深度學習的文本到圖像模型,於2022年正式發布,迅速在社群中引起了廣泛關注。這一革命性的模型不僅能基於文字描述生成詳盡的圖像,還能應用於其他如修補(inpainting)、擴展(outpainting)等多種任務。
穩定擴散的背後,是德國慕尼黑路德維希·馬克西米連大學的CompVis團隊以及Runway的研究人員共同合作的成果。該模型的開發得到了Stability AI的支持,並採用了來自非營利組織的大量訓練數據,使得這一創新竟能在大多數消費者硬體上運行,這與以往僅透過雲服務訪問的專有文本到圖像模型如DALL-E和Midjourney形成了鮮明的對比。
穩定擴散的出現,標誌著人工智慧的一場新革命,或許未來將引領更創新與便捷的創作方式。
穩定擴散最初源於一個名為“潛在擴散”(Latent Diffusion)的項目,由慕尼黑路德維希·馬克西米連大學及海德堡大學的研究人員開發。該項目的四位原始作者在隨後加入了Stability AI,並發布了穩定擴散的後續版本。而CompVis團隊則發佈了該模型的技術許可證。
開發團隊的核心成員包括Runway的Patrick Esser及CompVis的Robin Rombach,他們在早期便發明了穩定擴散所採用的潛在擴散模型架構。該項目還得到EleutherAI及LAION(負責整理穩定擴散訓練數據的德國非營利組織)的支持。
穩定擴散模型採用一種稱為潛在擴散模型(Latent Diffusion Model, LDM)的架構,這一技術於2015年被提出,目的是通過逐步去除高斯噪聲來訓練模型。此過程涵蓋了圖像從像素空間壓縮至較小的潛在空間,進而捕捉圖像更基本的語義意義。
穩定擴散由三個部分組成:變分自編碼器(VAE)、U-Net及可選的文本編碼器。
VAE編碼器將圖像壓縮至潛在空間,而U-Net則將輸出的潛在表示進行去噪。最終,VAE解碼器再將該表示轉換回像素空間。這一過程中的去噪步驟可以靈活地依據文字、圖像或其他模態進行調整。
穩定擴散在LAION-5B數據集中接受訓練,該數據集是涵蓋了50億圖像-文本對的公開數據集,並依據語言進行篩選。訓練的最新版本SD 3.0,標誌著核心架構的全面革新,採用了改進的解析結構,並增強了生成的細緻度和精確度。
穩定擴散模型允許用戶生成全新的圖像,並能根據文本提示修改現有圖像。不過,此技術在知識產權及道德上的使用也引發了一些爭議,尤其是模型的初步訓練數據中包含了大量的私密及敏感資訊。此外,由於模型主要使用英文數據訓練,這也使得生成圖像在不同文化背景下可能存在偏見。
穩定擴散是否能平衡技術應用與社會影響,將是一個待解決的課題,而這正是未來發展的重要考驗?