穩定擴散的起源故事:這個革命性模型是如何誕生的?

隨著人工智慧技術的飛速發展,穩定擴散(Stable Diffusion)作為一種深度學習的文本到圖像模型,於2022年正式發布,迅速在社群中引起了廣泛關注。這一革命性的模型不僅能基於文字描述生成詳盡的圖像,還能應用於其他如修補(inpainting)、擴展(outpainting)等多種任務。

穩定擴散的背後,是德國慕尼黑路德維希·馬克西米連大學的CompVis團隊以及Runway的研究人員共同合作的成果。該模型的開發得到了Stability AI的支持,並採用了來自非營利組織的大量訓練數據,使得這一創新竟能在大多數消費者硬體上運行,這與以往僅透過雲服務訪問的專有文本到圖像模型如DALL-E和Midjourney形成了鮮明的對比。

穩定擴散的出現,標誌著人工智慧的一場新革命,或許未來將引領更創新與便捷的創作方式。

開發過程

穩定擴散最初源於一個名為“潛在擴散”(Latent Diffusion)的項目,由慕尼黑路德維希·馬克西米連大學及海德堡大學的研究人員開發。該項目的四位原始作者在隨後加入了Stability AI,並發布了穩定擴散的後續版本。而CompVis團隊則發佈了該模型的技術許可證。

開發團隊的核心成員包括Runway的Patrick Esser及CompVis的Robin Rombach,他們在早期便發明了穩定擴散所採用的潛在擴散模型架構。該項目還得到EleutherAI及LAION(負責整理穩定擴散訓練數據的德國非營利組織)的支持。

技術架構

穩定擴散模型採用一種稱為潛在擴散模型(Latent Diffusion Model, LDM)的架構,這一技術於2015年被提出,目的是通過逐步去除高斯噪聲來訓練模型。此過程涵蓋了圖像從像素空間壓縮至較小的潛在空間,進而捕捉圖像更基本的語義意義。

穩定擴散由三個部分組成:變分自編碼器(VAE)、U-Net及可選的文本編碼器。

VAE編碼器將圖像壓縮至潛在空間,而U-Net則將輸出的潛在表示進行去噪。最終,VAE解碼器再將該表示轉換回像素空間。這一過程中的去噪步驟可以靈活地依據文字、圖像或其他模態進行調整。

訓練數據與程序

穩定擴散在LAION-5B數據集中接受訓練,該數據集是涵蓋了50億圖像-文本對的公開數據集,並依據語言進行篩選。訓練的最新版本SD 3.0,標誌著核心架構的全面革新,採用了改進的解析結構,並增強了生成的細緻度和精確度。

使用及爭議

穩定擴散模型允許用戶生成全新的圖像,並能根據文本提示修改現有圖像。不過,此技術在知識產權及道德上的使用也引發了一些爭議,尤其是模型的初步訓練數據中包含了大量的私密及敏感資訊。此外,由於模型主要使用英文數據訓練,這也使得生成圖像在不同文化背景下可能存在偏見。

穩定擴散是否能平衡技術應用與社會影響,將是一個待解決的課題,而這正是未來發展的重要考驗?

Trending Knowledge

穩定擴散的深度學習魔法:為何它能在家用硬體上運行?
隨著生成式人工智慧的迅速崛起,穩定擴散(Stable Diffusion)無疑是引人注目的明星產品。自2022年推出以來,這個基於擴散技術的深度學習文本轉圖模型,不只令使用者驚艷於其詳細的圖像生成能力,更打破了基於雲服務的辦法,讓普通消費者也能在家用硬體上運行。這樣的技術革新,究竟是如何實現的呢? 技術背景 <blockquote> 穩定擴散是由位於慕尼黑的路德維
隱藏在穩定擴散背後的科技秘密:它如何將文字變成驚艷圖像?
自2022年以來,穩定擴散(Stable Diffusion)作為一種基於擴散技術的深度學習文本到圖像模型迅速崛起。這項由Stability AI推出的生成式人工智慧技術,已成為當前人工智慧熱潮中的明星產品。穩定擴散不僅可以生成基於文字描述的詳細圖像,還可以應用於修補、擴展以及在文本提示引導下進行圖像的相互轉換。它的發展涉及來自慕尼黑路德維希瑪克西米連大學CompVis小組和Runway的研究團隊

Responses