随着人工智慧技术的飞速发展,稳定扩散(Stable Diffusion)作为一种深度学习的文本到图像模型,于2022年正式发布,迅速在社群中引起了广泛关注。这一革命性的模型不仅能基于文字描述生成详尽的图像,还能应用于其他如修补(inpainting)、扩展(outpainting)等多种任务。
稳定扩散的背后,是德国慕尼黑路德维希·马克西米连大学的CompVis团队以及Runway的研究人员共同合作的成果。该模型的开发得到了Stability AI的支持,并采用了来自非营利组织的大量训练数据,使得这一创新竟能在大多数消费者硬体上运行,这与以往仅透过云服务访问的专有文本到图像模型如DALL-E和Midjourney形成了鲜明的对比。
稳定扩散的出现,标志着人工智慧的一场新革命,或许未来将引领更创新与便捷的创作方式。
稳定扩散最初源于一个名为“潜在扩散”(Latent Diffusion)的项目,由慕尼黑路德维希·马克西米连大学及海德堡大学的研究人员开发。该项目的四位原始作者在随后加入了Stability AI,并发布了稳定扩散的后续版本。而CompVis团队则发布了该模型的技术许可证。
开发团队的核心成员包括Runway的Patrick Esser及CompVis的Robin Rombach,他们在早期便发明了稳定扩散所采用的潜在扩散模型架构。该项目还得到EleutherAI及LAION(负责整理稳定扩散训练数据的德国非营利组织)的支持。
稳定扩散模型采用一种称为潜在扩散模型(Latent Diffusion Model, LDM)的架构,这一技术于2015年被提出,目的是通过逐步去除高斯噪声来训练模型。此过程涵盖了图像从像素空间压缩至较小的潜在空间,进而捕捉图像更基本的语义意义。
稳定扩散由三个部分组成:变分自编码器(VAE)、U-Net及可选的文本编码器。
VAE编码器将图像压缩至潜在空间,而U-Net则将输出的潜在表示进行去噪。最终,VAE解码器再将该表示转换回像素空间。这一过程中的去噪步骤可以灵活地依据文字、图像或其他模态进行调整。
稳定扩散在LAION-5B数据集中接受训练,该数据集是涵盖了50亿图像-文本对的公开数据集,并依据语言进行筛选。训练的最新版本SD 3.0,标志着核心架构的全面革新,采用了改进的解析结构,并增强了生成的细致度和精确度。
稳定扩散模型允许用户生成全新的图像,并能根据文本提示修改现有图像。不过,此技术在知识产权及道德上的使用也引发了一些争议,尤其是模型的初步训练数据中包含了大量的私密及敏感资讯。此外,由于模型主要使用英文数据训练,这也使得生成图像在不同文化背景下可能存在偏见。
稳定扩散是否能平衡技术应用与社会影响,将是一个待解决的课题,而这正是未来发展的重要考验?