稳定扩散的起源故事:这个革命性模型是如何诞生的?

随着人工智慧技术的飞速发展,稳定扩散(Stable Diffusion)作为一种深度学习的文本到图像模型,于2022年正式发布,迅速在社群中引起了广泛关注。这一革命性的模型不仅能基于文字描述生成详尽的图像,还能应用于其他如修补(inpainting)、扩展(outpainting)等多种任务。

稳定扩散的背后,是德国慕尼黑路德维希·马克西米连大学的CompVis团队以及Runway的研究人员共同合作的成果。该模型的开发得到了Stability AI的支持,并采用了来自非营利组织的大量训练数据,使得这一创新竟能在大多数消费者硬体上运行,这与以往仅透过云服务访问的专有文本到图像模型如DALL-E和Midjourney形成了鲜明的对比。

稳定扩散的出现,标志着人工智慧的一场新革命,或许未来将引领更创新与便捷的创作方式。

开发过程

稳定扩散最初源于一个名为“潜在扩散”(Latent Diffusion)的项目,由慕尼黑路德维希·马克西米连大学及海德堡大学的研究人员开发。该项目的四位原始作者在随后加入了Stability AI,并发布了稳定扩散的后续版本。而CompVis团队则发布了该模型的技术许可证。

开发团队的核心成员包括Runway的Patrick Esser及CompVis的Robin Rombach,他们在早期便发明了稳定扩散所采用的潜在扩散模型架构。该项目还得到EleutherAI及LAION(负责整理稳定扩散训练数据的德国非营利组织)的支持。

技术架构

稳定扩散模型采用一种称为潜在扩散模型(Latent Diffusion Model, LDM)的架构,这一技术于2015年被提出,目的是通过逐步去除高斯噪声来训练模型。此过程涵盖了图像从像素空间压缩至较小的潜在空间,进而捕捉图像更基本的语义意义。

稳定扩散由三个部分组成:变分自编码器(VAE)、U-Net及可选的文本编码器。

VAE编码器将图像压缩至潜在空间,而U-Net则将输出的潜在表示进行去噪。最终,VAE解码器再将该表示转换回像素空间。这一过程中的去噪步骤可以灵活地依据文字、图像或其他模态进行调整。

训练数据与程序

稳定扩散在LAION-5B数据集中接受训练,该数据集是涵盖了50亿图像-文本对的公开数据集,并依据语言进行筛选。训练的最新版本SD 3.0,标志着核心架构的全面革新,采用了改进的解析结构,并增强了生成的细致度和精确度。

使用及争议

稳定扩散模型允许用户生成全新的图像,并能根据文本提示修改现有图像。不过,此技术在知识产权及道德上的使用也引发了一些争议,尤其是模型的初步训练数据中包含了大量的私密及敏感资讯。此外,由于模型主要使用英文数据训练,这也使得生成图像在不同文化背景下可能存在偏见。

稳定扩散是否能平衡技术应用与社会影响,将是一个待解决的课题,而这正是未来发展的重要考验?

Trending Knowledge

稳定扩散的深度学习魔法:为何它能在家用硬体上运行?
随着生成式人工智慧的迅速崛起,稳定扩散(Stable Diffusion)无疑是引人注目的明星产品。自2022年推出以来,这个基于扩散技术的深度学习文本转图模型,不只令使用者惊艳于其详细的图像生成能力,更打破了基于云服务的办法,让普通消费者也能在家用硬体上运行。这样的技术革新,究竟是如何实现的呢? 技术背景 <blockquote> 稳定扩散是由位于慕尼黑的路德
隐藏在稳定扩散背后的科技秘密:它如何将文字变成惊艳图像?
自2022年以来,稳定扩散(Stable Diffusion)作为一种基于扩散技术的深度学习文本到图像模型迅速崛起。这项由Stability AI推出的生成式人工智慧技术,已成为当前人工智慧热潮中的明星产品。稳定扩散不仅可以生成基于文字描述的详细图像,还可以应用于修补、扩展以及在文本提示引导下进行图像的相互转换。它的发展涉及来自慕尼黑路德维希玛克西米连大学CompVis小组和Runway的研究团队

Responses