Avec le développement rapide de la technologie de l'intelligence artificielle, Stable Diffusion, un modèle d'apprentissage profond de texte en image, a été officiellement publié en 2022 et a rapidement attiré l'attention de la communauté. Ce modèle révolutionnaire peut non seulement générer des images détaillées basées sur des descriptions textuelles, mais peut également être appliqué à une variété d'autres tâches telles que la retouche et la retouche.
Derrière la diffusion stable se cache le résultat d'une collaboration entre l'équipe CompVis de l'Université Ludwig Maximilian de Munich, en Allemagne, et les chercheurs de Runway. Le modèle a été développé avec le soutien de Stability AI et utilise une grande quantité de données de formation provenant d'organisations à but non lucratif, ce qui permet à cette innovation de fonctionner sur la plupart des matériels grand public, contrairement aux modèles professionnels précédents qui n'étaient accessibles que via des services cloud. des modèles d'images tels que DALL-E et Midjourney en contraste frappant.
L’émergence de la diffusion stable marque une nouvelle révolution dans l’intelligence artificielle et pourrait conduire à des moyens de création plus innovants et plus pratiques à l’avenir.
La diffusion stable est issue d'un projet appelé Diffusion Latente, développé par des chercheurs de l'Université Ludwig-Maximilians de Munich et de l'Université de Heidelberg. Les quatre auteurs originaux du projet ont ensuite rejoint Stability AI et publié les versions ultérieures de Stable Diffusion. L'équipe CompVis a publié une licence technique pour le modèle.
Les membres principaux de l'équipe de développement incluent Patrick Esser de Runway et Robin Rombach de CompVis, qui ont inventé le cadre du modèle de diffusion latente utilisé par la diffusion stable au début. Le projet est également soutenu par EleutherAI et LAION, une organisation allemande à but non lucratif chargée d'organiser les données de formation à la diffusion stable.
Le modèle de diffusion stable utilise une architecture appelée modèle de diffusion latente (LDM), qui a été proposée en 2015 pour former le modèle en supprimant progressivement le bruit gaussien. Ce processus implique la compression de l’image de l’espace pixel vers un espace latent plus petit, capturant ainsi la signification sémantique la plus basique de l’image.
Stable Diffusion se compose de trois parties : un autoencodeur variationnel (VAE), U-Net et un encodeur de texte en option.
L'encodeur VAE compresse l'image dans un espace latent, tandis que l'U-Net débruite la représentation latente de sortie. Enfin, le décodeur VAE reconvertit la représentation en espace pixel. L’étape de débruitage de ce processus peut être ajustée de manière flexible en fonction du texte, des images ou d’autres modalités.
StableDiffusion est formé sur l'ensemble de données LAION-5B, un ensemble de données public de 5 milliards de paires image-texte filtrées par langue. La dernière version de formation, SD 3.0, marque une refonte complète de l'architecture de base, avec une structure d'analyse améliorée et des détails et une précision de génération améliorés.
Le modèle de diffusion stable permet aux utilisateurs de générer des images complètement nouvelles et de modifier des images existantes en fonction d'invites textuelles. Cependant, l’utilisation de cette technologie a également suscité une certaine controverse en termes de propriété intellectuelle et d’éthique, d’autant plus que les données de formation initiales du modèle contiennent une grande quantité d’informations privées et sensibles. De plus, comme le modèle est principalement formé à l’aide de données anglaises, les images générées peuvent être biaisées dans différents contextes culturels.
La question de savoir si une diffusion stable peut équilibrer l’application technologique et l’impact social sera à résoudre, et c’est un test important pour le développement futur ?