Avec l’essor rapide de l’intelligence artificielle générative, Stable Diffusion est sans aucun doute un produit star qui attire l’attention. Depuis son lancement en 2022, ce modèle de conversion texte-image d'apprentissage profond basé sur la technologie de diffusion a non seulement étonné les utilisateurs avec ses capacités de génération d'images détaillées, mais a également brisé l'approche basée sur les services cloud, permettant aux consommateurs ordinaires d'utiliser du matériel. à la maison. Comment une telle innovation technologique est-elle réalisée ?
Contexte technique
La diffusion stable a été développée par des chercheurs du groupe CompVis de l'université Ludwig-Maximilians de Munich et Runway.
La diffusion stable est un réseau neuronal artificiel génératif profond appelé modèle de diffusion latente. Son processus de développement nécessite beaucoup de ressources informatiques, mais son code ouvert et les poids de son modèle rendent cette technologie facilement accessible à de plus en plus de personnes. Par rapport aux modèles propriétaires de conversion texte-image tels que DALL-E et Midjourney, qui n'étaient auparavant disponibles que via les services cloud, l'arrivée d'une diffusion stable permet aux utilisateurs équipés de GPU ordinaires de profiter de la dernière technologie d'intelligence artificielle.
Architecture et performances
L'architecture de diffusion stable se compose de trois composants principaux : les auto-encodeurs variationnels (VAE), les U-Nets et les encodeurs de texte facultatifs. Grâce au puissant framework U-Net, le modèle est capable de récupérer des images claires à partir de représentations codées contenant du bruit gaussien, un processus appelé débruitage. Pour de nombreux utilisateurs, les opérations U-Net et encodeur, riches en paramètres, sont intensives, mais la relative légèreté de la diffusion stable en fait un choix approprié pour un usage personnel.
La diffusion stable permet d'optimiser 8,6 millions de paramètres en mode image générée et peut fonctionner sur des GPU grand public.
Sources de données et processus de formation
Les données d'entraînement pour une diffusion stable proviennent de l'ensemble de données LAION-5B, qui contient 500 millions de paires d'images et de légendes annotées, filtrées pour garantir la qualité et la diversité des données. Les développeurs ont utilisé ces données de manière sélective pendant le processus de formation et ont mené plusieurs cycles de formation en apprentissage profond pour améliorer les capacités de génération du modèle.
Fonctionnalités conviviales
Une diffusion stable génère non seulement des images, mais prend également en charge la modification des images, y compris leur complétion et leur expansion. Les utilisateurs peuvent guider le processus de génération d'images via des invites textuelles. Cette fonctionnalité permet aux utilisateurs de réaliser relativement facilement leurs propres idées.
De nombreuses interfaces conviviales open source telles que DreamStudio et AUTOMATIC1111 offrent des fonctionnalités riches, permettant aux utilisateurs, quelle que soit leur formation technique, d'utiliser facilement cette technologie.
Défis d'ajustement et de biais
Bien que la diffusion stable présente d’excellentes performances à tous égards, son fonctionnement reste néanmoins problématique. Par exemple, étant donné que le modèle est principalement formé sur la base de données étiquetées en anglais, les images générées sont souvent biaisées en faveur de la culture occidentale et sous-représentatives des autres cultures.
Les créateurs reconnaissent que le modèle peut souffrir de biais algorithmiques, ce qui constitue l'un des défis qu'il faudra surmonter à l'avenir.
Conclusion
En bref, l'émergence d'une diffusion stable offre une nouvelle vision de la technologie d'apprentissage profond. Elle popularise non seulement les technologies de pointe, mais stimule également la collision d'idées. En tant que technologie d'apprentissage profond pouvant fonctionner sur du matériel grand public ordinaire, il pourrait y avoir davantage d'innovations et d'applications à l'avenir. Comment cette technologie façonnera-t-elle notre façon de créer et ouvrira-t-elle de nouvelles possibilités ?