Mit der rasanten Entwicklung der künstlichen Intelligenztechnologie wurde Stable Diffusion, ein Deep-Learning-Text-zu-Bild-Modell, im Jahr 2022 offiziell veröffentlicht und erregte schnell große Aufmerksamkeit in der Community. Dieses revolutionäre Modell kann nicht nur detaillierte Bilder auf der Grundlage von Textbeschreibungen erzeugen, sondern lässt sich auch für eine Vielzahl anderer Aufgaben wie Inpainting und Outpainting verwenden.
Hinter der stabilen Diffusion steckt das Ergebnis einer gemeinsamen Zusammenarbeit zwischen dem CompVis-Team der Ludwig-Maximilians-Universität in München und Forschern von Runway. Das Modell wurde mit Unterstützung von Stability AI entwickelt und verwendet eine große Menge an Trainingsdaten von gemeinnützigen Organisationen, sodass diese Innovation auf den meisten Verbraucher-Hardware-Geräten läuft, im Gegensatz zu früheren professionellen Modellen, die nur über Cloud-Dienste zugänglich waren. Es gibt Text-to- Bildmodelle wie DALL-E und Midjourney stehen in starkem Kontrast.
Die Entstehung einer stabilen Diffusion markiert eine neue Revolution in der künstlichen Intelligenz und könnte in Zukunft zu innovativeren und bequemeren Wegen der Kreation führen.
Die stabile Diffusion entstand aus einem Projekt namens „Latent Diffusion“, das von Forschern der Ludwig-Maximilians-Universität München und der Universität Heidelberg entwickelt wurde. Die vier ursprünglichen Autoren des Projekts schlossen sich anschließend Stability AI an und veröffentlichten nachfolgende Versionen von Stable Diffusion. Das CompVis-Team hat eine technische Lizenz für das Modell veröffentlicht.
Zu den Kernmitgliedern des Entwicklungsteams zählen Patrick Esser von Runway und Robin Rombach von CompVis, die das Rahmenmodell der latenten Diffusion erfunden haben, das in der Anfangszeit von Stable Diffusion verwendet wurde. Das Projekt wird außerdem von EleutherAI und LAION unterstützt, einer deutschen gemeinnützigen Organisation, die für die Organisation stabiler Diffusionstrainingsdaten verantwortlich ist.
Das stabile Diffusionsmodell verwendet eine Architektur namens Latent Diffusion Model (LDM), die 2015 vorgeschlagen wurde, um das Modell durch schrittweises Entfernen des Gaußschen Rauschens zu trainieren. Bei diesem Vorgang wird das Bild vom Pixelraum in einen kleineren latenten Raum komprimiert, wodurch die grundlegendere semantische Bedeutung des Bildes erfasst wird.
Stable Diffusion besteht aus drei Teilen: Variational Autoencoder (VAE), U-Net und einem optionalen Textencoder.
Der VAE-Encoder komprimiert das Bild in einen latenten Raum, während U-Net die latente Ausgabedarstellung entrauscht. Schließlich konvertiert der VAE-Decoder die Darstellung zurück in den Pixelraum. Der Rauschunterdrückungsschritt in diesem Prozess kann flexibel auf Grundlage von Text, Bildern oder anderen Modalitäten angepasst werden.
StableDiffusion wird anhand des LAION-5B-Datensatzes trainiert, einem öffentlichen Datensatz mit 5 Milliarden nach Sprache gefilterten Bild-Text-Paaren. Die neueste Trainingsversion, SD 3.0, stellt eine vollständige Überarbeitung der Kernarchitektur mit einer verbesserten Analysestruktur sowie gesteigerter Detailliertheit und Präzision bei der Generierung dar.
Das stabile Diffusionsmodell ermöglicht es Benutzern, völlig neue Bilder zu erstellen und vorhandene Bilder basierend auf Textaufforderungen zu ändern. Allerdings hat der Einsatz dieser Technologie auch zu Kontroversen hinsichtlich des geistigen Eigentums und der Ethik geführt, insbesondere da die anfänglichen Trainingsdaten des Modells eine große Menge privater und sensibler Informationen enthalten. Da das Modell außerdem hauptsächlich mit englischen Daten trainiert wird, können die generierten Bilder aufgrund unterschiedlicher kultureller Hintergründe verzerrt sein.
Ob durch eine stabile Verbreitung ein Gleichgewicht zwischen technologischer Anwendung und gesellschaftlicher Wirkung hergestellt werden kann, muss noch geklärt werden. Dies ist ein wichtiger Test für die künftige Entwicklung.