Seit 2022 hat sich Stable Diffusion schnell zu einem Deep-Learning-Text-zu-Bild-Modell entwickelt, das auf Diffusionstechnologie basiert. Diese von Stability AI eingeführte generative künstliche Intelligenz-Technologie hat sich zu einem Starprodukt im aktuellen Boom der künstlichen Intelligenz entwickelt. Stabile Diffusion kann nicht nur detaillierte Bilder auf der Grundlage von Textbeschreibungen erzeugen, sondern kann auch zum Reparieren, Erweitern und Transformieren von Bildern ineinander und voneinander mithilfe von Textaufforderungen verwendet werden. An der Entwicklung sind Forschungsteams der CompVis-Gruppe der Ludwig-Maximilians-Universität München und von Runway beteiligt und werden durch Rechenspenden von Stability und Trainingsdaten von gemeinnützigen Organisationen unterstützt.
Stabile Diffusion ist ein latentes Diffusionsmodell, bei dem es sich um eine Art tiefes generatives künstliches neuronales Netzwerk handelt.
Die technische Architektur der stabilen Diffusion ist sehr anspruchsvoll und besteht hauptsächlich aus Variational Autoencodern (VAE), U-Net und optionalen Text-Encodern. VAE ist dafür verantwortlich, das Bild vom Pixelraum auf einen kleineren latenten Raum zu komprimieren, um die grundlegende semantische Bedeutung des Bildes zu erfassen. Das Modell wird in einem Vorwärtsdiffusionsprozess trainiert, indem nach und nach Gaußsches Rauschen hinzugefügt wird. U-Net entfernt diese Geräusche aus der Vorwärtsdiffusion und stellt die latente Darstellung wieder her.
Die ursprüngliche Version der stabilen Diffusion verwendete ein Diffusionsmodell namens Latent Diffusion Model (LDM), das 2015 von der CompVis-Gruppe entwickelt wurde. Das Trainingsziel dieser Modelle besteht darin, Gaußsches Rauschen auf den Trainingsbildern zu entfernen, damit sie klarere Bilder erzeugen können. Mit der Iteration von Versionen wird auch die stabile und diffuse Architektur zeitnah aktualisiert. Beispielsweise hat die dritte Version von SD 3.0 die zugrunde liegende Architektur vollständig geändert und eine neue Architektur namens Rectified Flow Transformer verwendet, die die Effizienz des Modells bei der Verarbeitung von Text und Bildkodierung erheblich verbesserte.
„Das Design der stabilen Diffusion konzentriert sich nicht nur auf die Qualität der erzeugten Bilder, sondern legt auch Wert auf die Recheneffizienz.“
Das Training der stabilen Diffusion basiert auf dem LAION-5B-Datensatz, einem öffentlich verfügbaren Datensatz mit 5 Milliarden Bild- und Bildunterschriftenpaaren. Bei der Erstellung des Datensatzes werden öffentliche Daten aus dem Internet entnommen und nach Sprache und Auflösung gefiltert. Das ultimative Ziel des Trainings besteht darin, Bilder zu generieren, die von den Benutzern geliebt werden. Dabei werden verschiedene datengesteuerte Methoden verwendet, um die Genauigkeit und Vielfalt der Generierung zu verbessern. Dadurch nimmt die stabile Diffusion einen wichtigen Platz im Bereich der Bilderzeugung ein.
„Der Trainingsprozess für stabile Diffusion zeigt, wie ein Datensatz verwendet werden kann, um die Wahrscheinlichkeit der Generierung von Ergebnissen zu optimieren.“
Stabile Diffusion hat ein breites Anwendungsspektrum, von der Erstellung von Videokunst bis hin zur Erzeugung medizinischer Bilder und Musik, und die Flexibilität der Technologie ermöglicht eine einfache Anpassung an viele innovative Situationen. Obwohl die aktuelle Version Einschränkungen aufweist, wie z. B. eine schlechte Erzeugung menschlicher Gliedmaßen in bestimmten Situationen, wird erwartet, dass diese Probleme mit der Weiterentwicklung der Technologie und Versionsaktualisierungen in Zukunft gelöst werden. Die neueste Version von Stable Diffusion XL hat einige Qualitätsprobleme behoben und höhere Auflösungs- und Generierungsfunktionen eingeführt.
„Benutzer können die anfänglichen Einschränkungen des Modells durch weitere Feinabstimmung überwinden, um eine personalisiertere generierte Ausgabe zu erzielen.“
Trotz der erstaunlichen technischen Errungenschaften der stabilen Diffusion bedarf der Einsatz dieser Technologie immer noch sorgfältiger Überlegung. Die generierten Bilder können unbeabsichtigt unangemessene oder sensible Informationen enthalten, was eine Reihe ethischer Fragen aufwirft. Da Modelle nach und nach den Quellcode öffnen und Benutzern die Verwendung generierter Bilder ermöglichen, ist die Regulierung der Anwendung dieser Technologien und der damit verbundenen sozialen Auswirkungen zu einem dringenden Problem geworden, das gelöst werden muss.
Stabile Verbreitung ist nicht nur eine tiefgreifende technologische Innovation, sondern auch ein Spiegel der sozialen Kultur. Wie viele überraschende Anwendungen werden mit der Weiterentwicklung der Technologie in Zukunft auftauchen?