Language

Arabic
العربية

Chinese
中文

香港繁體
Traditional Chinese

臺灣正體
Traditional Chinese

English
English

French
Français

German
Deutsch

Italian
Italiano

Indonesian
Bahasa Indonesia

Japanese
日本語

Korean
한국어

Portuguese
Português

Russian
Русский

Spanish
español

Vietnamese
Tiếng Việt

Country/Area

Antigua and Barbuda
Antigua and Barbuda

Bosnia and Herzegovina
Bosna i Hercegovina

Central African Republic
République Centrafricaine

Congo, Democratic Republic of the
République Démocratique du Congo

Congo, Republic of the
République du Congo

Côte d'Ivoire
Côte d'Ivoire

Czech Republic
Česká republika

Dominican Republic
República Dominicana

Equatorial Guinea
Guinea Ecuatorial

Marshall Islands
Aolepān Aorōkin M̧ajeļ

North Macedonia
Северна Македонија

Papua New Guinea
Papua Niugini

Saint Kitts and Nevis
Saint Kitts and Nevis

Saint Vincent and the Grenadines
Saint Vincent and the Grenadines

Sao Tome and Principe
São Tomé e Príncipe

Saudi Arabia
المملكة العربية السعودية

Solomon Islands
Solomon Islands

Sri Lanka
ශ්‍රී ලංකාව

South Sudan
جنوب السودان

Trinidad and Tobago
Trinidad and Tobago

United Arab Emirates
الإمارات العربية المتحدة

United Kingdom
United Kingdom

Vatican City
Città del Vaticano

Language
Country/Area

Arabic
العربية

Chinese
中文

中国简体
Simplified Chinese

香港繁體
Traditional Chinese

臺灣正體
Traditional Chinese

English
English

French
Français

German
Deutsch

Italian
Italiano

Indonesian
Bahasa Indonesia

Japanese
日本語

Korean
한국어

Portuguese
Português

Russian
Русский

Spanish
español

Vietnamese
Tiếng Việt

Antigua and Barbuda
Antigua and Barbuda

The Bahamas
The Bahamas

Bosnia and Herzegovina
Bosna i Hercegovina

Burkina Faso
Burkina Faso

Cape Verde
Cape Verde

Central African Republic
République Centrafricaine

Congo, Democratic Republic of the
République Démocratique du Congo

Congo, Republic of the
République du Congo

Costa Rica
Costa Rica

Côte d'Ivoire
Côte d'Ivoire

Czech Republic
Česká republika

Dominican Republic
República Dominicana

El Salvador
El Salvador

Equatorial Guinea
Guinea Ecuatorial

The Gambia
The Gambia

Marshall Islands
Aolepān Aorōkin M̧ajeļ

North Macedonia
Северна Македонија

Papua New Guinea
Papua Niugini

Saint Kitts and Nevis
Saint Kitts and Nevis

Saint Lucia
Saint Lucia

Saint Vincent and the Grenadines
Saint Vincent and the Grenadines

San Marino
San Marino

Sao Tome and Principe
São Tomé e Príncipe

Saudi Arabia
المملكة العربية السعودية

Sierra Leone
Sierra Leone

Solomon Islands
Solomon Islands

South Africa
South Africa

Sri Lanka
ශ්‍රී ලංකාව

South Sudan
جنوب السودان

Trinidad and Tobago
Trinidad and Tobago

United Arab Emirates
الإمارات العربية المتحدة

United Kingdom
United Kingdom

United States
United States

Vatican City
Città del Vaticano

Die Entstehungsgeschichte der stabilen Diffusion: Wie kam es zu diesem revolutionären Modell?

Mit der rasanten Entwicklung der künstlichen Intelligenztechnologie wurde Stable Diffusion, ein Deep-Learning-Text-zu-Bild-Modell, im Jahr 2022 offiziell veröffentlicht und erregte schnell große Aufmerksamkeit in der Community. Dieses revolutionäre Modell kann nicht nur detaillierte Bilder auf der Grundlage von Textbeschreibungen erzeugen, sondern lässt sich auch für eine Vielzahl anderer Aufgaben wie Inpainting und Outpainting verwenden.

Hinter der stabilen Diffusion steckt das Ergebnis einer gemeinsamen Zusammenarbeit zwischen dem CompVis-Team der Ludwig-Maximilians-Universität in München und Forschern von Runway. Das Modell wurde mit Unterstützung von Stability AI entwickelt und verwendet eine große Menge an Trainingsdaten von gemeinnützigen Organisationen, sodass diese Innovation auf den meisten Verbraucher-Hardware-Geräten läuft, im Gegensatz zu früheren professionellen Modellen, die nur über Cloud-Dienste zugänglich waren. Es gibt Text-to- Bildmodelle wie DALL-E und Midjourney stehen in starkem Kontrast.

Die Entstehung einer stabilen Diffusion markiert eine neue Revolution in der künstlichen Intelligenz und könnte in Zukunft zu innovativeren und bequemeren Wegen der Kreation führen.

Entwicklungsprozess

Die stabile Diffusion entstand aus einem Projekt namens „Latent Diffusion“, das von Forschern der Ludwig-Maximilians-Universität München und der Universität Heidelberg entwickelt wurde. Die vier ursprünglichen Autoren des Projekts schlossen sich anschließend Stability AI an und veröffentlichten nachfolgende Versionen von Stable Diffusion. Das CompVis-Team hat eine technische Lizenz für das Modell veröffentlicht.

Zu den Kernmitgliedern des Entwicklungsteams zählen Patrick Esser von Runway und Robin Rombach von CompVis, die das Rahmenmodell der latenten Diffusion erfunden haben, das in der Anfangszeit von Stable Diffusion verwendet wurde. Das Projekt wird außerdem von EleutherAI und LAION unterstützt, einer deutschen gemeinnützigen Organisation, die für die Organisation stabiler Diffusionstrainingsdaten verantwortlich ist.

Technische Architektur

Das stabile Diffusionsmodell verwendet eine Architektur namens Latent Diffusion Model (LDM), die 2015 vorgeschlagen wurde, um das Modell durch schrittweises Entfernen des Gaußschen Rauschens zu trainieren. Bei diesem Vorgang wird das Bild vom Pixelraum in einen kleineren latenten Raum komprimiert, wodurch die grundlegendere semantische Bedeutung des Bildes erfasst wird.

Stable Diffusion besteht aus drei Teilen: Variational Autoencoder (VAE), U-Net und einem optionalen Textencoder.

Der VAE-Encoder komprimiert das Bild in einen latenten Raum, während U-Net die latente Ausgabedarstellung entrauscht. Schließlich konvertiert der VAE-Decoder die Darstellung zurück in den Pixelraum. Der Rauschunterdrückungsschritt in diesem Prozess kann flexibel auf Grundlage von Text, Bildern oder anderen Modalitäten angepasst werden.

Trainingsdaten und -programme

StableDiffusion wird anhand des LAION-5B-Datensatzes trainiert, einem öffentlichen Datensatz mit 5 Milliarden nach Sprache gefilterten Bild-Text-Paaren. Die neueste Trainingsversion, SD 3.0, stellt eine vollständige Überarbeitung der Kernarchitektur mit einer verbesserten Analysestruktur sowie gesteigerter Detailliertheit und Präzision bei der Generierung dar.

Nutzung und Streitigkeiten

Das stabile Diffusionsmodell ermöglicht es Benutzern, völlig neue Bilder zu erstellen und vorhandene Bilder basierend auf Textaufforderungen zu ändern. Allerdings hat der Einsatz dieser Technologie auch zu Kontroversen hinsichtlich des geistigen Eigentums und der Ethik geführt, insbesondere da die anfänglichen Trainingsdaten des Modells eine große Menge privater und sensibler Informationen enthalten. Da das Modell außerdem hauptsächlich mit englischen Daten trainiert wird, können die generierten Bilder aufgrund unterschiedlicher kultureller Hintergründe verzerrt sein.

Ob durch eine stabile Verbreitung ein Gleichgewicht zwischen technologischer Anwendung und gesellschaftlicher Wirkung hergestellt werden kann, muss noch geklärt werden. Dies ist ein wichtiger Test für die künftige Entwicklung.

Trending Knowledge

Die sich stetig verbreitende Magie des Deep Learning: Warum funktioniert es auf Heimhardware?

Angesichts des rasanten Aufstiegs der generativen künstlichen Intelligenz ist Stable Diffusion zweifellos ein Starprodukt, das Aufmerksamkeit erregt. Seit seiner Einführung im Jahr 2022 hat dieses auf

Das technologische Geheimnis hinter der stetigen Verbreitung: Wie verwandelt es Worte in atemberaubende Bilder?

Seit 2022 hat sich Stable Diffusion schnell zu einem Deep-Learning-Text-zu-Bild-Modell entwickelt, das auf Diffusionstechnologie basiert. Diese von Stability AI eingeführte generative künstliche Intel

Multimedia

Die Entstehungsgeschichte der stabilen Diffusion: Wie kam es zu diesem revolutionären Modell?

Entwicklungsprozess

Technische Architektur

Trainingsdaten und -programme

Nutzung und Streitigkeiten

Trending Knowledge

Responses

Language

Country/Area

No result found

Multimedia

Die Entstehungsgeschichte der stabilen Diffusion: Wie kam es zu diesem revolutionären Modell?

Entwicklungsprozess

Technische Architektur

Trainingsdaten und -programme

Nutzung und Streitigkeiten

Trending Knowledge

Responses

Responses