Language

Arabic
العربية

Chinese
中文

香港繁體
Traditional Chinese

臺灣正體
Traditional Chinese

English
English

French
Français

German
Deutsch

Italian
Italiano

Indonesian
Bahasa Indonesia

Japanese
日本語

Korean
한국어

Portuguese
Português

Russian
Русский

Spanish
español

Vietnamese
Tiếng Việt

Country/Area

Antigua and Barbuda
Antigua and Barbuda

Bosnia and Herzegovina
Bosna i Hercegovina

Central African Republic
République Centrafricaine

Congo, Democratic Republic of the
République Démocratique du Congo

Congo, Republic of the
République du Congo

Côte d'Ivoire
Côte d'Ivoire

Czech Republic
Česká republika

Dominican Republic
República Dominicana

Equatorial Guinea
Guinea Ecuatorial

Marshall Islands
Aolepān Aorōkin M̧ajeļ

North Macedonia
Северна Македонија

Papua New Guinea
Papua Niugini

Saint Kitts and Nevis
Saint Kitts and Nevis

Saint Vincent and the Grenadines
Saint Vincent and the Grenadines

Sao Tome and Principe
São Tomé e Príncipe

Saudi Arabia
المملكة العربية السعودية

Solomon Islands
Solomon Islands

Sri Lanka
ශ්‍රී ලංකාව

South Sudan
جنوب السودان

Trinidad and Tobago
Trinidad and Tobago

United Arab Emirates
الإمارات العربية المتحدة

United Kingdom
United Kingdom

Vatican City
Città del Vaticano

Language
Country/Area

Arabic
العربية

Chinese
中文

中国简体
Simplified Chinese

香港繁體
Traditional Chinese

臺灣正體
Traditional Chinese

English
English

French
Français

German
Deutsch

Italian
Italiano

Indonesian
Bahasa Indonesia

Japanese
日本語

Korean
한국어

Portuguese
Português

Russian
Русский

Spanish
español

Vietnamese
Tiếng Việt

Antigua and Barbuda
Antigua and Barbuda

The Bahamas
The Bahamas

Bosnia and Herzegovina
Bosna i Hercegovina

Burkina Faso
Burkina Faso

Cape Verde
Cape Verde

Central African Republic
République Centrafricaine

Congo, Democratic Republic of the
République Démocratique du Congo

Congo, Republic of the
République du Congo

Costa Rica
Costa Rica

Côte d'Ivoire
Côte d'Ivoire

Czech Republic
Česká republika

Dominican Republic
República Dominicana

El Salvador
El Salvador

Equatorial Guinea
Guinea Ecuatorial

The Gambia
The Gambia

Marshall Islands
Aolepān Aorōkin M̧ajeļ

North Macedonia
Северна Македонија

Papua New Guinea
Papua Niugini

Saint Kitts and Nevis
Saint Kitts and Nevis

Saint Lucia
Saint Lucia

Saint Vincent and the Grenadines
Saint Vincent and the Grenadines

San Marino
San Marino

Sao Tome and Principe
São Tomé e Príncipe

Saudi Arabia
المملكة العربية السعودية

Sierra Leone
Sierra Leone

Solomon Islands
Solomon Islands

South Africa
South Africa

Sri Lanka
ශ්‍රී ලංකාව

South Sudan
جنوب السودان

Trinidad and Tobago
Trinidad and Tobago

United Arab Emirates
الإمارات العربية المتحدة

United Kingdom
United Kingdom

United States
United States

Vatican City
Città del Vaticano

La magie du deep learning qui se répand sans cesse : pourquoi cela fonctionne-t-il sur le matériel domestique ?

Avec l’essor rapide de l’intelligence artificielle générative, Stable Diffusion est sans aucun doute un produit star qui attire l’attention. Depuis son lancement en 2022, ce modèle de conversion texte-image d'apprentissage profond basé sur la technologie de diffusion a non seulement étonné les utilisateurs avec ses capacités de génération d'images détaillées, mais a également brisé l'approche basée sur les services cloud, permettant aux consommateurs ordinaires d'utiliser du matériel. à la maison. Comment une telle innovation technologique est-elle réalisée ?

Contexte technique

La diffusion stable a été développée par des chercheurs du groupe CompVis de l'université Ludwig-Maximilians de Munich et Runway.

La diffusion stable est un réseau neuronal artificiel génératif profond appelé modèle de diffusion latente. Son processus de développement nécessite beaucoup de ressources informatiques, mais son code ouvert et les poids de son modèle rendent cette technologie facilement accessible à de plus en plus de personnes. Par rapport aux modèles propriétaires de conversion texte-image tels que DALL-E et Midjourney, qui n'étaient auparavant disponibles que via les services cloud, l'arrivée d'une diffusion stable permet aux utilisateurs équipés de GPU ordinaires de profiter de la dernière technologie d'intelligence artificielle.

Architecture et performances

L'architecture de diffusion stable se compose de trois composants principaux : les auto-encodeurs variationnels (VAE), les U-Nets et les encodeurs de texte facultatifs. Grâce au puissant framework U-Net, le modèle est capable de récupérer des images claires à partir de représentations codées contenant du bruit gaussien, un processus appelé débruitage. Pour de nombreux utilisateurs, les opérations U-Net et encodeur, riches en paramètres, sont intensives, mais la relative légèreté de la diffusion stable en fait un choix approprié pour un usage personnel.

La diffusion stable permet d'optimiser 8,6 millions de paramètres en mode image générée et peut fonctionner sur des GPU grand public.

Sources de données et processus de formation

Les données d'entraînement pour une diffusion stable proviennent de l'ensemble de données LAION-5B, qui contient 500 millions de paires d'images et de légendes annotées, filtrées pour garantir la qualité et la diversité des données. Les développeurs ont utilisé ces données de manière sélective pendant le processus de formation et ont mené plusieurs cycles de formation en apprentissage profond pour améliorer les capacités de génération du modèle.

Fonctionnalités conviviales

Une diffusion stable génère non seulement des images, mais prend également en charge la modification des images, y compris leur complétion et leur expansion. Les utilisateurs peuvent guider le processus de génération d'images via des invites textuelles. Cette fonctionnalité permet aux utilisateurs de réaliser relativement facilement leurs propres idées.

De nombreuses interfaces conviviales open source telles que DreamStudio et AUTOMATIC1111 offrent des fonctionnalités riches, permettant aux utilisateurs, quelle que soit leur formation technique, d'utiliser facilement cette technologie.

Défis d'ajustement et de biais

Bien que la diffusion stable présente d’excellentes performances à tous égards, son fonctionnement reste néanmoins problématique. Par exemple, étant donné que le modèle est principalement formé sur la base de données étiquetées en anglais, les images générées sont souvent biaisées en faveur de la culture occidentale et sous-représentatives des autres cultures.

Les créateurs reconnaissent que le modèle peut souffrir de biais algorithmiques, ce qui constitue l'un des défis qu'il faudra surmonter à l'avenir.

Conclusion

En bref, l'émergence d'une diffusion stable offre une nouvelle vision de la technologie d'apprentissage profond. Elle popularise non seulement les technologies de pointe, mais stimule également la collision d'idées. En tant que technologie d'apprentissage profond pouvant fonctionner sur du matériel grand public ordinaire, il pourrait y avoir davantage d'innovations et d'applications à l'avenir. Comment cette technologie façonnera-t-elle notre façon de créer et ouvrira-t-elle de nouvelles possibilités ?

Trending Knowledge

L’histoire de l’origine de la diffusion stable : comment ce modèle révolutionnaire est-il né ?

Avec le développement rapide de la technologie de l'intelligence artificielle, Stable Diffusion, un modèle d'apprentissage profond de texte en image, a été officiellement publié en 2022 et a rapidemen

Le secret technologique derrière une prolifération constante : comment transforme-t-elle les mots en images époustouflantes ?

Depuis 2022, Stable Diffusion s'est rapidement imposé comme un modèle d'apprentissage profond texte-image basé sur la technologie de diffusion. Cette technologie d’intelligence artificielle générative

Multimedia

La magie du deep learning qui se répand sans cesse : pourquoi cela fonctionne-t-il sur le matériel domestique ?

Contexte technique

Architecture et performances

Sources de données et processus de formation

Fonctionnalités conviviales

Défis d'ajustement et de biais

Conclusion

Trending Knowledge

Responses

Language

Country/Area

No result found

Multimedia

La magie du deep learning qui se répand sans cesse : pourquoi cela fonctionne-t-il sur le matériel domestique ?

Contexte technique

Architecture et performances

Sources de données et processus de formation

Fonctionnalités conviviales

Défis d'ajustement et de biais

Conclusion

Trending Knowledge

Responses

Responses