Language

Arabic
العربية

Chinese
中文

香港繁體
Traditional Chinese

臺灣正體
Traditional Chinese

English
English

French
Français

German
Deutsch

Italian
Italiano

Indonesian
Bahasa Indonesia

Japanese
日本語

Korean
한국어

Portuguese
Português

Russian
Русский

Spanish
español

Vietnamese
Tiếng Việt

Country/Area

Antigua and Barbuda
Antigua and Barbuda

Bosnia and Herzegovina
Bosna i Hercegovina

Central African Republic
République Centrafricaine

Congo, Democratic Republic of the
République Démocratique du Congo

Congo, Republic of the
République du Congo

Côte d'Ivoire
Côte d'Ivoire

Czech Republic
Česká republika

Dominican Republic
República Dominicana

Equatorial Guinea
Guinea Ecuatorial

Marshall Islands
Aolepān Aorōkin M̧ajeļ

North Macedonia
Северна Македонија

Papua New Guinea
Papua Niugini

Saint Kitts and Nevis
Saint Kitts and Nevis

Saint Vincent and the Grenadines
Saint Vincent and the Grenadines

Sao Tome and Principe
São Tomé e Príncipe

Saudi Arabia
المملكة العربية السعودية

Solomon Islands
Solomon Islands

Sri Lanka
ශ්‍රී ලංකාව

South Sudan
جنوب السودان

Trinidad and Tobago
Trinidad and Tobago

United Arab Emirates
الإمارات العربية المتحدة

United Kingdom
United Kingdom

Vatican City
Città del Vaticano

Language
Country/Area

Arabic
العربية

Chinese
中文

中国简体
Simplified Chinese

香港繁體
Traditional Chinese

臺灣正體
Traditional Chinese

English
English

French
Français

German
Deutsch

Italian
Italiano

Indonesian
Bahasa Indonesia

Japanese
日本語

Korean
한국어

Portuguese
Português

Russian
Русский

Spanish
español

Vietnamese
Tiếng Việt

Antigua and Barbuda
Antigua and Barbuda

The Bahamas
The Bahamas

Bosnia and Herzegovina
Bosna i Hercegovina

Burkina Faso
Burkina Faso

Cape Verde
Cape Verde

Central African Republic
République Centrafricaine

Congo, Democratic Republic of the
République Démocratique du Congo

Congo, Republic of the
République du Congo

Costa Rica
Costa Rica

Côte d'Ivoire
Côte d'Ivoire

Czech Republic
Česká republika

Dominican Republic
República Dominicana

El Salvador
El Salvador

Equatorial Guinea
Guinea Ecuatorial

The Gambia
The Gambia

Marshall Islands
Aolepān Aorōkin M̧ajeļ

North Macedonia
Северна Македонија

Papua New Guinea
Papua Niugini

Saint Kitts and Nevis
Saint Kitts and Nevis

Saint Lucia
Saint Lucia

Saint Vincent and the Grenadines
Saint Vincent and the Grenadines

San Marino
San Marino

Sao Tome and Principe
São Tomé e Príncipe

Saudi Arabia
المملكة العربية السعودية

Sierra Leone
Sierra Leone

Solomon Islands
Solomon Islands

South Africa
South Africa

Sri Lanka
ශ්‍රී ලංකාව

South Sudan
جنوب السودان

Trinidad and Tobago
Trinidad and Tobago

United Arab Emirates
الإمارات العربية المتحدة

United Kingdom
United Kingdom

United States
United States

Vatican City
Città del Vaticano

A magia cada vez mais disseminada do aprendizado profundo: por que ele funciona em hardware doméstico?

Com o rápido crescimento da inteligência artificial generativa, o Stable Diffusion é, sem dúvida, um produto estrela que atrai a atenção. Desde o seu lançamento em 2022, este modelo de conversão de texto em imagem de aprendizagem profunda baseado em tecnologia de difusão não só surpreendeu os usuários com seus recursos detalhados de geração de imagens, mas também rompeu a abordagem baseada em serviços em nuvem, permitindo que consumidores comuns usem hardware em casa. Como é alcançada essa inovação tecnológica?

Formação técnica

A difusão estável foi desenvolvida por pesquisadores do grupo CompVis da Ludwig-Maximilians-University em Munique e Runway.

A difusão estável é uma rede neural artificial generativa profunda chamada modelo de difusão latente. Seu processo de desenvolvimento requer muitos recursos computacionais, mas seu código aberto e pesos de modelo tornam essa tecnologia facilmente acessível a mais e mais pessoas. Em comparação com modelos proprietários de texto para imagem, como DALL-E e Midjourney, que anteriormente só estavam disponíveis através de serviços em nuvem, a chegada da difusão estável permite que usuários com GPUs comuns aproveitem a mais recente tecnologia de inteligência artificial.

Arquitetura e desempenho

A arquitetura de difusão estável consiste em três componentes principais: autoencoders variacionais (VAEs), U-Nets e codificadores de texto opcionais. Através da poderosa estrutura U-Net, o modelo é capaz de recuperar imagens nítidas de representações codificadas contendo ruído gaussiano, um processo denominado remoção de ruído. Para muitos usuários, as operações do U-Net e do codificador com muitos parâmetros são intensivas, mas a relativa leveza da difusão estável o torna uma escolha adequada para uso pessoal.

A difusão estável atinge uma otimização de 8,6 milhões de parâmetros no modo de imagem gerado e pode ser executada em GPUs de consumo.

Fontes de dados e processo de treinamento

Os dados de treinamento para difusão estável vêm do conjunto de dados LAION-5B, que contém 500 milhões de pares de imagens e legendas anotadas, filtrados para garantir a qualidade e diversidade dos dados. Os desenvolvedores usaram esses dados seletivamente durante o processo de treinamento e conduziram várias rodadas de treinamento de aprendizado profundo para melhorar as capacidades de geração do modelo.

Recursos fáceis de usar

A difusão estável não apenas gera imagens, mas também suporta modificação de imagens, incluindo conclusão e expansão. Os usuários podem orientar o processo de geração de imagens por meio de instruções de texto. Esse recurso torna relativamente fácil para os usuários concretizarem suas próprias ideias.

Muitas interfaces amigáveis de código aberto, como DreamStudio e AUTOMATIC1111, fornecem funcionalidades ricas, facilitando o uso dessa tecnologia pelos usuários, independentemente do conhecimento técnico.

Desafios de ajustabilidade e preconceito

Embora a difusão estável apresente excelente desempenho em todos os aspectos, ainda existem alguns desafios na operação. Por exemplo, como o modelo é treinado principalmente com base em dados rotulados em inglês, as imagens geradas são frequentemente tendenciosas para a cultura ocidental e sub-representativas de outras culturas.

Os criadores reconhecem que o modelo pode sofrer de viés algorítmico, que é um dos desafios que precisarão ser superados no futuro.

Conclusão

Em suma, o surgimento da difusão estável proporciona uma nova visão para a tecnologia de aprendizagem profunda. Ela não apenas populariza a tecnologia de ponta, mas também estimula a colisão de ideias. Como uma tecnologia de aprendizagem profunda que pode ser executada em hardware comum de consumo, pode haver mais inovações e aplicações no futuro. Como é que esta tecnologia moldará a forma como criamos e abrirá novas possibilidades?

Trending Knowledge

A história da origem da difusão estável: como surgiu esse modelo revolucionário?

Com o rápido desenvolvimento da tecnologia de inteligência artificial, o Stable Diffusion, um modelo de aprendizado profundo de texto para imagem, foi lançado oficialmente em 2022 e rapidamente atraiu

O segredo tecnológico por trás da proliferação constante: como ela transforma palavras em imagens impressionantes?

Desde 2022, a Difusão Estável emergiu rapidamente como um modelo de aprendizagem profunda de texto para imagem baseado na tecnologia de difusão. Esta tecnologia generativa de inteligência artificial l

Multimedia

A magia cada vez mais disseminada do aprendizado profundo: por que ele funciona em hardware doméstico?

Formação técnica

Arquitetura e desempenho

Fontes de dados e processo de treinamento

Recursos fáceis de usar

Desafios de ajustabilidade e preconceito

Conclusão

Trending Knowledge

Responses

Language

Country/Area

No result found

Multimedia

A magia cada vez mais disseminada do aprendizado profundo: por que ele funciona em hardware doméstico?

Formação técnica

Arquitetura e desempenho

Fontes de dados e processo de treinamento

Recursos fáceis de usar

Desafios de ajustabilidade e preconceito

Conclusão

Trending Knowledge

Responses

Responses