Desde 2022, a Difusão Estável emergiu rapidamente como um modelo de aprendizagem profunda de texto para imagem baseado na tecnologia de difusão. Esta tecnologia generativa de inteligência artificial lançada pela Stability AI tornou-se um produto estrela no atual boom da inteligência artificial. A difusão estável pode não apenas gerar imagens detalhadas com base em descrições de texto, mas também pode ser aplicada para reparar, estender e transformar imagens entre si, guiadas por instruções de texto. Seu desenvolvimento envolve equipes de pesquisa do grupo CompVis da Universidade Ludwig Maximilian em Munique e da Runway, e é apoiado por doações computacionais da Stability e dados de treinamento de organizações sem fins lucrativos.
A difusão estável é um modelo de difusão latente, que é um tipo de rede neural artificial generativa profunda.
A arquitetura técnica de difusão estável é muito sofisticada, consistindo principalmente de codificadores automáticos variacionais (VAE), U-Net e codificadores de texto opcionais. VAE é responsável por comprimir a imagem do espaço de pixels para um espaço latente menor para capturar o significado semântico básico da imagem. O modelo é treinado em um processo de difusão direta adicionando gradualmente ruído gaussiano. U-Net remove esses ruídos da difusão direta e restaura a representação latente.
A versão original da difusão estável usava um modelo de difusão denominado modelo de difusão latente (LDM), desenvolvido pelo grupo CompVis em 2015. O objetivo de treinamento desses modelos é remover o ruído gaussiano nas imagens de treinamento para que possam gerar imagens mais nítidas. Com a iteração das versões, a arquitetura estável e difusa também é atualizada em tempo hábil. Por exemplo, a terceira versão do SD 3.0 mudou completamente a arquitetura subjacente e usou uma nova arquitetura chamada Rectified Flow Transformer, que melhorou muito a eficiência do modelo no processamento de codificação de texto e imagem.
"O projeto de difusão estável não se concentra apenas na qualidade das imagens geradas, mas também enfatiza a eficiência computacional."
O treinamento de difusão estável depende do conjunto de dados LAION-5B, um conjunto de dados disponível publicamente que contém 5 bilhões de pares de imagens e legendas. A criação do conjunto de dados envolve extrair dados públicos da Internet e filtrá-los com base no idioma e na resolução. O objetivo final do treinamento é gerar imagens que sejam apreciadas pelos usuários, e uma variedade de métodos baseados em dados são usados no processo para melhorar a precisão e a diversidade da geração. Isso faz com que a difusão estável ocupe um lugar importante no campo da geração de imagens.
"O processo de treinamento para difusão estável demonstra como usar um conjunto de dados para otimizar a probabilidade de geração de resultados."
A difusão estável tem uma ampla gama de aplicações, desde a criação de videoarte até imagens médicas e geração de música, e a flexibilidade da tecnologia permite que ela seja facilmente adaptada a muitas situações inovadoras. Embora a versão atual tenha limitações como má geração de membros humanos em determinadas situações, com o avanço da tecnologia e atualizações de versão, espera-se que esses problemas sejam resolvidos no futuro. A versão mais recente do Stable Diffusion XL corrigiu alguns problemas de qualidade e introduziu maior resolução e recursos de geração.
"Os usuários podem superar as limitações iniciais do modelo por meio de ajustes adicionais para obter resultados gerados mais personalizados."
Apesar das incríveis conquistas técnicas da difusão estável, o uso desta tecnologia ainda requer uma consideração cuidadosa. As imagens geradas podem conter involuntariamente alguma informação inadequada ou sensível, o que levanta uma série de questões éticas. À medida que os modelos abrem gradativamente o código-fonte e permitem que os usuários utilizem as imagens geradas, como regular a aplicação dessas tecnologias e o impacto social que elas trazem tornou-se um problema urgente que precisa ser resolvido.
A difusão estável não é apenas uma inovação tecnológica profunda, mas também um espelho que reflete a cultura social. Com o desenvolvimento da tecnologia, quantas aplicações surpreendentes aparecerão no futuro?