Com o rápido desenvolvimento da tecnologia de inteligência artificial, o Stable Diffusion, um modelo de aprendizado profundo de texto para imagem, foi lançado oficialmente em 2022 e rapidamente atraiu ampla atenção na comunidade. Este modelo revolucionário não só pode gerar imagens detalhadas com base em descrições de texto, mas também pode ser aplicado a uma variedade de outras tarefas, como pintura interna e externa.
Por trás da difusão estável está o resultado de uma colaboração conjunta entre a equipe CompVis da Universidade Ludwig Maximilian em Munique, Alemanha, e pesquisadores da Runway. O modelo foi desenvolvido com o suporte da Stability AI e usa uma grande quantidade de dados de treinamento de organizações sem fins lucrativos, fazendo com que essa inovação funcione na maioria dos hardwares de consumo, diferentemente dos modelos profissionais anteriores que eram acessíveis apenas por meio de serviços em nuvem. Existem text-to- modelos de imagem como DALL-E e Midjourney em forte contraste.
O surgimento da difusão estável marca uma nova revolução na inteligência artificial e pode levar a formas mais inovadoras e convenientes de criação no futuro.
A difusão estável originou-se de um projeto chamado Difusão Latente, desenvolvido por pesquisadores da Ludwig-Maximilians-Universität Munich e da Universidade de Heidelberg. Os quatro autores originais do projeto posteriormente se juntaram à Stability AI e lançaram versões subsequentes do Stable Diffusion. A equipe CompVis lançou uma licença técnica para o modelo.
Os principais membros da equipe de desenvolvimento incluem Patrick Esser da Runway e Robin Rombach da CompVis, que inventaram a estrutura do modelo de difusão latente usada pela difusão estável nos primeiros dias. O projeto também é apoiado pela EleutherAI e pela LAION, uma organização sem fins lucrativos alemã responsável por organizar dados estáveis de treinamento de difusão.
O modelo de difusão estável usa uma arquitetura chamada Modelo de Difusão Latente (LDM), que foi proposta em 2015 para treinar o modelo removendo gradualmente o ruído gaussiano. Esse processo envolve a compressão da imagem do espaço de pixels para um espaço latente menor, capturando assim o significado semântico mais básico da imagem.
A difusão estável consiste em três partes: Autocodificador Variacional (VAE), U-Net e um codificador de texto opcional.
O codificador VAE comprime a imagem em um espaço latente, enquanto o U-Net reduz o ruído da representação latente de saída. Por fim, o decodificador VAE converte a representação de volta para o espaço de pixels. A etapa de redução de ruído neste processo pode ser ajustada de forma flexível com base em texto, imagens ou outras modalidades.
O StableDiffusion é treinado no conjunto de dados LAION-5B, um conjunto de dados público de 5 bilhões de pares de imagem e texto filtrados por idioma. A versão mais recente do treinamento, SD 3.0, marca uma revisão completa da arquitetura principal, com uma estrutura de análise aprimorada e detalhes e precisão de geração aprimorados.
O modelo de difusão estável permite que os usuários gerem imagens completamente novas e modifiquem imagens existentes com base em instruções textuais. No entanto, o uso dessa tecnologia também causou alguma controvérsia em termos de propriedade intelectual e ética, especialmente porque os dados de treinamento inicial do modelo contêm uma grande quantidade de informações privadas e confidenciais. Além disso, como o modelo é treinado principalmente usando dados em inglês, as imagens geradas podem ser tendenciosas em diferentes origens culturais.
Será que a difusão estável pode equilibrar a aplicação tecnológica e o impacto social será uma questão a ser resolvida, e este é um teste importante para o desenvolvimento futuro?