Com o rápido crescimento da inteligência artificial generativa, o Stable Diffusion é, sem dúvida, um produto estrela que atrai a atenção. Desde o seu lançamento em 2022, este modelo de conversão de texto em imagem de aprendizagem profunda baseado em tecnologia de difusão não só surpreendeu os usuários com seus recursos detalhados de geração de imagens, mas também rompeu a abordagem baseada em serviços em nuvem, permitindo que consumidores comuns usem hardware em casa. Como é alcançada essa inovação tecnológica?
Formação técnica
A difusão estável foi desenvolvida por pesquisadores do grupo CompVis da Ludwig-Maximilians-University em Munique e Runway.
A difusão estável é uma rede neural artificial generativa profunda chamada modelo de difusão latente. Seu processo de desenvolvimento requer muitos recursos computacionais, mas seu código aberto e pesos de modelo tornam essa tecnologia facilmente acessível a mais e mais pessoas. Em comparação com modelos proprietários de texto para imagem, como DALL-E e Midjourney, que anteriormente só estavam disponíveis através de serviços em nuvem, a chegada da difusão estável permite que usuários com GPUs comuns aproveitem a mais recente tecnologia de inteligência artificial.
Arquitetura e desempenho
A arquitetura de difusão estável consiste em três componentes principais: autoencoders variacionais (VAEs), U-Nets e codificadores de texto opcionais. Através da poderosa estrutura U-Net, o modelo é capaz de recuperar imagens nítidas de representações codificadas contendo ruído gaussiano, um processo denominado remoção de ruído. Para muitos usuários, as operações do U-Net e do codificador com muitos parâmetros são intensivas, mas a relativa leveza da difusão estável o torna uma escolha adequada para uso pessoal.
A difusão estável atinge uma otimização de 8,6 milhões de parâmetros no modo de imagem gerado e pode ser executada em GPUs de consumo.
Fontes de dados e processo de treinamento
Os dados de treinamento para difusão estável vêm do conjunto de dados LAION-5B, que contém 500 milhões de pares de imagens e legendas anotadas, filtrados para garantir a qualidade e diversidade dos dados. Os desenvolvedores usaram esses dados seletivamente durante o processo de treinamento e conduziram várias rodadas de treinamento de aprendizado profundo para melhorar as capacidades de geração do modelo.
Recursos fáceis de usar
A difusão estável não apenas gera imagens, mas também suporta modificação de imagens, incluindo conclusão e expansão. Os usuários podem orientar o processo de geração de imagens por meio de instruções de texto. Esse recurso torna relativamente fácil para os usuários concretizarem suas próprias ideias.
Muitas interfaces amigáveis de código aberto, como DreamStudio e AUTOMATIC1111, fornecem funcionalidades ricas, facilitando o uso dessa tecnologia pelos usuários, independentemente do conhecimento técnico.
Desafios de ajustabilidade e preconceito
Embora a difusão estável apresente excelente desempenho em todos os aspectos, ainda existem alguns desafios na operação. Por exemplo, como o modelo é treinado principalmente com base em dados rotulados em inglês, as imagens geradas são frequentemente tendenciosas para a cultura ocidental e sub-representativas de outras culturas.
Os criadores reconhecem que o modelo pode sofrer de viés algorítmico, que é um dos desafios que precisarão ser superados no futuro.
Conclusão
Em suma, o surgimento da difusão estável proporciona uma nova visão para a tecnologia de aprendizagem profunda. Ela não apenas populariza a tecnologia de ponta, mas também estimula a colisão de ideias. Como uma tecnologia de aprendizagem profunda que pode ser executada em hardware comum de consumo, pode haver mais inovações e aplicações no futuro. Como é que esta tecnologia moldará a forma como criamos e abrirá novas possibilidades?