Con el rápido desarrollo de la tecnología de inteligencia artificial, Stable Diffusion, un modelo de texto a imagen de aprendizaje profundo, se lanzó oficialmente en 2022 y rápidamente atrajo la atención generalizada de la comunidad. Este modelo revolucionario no sólo puede generar imágenes detalladas basadas en descripciones de texto, sino que también puede aplicarse a una variedad de otras tareas, como por ejemplo, pintar para dentro y para fuera.
Detrás de la difusión estable se encuentra el resultado de una colaboración conjunta entre el equipo CompVis de la Universidad Ludwig Maximilian de Múnich, Alemania, e investigadores de Runway. El modelo se desarrolló con el apoyo de Stability AI y utiliza una gran cantidad de datos de entrenamiento de organizaciones sin fines de lucro, lo que hace que esta innovación funcione en la mayoría del hardware de consumo, a diferencia de los modelos profesionales anteriores a los que solo se podía acceder a través de servicios en la nube. modelos de imagen como DALL-E y Midjourney en marcado contraste.La aparición de la difusión estable marca una nueva revolución en la inteligencia artificial y puede conducir a formas de creación más innovadoras y convenientes en el futuro.
El modelo de difusión estable utiliza una arquitectura llamada Modelo de Difusión Latente (LDM), que se propuso en 2015 para entrenar el modelo eliminando gradualmente el ruido gaussiano. Este proceso implica comprimir la imagen desde el espacio de píxeles a un espacio latente más pequeño, capturando así el significado semántico más básico de la imagen.
El codificador VAE comprime la imagen en un espacio latente, mientras que U-Net elimina el ruido de la representación latente de salida. Finalmente, el decodificador VAE convierte la representación nuevamente al espacio de píxeles. El paso de eliminación de ruido en este proceso se puede ajustar de forma flexible en función del texto, las imágenes u otras modalidades.Stable Diffusion consta de tres partes: Autocodificador Variacional (VAE), U-Net y un codificador de texto opcional.
StableDiffusion está entrenado en el conjunto de datos LAION-5B, un conjunto de datos público de 5 mil millones de pares de imágenes y textos filtrados por idioma. La última versión de entrenamiento, SD 3.0, marca una revisión completa de la arquitectura central, con una estructura de análisis mejorada y mayor precisión y detalle de generación.
El modelo de difusión estable permite a los usuarios generar imágenes completamente nuevas y modificar imágenes existentes basándose en indicaciones textuales. Sin embargo, el uso de esta tecnología también ha provocado cierta controversia en términos de propiedad intelectual y ética, especialmente porque los datos de entrenamiento iniciales del modelo contienen una gran cantidad de información privada y sensible. Además, dado que el modelo se entrena principalmente con datos en inglés, las imágenes generadas pueden estar sesgadas en diferentes contextos culturales.
¿Podrá la difusión estable equilibrar la aplicación tecnológica y el impacto social será una cuestión por resolver y constituye una prueba importante para el desarrollo futuro?