Благодаря быстрому развитию технологий искусственного интеллекта в 2022 году была официально представлена Stable Diffusion — модель глубокого обучения по преобразованию текста в изображение, которая быстро привлекла широкое внимание сообщества. Эта революционная модель может не только генерировать подробные изображения на основе текстовых описаний, но и применяться для решения множества других задач, таких как закрашивание и перекрашивание. р>
За стабильной диффузией стоит результат совместного сотрудничества команды CompVis из Мюнхенского университета Людвига-Максимилиана (Германия) и исследователей из Runway. Модель была разработана при поддержке Stability AI и использует большой объем данных для обучения от некоммерческих организаций, что делает эту инновацию работающей на большинстве потребительских аппаратных средств, в отличие от предыдущих профессиональных моделей, которые были доступны только через облачные сервисы. Существуют text-to- Модели изображений, такие как DALL-E и Midjourney, резко контрастируют. р>
Появление стабильной диффузии знаменует собой новую революцию в искусственном интеллекте и может привести к появлению более инновационных и удобных способов творения в будущем. р>
Стабильная диффузия возникла в результате проекта под названием «Скрытая диффузия», разработанного исследователями из Мюнхенского университета Людвига-Максимилиана и Гейдельбергского университета. Четыре первоначальных автора проекта впоследствии присоединились к Stability AI и выпустили последующие версии Stable Diffusion. Команда CompVis выпустила техническую лицензию на модель. р>
Основными членами команды разработчиков являются Патрик Эссер из Runway и Робин Ромбах из CompVis, которые изобрели структуру модели скрытой диффузии, использовавшуюся в ранние годы стабильной диффузией. Проект также поддерживается EleutherAI и LAION, немецкой некоммерческой организацией, отвечающей за организацию стабильных диффузионных обучающих данных. р>
Модель стабильной диффузии использует архитектуру, называемую моделью скрытой диффузии (LDM), которая была предложена в 2015 году для обучения модели путем постепенного удаления гауссовского шума. Этот процесс включает в себя сжатие изображения из пиксельного пространства в меньшее скрытое пространство, тем самым фиксируя более базовое семантическое значение изображения. р>
Stable Diffusion состоит из трех частей: вариационного автокодировщика (VAE), U-Net и дополнительного текстового кодировщика. р>
Кодер VAE сжимает изображение в скрытое пространство, в то время как U-Net шумоподавляет выходное скрытое представление. Наконец, декодер VAE преобразует представление обратно в пиксельное пространство. Шаг шумоподавления в этом процессе можно гибко настраивать на основе текста, изображений или других параметров. р>
StableDiffusion обучается на наборе данных LAION-5B, общедоступном наборе данных из 5 миллиардов пар «изображение-текст», отсортированных по языку. Последняя версия обучения, SD 3.0, знаменует собой полную переработку базовой архитектуры с улучшенной структурой анализа и повышенной детализацией и точностью генерации. р>
Модель стабильной диффузии позволяет пользователям создавать совершенно новые изображения и изменять существующие изображения на основе текстовых подсказок. Однако использование этой технологии также вызвало некоторые споры с точки зрения интеллектуальной собственности и этики, особенно с учетом того, что исходные данные для обучения модели содержат большой объем частной и конфиденциальной информации. Кроме того, поскольку модель в основном обучается с использованием данных на английском языке, сгенерированные изображения могут быть предвзятыми в зависимости от различного культурного происхождения. р>
Сможет ли стабильная диффузия сбалансировать технологическое применение и социальное воздействие — это вопрос, который предстоит решить, и это важный тест для будущего развития? р>