История возникновения стабильной диффузии: как возникла эта революционная модель?

Благодаря быстрому развитию технологий искусственного интеллекта в 2022 году была официально представлена ​​Stable Diffusion — модель глубокого обучения по преобразованию текста в изображение, которая быстро привлекла широкое внимание сообщества. Эта революционная модель может не только генерировать подробные изображения на основе текстовых описаний, но и применяться для решения множества других задач, таких как закрашивание и перекрашивание.

За стабильной диффузией стоит результат совместного сотрудничества команды CompVis из Мюнхенского университета Людвига-Максимилиана (Германия) и исследователей из Runway. Модель была разработана при поддержке Stability AI и использует большой объем данных для обучения от некоммерческих организаций, что делает эту инновацию работающей на большинстве потребительских аппаратных средств, в отличие от предыдущих профессиональных моделей, которые были доступны только через облачные сервисы. Существуют text-to- Модели изображений, такие как DALL-E и Midjourney, резко контрастируют.

Появление стабильной диффузии знаменует собой новую революцию в искусственном интеллекте и может привести к появлению более инновационных и удобных способов творения в будущем.

Процесс разработки

Стабильная диффузия возникла в результате проекта под названием «Скрытая диффузия», разработанного исследователями из Мюнхенского университета Людвига-Максимилиана и Гейдельбергского университета. Четыре первоначальных автора проекта впоследствии присоединились к Stability AI и выпустили последующие версии Stable Diffusion. Команда CompVis выпустила техническую лицензию на модель.

Основными членами команды разработчиков являются Патрик Эссер из Runway и Робин Ромбах из CompVis, которые изобрели структуру модели скрытой диффузии, использовавшуюся в ранние годы стабильной диффузией. Проект также поддерживается EleutherAI и LAION, немецкой некоммерческой организацией, отвечающей за организацию стабильных диффузионных обучающих данных.

Техническая архитектура

Модель стабильной диффузии использует архитектуру, называемую моделью скрытой диффузии (LDM), которая была предложена в 2015 году для обучения модели путем постепенного удаления гауссовского шума. Этот процесс включает в себя сжатие изображения из пиксельного пространства в меньшее скрытое пространство, тем самым фиксируя более базовое семантическое значение изображения.

Stable Diffusion состоит из трех частей: вариационного автокодировщика (VAE), U-Net и дополнительного текстового кодировщика.

Кодер VAE сжимает изображение в скрытое пространство, в то время как U-Net шумоподавляет выходное скрытое представление. Наконец, декодер VAE преобразует представление обратно в пиксельное пространство. Шаг шумоподавления в этом процессе можно гибко настраивать на основе текста, изображений или других параметров.

Данные и программы обучения

StableDiffusion обучается на наборе данных LAION-5B, общедоступном наборе данных из 5 миллиардов пар «изображение-текст», отсортированных по языку. Последняя версия обучения, SD 3.0, знаменует собой полную переработку базовой архитектуры с улучшенной структурой анализа и повышенной детализацией и точностью генерации.

Использование и споры

Модель стабильной диффузии позволяет пользователям создавать совершенно новые изображения и изменять существующие изображения на основе текстовых подсказок. Однако использование этой технологии также вызвало некоторые споры с точки зрения интеллектуальной собственности и этики, особенно с учетом того, что исходные данные для обучения модели содержат большой объем частной и конфиденциальной информации. Кроме того, поскольку модель в основном обучается с использованием данных на английском языке, сгенерированные изображения могут быть предвзятыми в зависимости от различного культурного происхождения.

Сможет ли стабильная диффузия сбалансировать технологическое применение и социальное воздействие — это вопрос, который предстоит решить, и это важный тест для будущего развития?

Trending Knowledge

Постоянно распространяющаяся магия глубокого обучения: почему она работает на домашнем оборудовании?
С учетом быстрого развития генеративного искусственного интеллекта Stable Diffusion, несомненно, является привлекательным звездным продуктом. С момента своего запуска в 2022 году эта модель глубокого
Технологический секрет устойчивого распространения: как слова превращаются в потрясающие изображения?
С 2022 года Stable Diffusion быстро превратилась в модель глубокого обучения преобразования текста в изображение, основанную на технологии диффузии. Эта генеративная технология искусственного интеллек

Responses