2022년부터 Stable Diffusion은 확산 기술을 기반으로 한 딥러닝 텍스트-이미지 변환 모델로 빠르게 등장했습니다. Stability AI가 출시한 이 생성적 인공지능 기술은 현재 인공지능 붐의 핵심 제품이 되었습니다. 안정적인 확산은 텍스트 설명을 기반으로 상세한 이미지를 생성할 수 있을 뿐만 아니라 텍스트 프롬프트에 따라 이미지를 서로 수정, 확장 및 변환하는 데에도 적용할 수 있습니다. 개발에는 뮌헨의 Ludwig Maximilian University 및 Runway의 CompVis 그룹 연구팀이 참여했으며 Stability의 컴퓨터 기부와 비영리 단체의 교육 데이터를 통해 지원됩니다.
안정 확산은 심층 생성 인공 신경망의 일종인 잠재 확산 모델입니다.
안정적 확산의 기술 아키텍처는 매우 정교하며 주로 VAE(변형 자동 인코더), U-Net 및 선택적 텍스트 인코더로 구성됩니다. VAE는 이미지의 기본 의미를 포착하기 위해 이미지를 픽셀 공간에서 더 작은 잠재 공간으로 압축하는 역할을 합니다. 모델은 점진적으로 가우스 노이즈를 추가하여 순방향 확산 프로세스로 학습됩니다. U-Net은 순방향 확산에서 이러한 노이즈를 제거하고 잠재 표현을 복원합니다.
안정 확산의 원래 버전은 2015년 CompVis 그룹에서 개발한 LDM(잠재 확산 모델)이라는 확산 모델을 사용했습니다. 이러한 모델의 학습 목표는 학습 이미지에서 가우스 노이즈를 제거하여 더 선명한 이미지를 생성하는 것입니다. 버전이 반복되면서 안정적이고 확산된 아키텍처도 적시에 업데이트됩니다. 예를 들어, SD 3.0의 세 번째 버전은 기본 아키텍처를 완전히 변경하고 Rectified Flow Transformer라는 새로운 아키텍처를 사용하여 텍스트 및 이미지 인코딩 처리에서 모델의 효율성을 크게 향상시켰습니다.
"안정적인 확산 설계는 생성된 이미지의 품질에 중점을 둘 뿐만 아니라 계산 효율성도 강조합니다."
안정적인 확산 훈련은 50억 개의 이미지와 캡션 쌍이 포함된 공개적으로 사용 가능한 데이터세트인 LAION-5B 데이터세트를 사용합니다. 데이터 세트 생성에는 인터넷에서 공개 데이터를 스크랩하고 언어와 해상도를 기준으로 필터링하는 작업이 포함됩니다. 트레이닝의 궁극적인 목표는 사용자에게 사랑받는 이미지를 생성하는 것이며, 그 과정에서 데이터 기반의 다양한 방법을 사용하여 생성의 정확성과 다양성을 향상시킵니다. 이로 인해 안정적인 확산이 이미지 생성 분야에서 중요한 위치를 차지하게 됩니다.
"안정적인 확산을 위한 훈련 과정은 데이터 세트를 사용하여 결과 생성 가능성을 최적화하는 방법을 보여줍니다."
안정적인 확산은 비디오 아트 제작부터 의료 이미지 및 음악 생성까지 광범위한 응용 분야를 갖고 있으며, 기술의 유연성을 통해 여러 혁신적인 상황에 쉽게 적응할 수 있습니다. 현재 버전은 특정 상황에서 인간의 팔다리 생성이 잘 안 되는 등의 한계가 있지만, 기술 발전과 버전 업데이트를 통해 이러한 문제는 향후 해결될 것으로 예상된다. Stable Diffusion XL의 최신 버전은 일부 품질 문제를 해결하고 더 높은 해상도와 생성 기능을 도입했습니다.
"사용자는 더욱 개인화된 출력을 얻기 위해 추가 미세 조정을 통해 모델의 초기 한계를 극복할 수 있습니다."
안정적인 확산이라는 놀라운 기술적 성과에도 불구하고 이 기술을 사용하려면 여전히 신중한 고려가 필요합니다. 생성된 이미지에는 의도치 않게 부적절하거나 민감한 정보가 포함될 수 있으며, 이는 일련의 윤리적 문제를 야기합니다. 모델이 점차 소스 코드를 공개하고 사용자가 생성된 이미지를 사용할 수 있게 되면서 이러한 기술의 적용과 그것이 가져오는 사회적 영향을 규제하는 방법은 해결해야 할 시급한 문제가 되었습니다.
안정적인 확산은 심오한 기술 혁신일 뿐만 아니라 사회 문화를 반영하는 거울이기도 합니다. 기술이 더욱 발전하면 앞으로 얼마나 놀라운 응용 프로그램이 나타날까요?