Dengan pesatnya perkembangan teknologi kecerdasan buatan, Stable Diffusion, model pembelajaran mendalam text-to-image, resmi dirilis pada tahun 2022 dan dengan cepat menarik perhatian luas di masyarakat. Model revolusioner ini tidak hanya dapat menghasilkan gambar terperinci berdasarkan deskripsi teks, tetapi juga dapat diterapkan pada berbagai tugas lain seperti inpainting dan outpainting.
Di balik stable diffusion adalah hasil kolaborasi bersama antara tim CompVis di Universitas Ludwig Maximilian di Munich, Jerman, dan para peneliti di Runway. Model ini dikembangkan dengan dukungan dari Stability AI dan menggunakan sejumlah besar data pelatihan dari organisasi nirlaba, membuat inovasi ini berjalan pada sebagian besar perangkat keras konsumen, tidak seperti model profesional sebelumnya yang hanya dapat diakses melalui layanan cloud. Ada model text-to-image seperti DALL-E dan Midjourney yang sangat kontras.
Munculnya difusi stabil menandai revolusi baru dalam kecerdasan buatan, dan dapat mengarah pada cara penciptaan yang lebih inovatif dan mudah di masa mendatang.
Difusi stabil berasal dari sebuah proyek bernama Difusi Laten, yang dikembangkan oleh para peneliti di Ludwig-Maximilians-Universität Munich dan Universitas Heidelberg. Keempat penulis asli proyek tersebut kemudian bergabung dengan Stability AI dan merilis versi Difusi Stabil berikutnya. Tim CompVis telah merilis lisensi teknis untuk model tersebut.
Anggota inti tim pengembangan meliputi Patrick Esser dari Runway dan Robin Rombach dari CompVis, yang menemukan kerangka kerja model difusi laten yang digunakan oleh difusi stabil pada masa-masa awal. Proyek ini juga didukung oleh EleutherAI dan LAION, sebuah organisasi nirlaba Jerman yang bertanggung jawab untuk mengatur data pelatihan difusi stabil.
Model difusi stabil menggunakan arsitektur yang disebut Model Difusi Laten (LDM), yang diusulkan pada tahun 2015 untuk melatih model dengan menghilangkan derau Gaussian secara bertahap. Proses ini melibatkan kompresi gambar dari ruang piksel ke ruang laten yang lebih kecil, sehingga menangkap makna semantik yang lebih mendasar dari gambar tersebut.
Difusi Stabil terdiri dari tiga bagian: Variational Autoencoder (VAE), U-Net, dan encoder teks opsional.
Encoder VAE mengompresi gambar ke dalam ruang laten, sementara U-Net menghilangkan derau representasi laten keluaran. Terakhir, dekoder VAE mengubah representasi kembali ke ruang piksel. Langkah penghilangan derau dalam proses ini dapat disesuaikan secara fleksibel berdasarkan teks, gambar, atau modalitas lainnya.
StableDiffusion dilatih pada kumpulan data LAION-5B, kumpulan data publik berisi 5 miliar pasangan gambar-teks yang difilter menurut bahasa. Versi pelatihan terbaru, SD 3.0, menandai perombakan total arsitektur inti, dengan struktur penguraian yang ditingkatkan serta detail dan presisi pembuatan yang ditingkatkan.
Model difusi stabil memungkinkan pengguna untuk membuat gambar yang benar-benar baru dan memodifikasi gambar yang sudah ada berdasarkan perintah tekstual. Namun, penggunaan teknologi ini juga menimbulkan kontroversi dalam hal kekayaan intelektual dan etika, terutama karena data pelatihan awal model tersebut berisi sejumlah besar informasi pribadi dan sensitif. Selain itu, karena model tersebut sebagian besar dilatih menggunakan data bahasa Inggris, gambar yang dihasilkan mungkin bias dalam latar belakang budaya yang berbeda.
Apakah penyebaran yang stabil dapat menyeimbangkan penerapan teknologi dan dampak sosial akan menjadi masalah yang harus dipecahkan, dan ini merupakan ujian penting untuk pengembangan di masa mendatang?