Kisah asal usul difusi stabil: Bagaimana model revolusioner ini muncul?

Dengan pesatnya perkembangan teknologi kecerdasan buatan, Stable Diffusion, model pembelajaran mendalam text-to-image, resmi dirilis pada tahun 2022 dan dengan cepat menarik perhatian luas di masyarakat. Model revolusioner ini tidak hanya dapat menghasilkan gambar terperinci berdasarkan deskripsi teks, tetapi juga dapat diterapkan pada berbagai tugas lain seperti inpainting dan outpainting.

Di balik stable diffusion adalah hasil kolaborasi bersama antara tim CompVis di Universitas Ludwig Maximilian di Munich, Jerman, dan para peneliti di Runway. Model ini dikembangkan dengan dukungan dari Stability AI dan menggunakan sejumlah besar data pelatihan dari organisasi nirlaba, membuat inovasi ini berjalan pada sebagian besar perangkat keras konsumen, tidak seperti model profesional sebelumnya yang hanya dapat diakses melalui layanan cloud. Ada model text-to-image seperti DALL-E dan Midjourney yang sangat kontras.

Munculnya difusi stabil menandai revolusi baru dalam kecerdasan buatan, dan dapat mengarah pada cara penciptaan yang lebih inovatif dan mudah di masa mendatang.

Proses Pengembangan

Difusi stabil berasal dari sebuah proyek bernama Difusi Laten, yang dikembangkan oleh para peneliti di Ludwig-Maximilians-Universität Munich dan Universitas Heidelberg. Keempat penulis asli proyek tersebut kemudian bergabung dengan Stability AI dan merilis versi Difusi Stabil berikutnya. Tim CompVis telah merilis lisensi teknis untuk model tersebut.

Anggota inti tim pengembangan meliputi Patrick Esser dari Runway dan Robin Rombach dari CompVis, yang menemukan kerangka kerja model difusi laten yang digunakan oleh difusi stabil pada masa-masa awal. Proyek ini juga didukung oleh EleutherAI dan LAION, sebuah organisasi nirlaba Jerman yang bertanggung jawab untuk mengatur data pelatihan difusi stabil.

Arsitektur Teknis

Model difusi stabil menggunakan arsitektur yang disebut Model Difusi Laten (LDM), yang diusulkan pada tahun 2015 untuk melatih model dengan menghilangkan derau Gaussian secara bertahap. Proses ini melibatkan kompresi gambar dari ruang piksel ke ruang laten yang lebih kecil, sehingga menangkap makna semantik yang lebih mendasar dari gambar tersebut.

Difusi Stabil terdiri dari tiga bagian: Variational Autoencoder (VAE), U-Net, dan encoder teks opsional.

Encoder VAE mengompresi gambar ke dalam ruang laten, sementara U-Net menghilangkan derau representasi laten keluaran. Terakhir, dekoder VAE mengubah representasi kembali ke ruang piksel. Langkah penghilangan derau dalam proses ini dapat disesuaikan secara fleksibel berdasarkan teks, gambar, atau modalitas lainnya.

Data dan Program Pelatihan

StableDiffusion dilatih pada kumpulan data LAION-5B, kumpulan data publik berisi 5 miliar pasangan gambar-teks yang difilter menurut bahasa. Versi pelatihan terbaru, SD 3.0, menandai perombakan total arsitektur inti, dengan struktur penguraian yang ditingkatkan serta detail dan presisi pembuatan yang ditingkatkan.

Penggunaan dan Sengketa

Model difusi stabil memungkinkan pengguna untuk membuat gambar yang benar-benar baru dan memodifikasi gambar yang sudah ada berdasarkan perintah tekstual. Namun, penggunaan teknologi ini juga menimbulkan kontroversi dalam hal kekayaan intelektual dan etika, terutama karena data pelatihan awal model tersebut berisi sejumlah besar informasi pribadi dan sensitif. Selain itu, karena model tersebut sebagian besar dilatih menggunakan data bahasa Inggris, gambar yang dihasilkan mungkin bias dalam latar belakang budaya yang berbeda.

Apakah penyebaran yang stabil dapat menyeimbangkan penerapan teknologi dan dampak sosial akan menjadi masalah yang harus dipecahkan, dan ini merupakan ujian penting untuk pengembangan di masa mendatang?

Trending Knowledge

Keajaiban pembelajaran mendalam yang terus menyebar: Mengapa hal itu berhasil pada perangkat keras rumahan?
Dengan pesatnya perkembangan kecerdasan buatan generatif, Stable Diffusion tidak diragukan lagi merupakan produk unggulan yang menarik perhatian. Sejak diluncurkan pada tahun 2022, model teks-ke-gamba
Rahasia teknologi di balik penyebaran yang stabil: Bagaimana ia mengubah kata-kata menjadi gambar yang menakjubkan?
Sejak 2022, Stable Diffusion telah berkembang pesat sebagai model pembelajaran mendalam teks-ke-gambar berdasarkan teknologi difusi. Teknologi kecerdasan buatan generatif yang diluncurkan oleh Stabili

Responses