La storia delle origini della diffusione stabile: come è nato questo modello rivoluzionario?

Con il rapido sviluppo della tecnologia dell'intelligenza artificiale, Stable Diffusion, un modello di apprendimento profondo da testo a immagine, è stato rilasciato ufficialmente nel 2022 e ha rapidamente attirato l'attenzione della comunità. Questo modello rivoluzionario non solo può generare immagini dettagliate basate su descrizioni testuali, ma può anche essere applicato a una varietà di altre attività, come la pittura interna ed esterna.

Dietro la diffusione stabile c'è il risultato di una collaborazione congiunta tra il team CompVis dell'Università Ludwig Maximilian di Monaco di Baviera, in Germania, e i ricercatori di Runway. Il modello è stato sviluppato con il supporto di Stability AI e utilizza una grande quantità di dati di training da organizzazioni non-profit, rendendo questa innovazione eseguibile sulla maggior parte dell'hardware consumer, a differenza dei precedenti modelli professionali accessibili solo tramite servizi cloud. Ci sono text-to- modelli di immagine come DALL-E e Midjourney in netto contrasto.

L'avvento della diffusione stabile segna una nuova rivoluzione nell'intelligenza artificiale e potrebbe portare in futuro a modalità di creazione più innovative e convenienti.

Processo di sviluppo

La diffusione stabile ha avuto origine da un progetto denominato Diffusione latente, sviluppato dai ricercatori della Ludwig-Maximilians-Universität di Monaco e dell'Università di Heidelberg. Successivamente, i quattro autori originali del progetto si sono uniti a Stability AI e hanno rilasciato le versioni successive di Stable Diffusion. Il team CompVis ha rilasciato una licenza tecnica per il modello.

Tra i membri principali del team di sviluppo figurano Patrick Esser di Runway e Robin Rombach di CompVis, che hanno inventato il framework del modello di diffusione latente utilizzato dalla diffusione stabile nei primi tempi. Il progetto è supportato anche da EleutherAI e LAION, un'organizzazione tedesca senza scopo di lucro responsabile dell'organizzazione di dati di addestramento alla diffusione stabile.

Architettura tecnica

Il modello di diffusione stabile utilizza un'architettura denominata Latent Diffusion Model (LDM), proposta nel 2015 per addestrare il modello rimuovendo gradualmente il rumore gaussiano. Questo processo comporta la compressione dell'immagine dallo spazio dei pixel a uno spazio latente più piccolo, catturando così il significato semantico più basilare dell'immagine.

Stable Diffusion è costituito da tre parti: Variational Autoencoder (VAE), U-Net e un codificatore di testo opzionale.

Il codificatore VAE comprime l'immagine in uno spazio latente, mentre U-Net elimina il rumore dalla rappresentazione latente in uscita. Infine, il decodificatore VAE riconverte la rappresentazione nello spazio pixel. La fase di denoising di questo processo può essere regolata in modo flessibile in base al testo, alle immagini o ad altre modalità.

Dati e programmi di allenamento

StableDiffusion è addestrato sul dataset LAION-5B, un dataset pubblico di 5 miliardi di coppie immagine-testo filtrate per lingua. L'ultima versione di training, SD 3.0, segna una revisione completa dell'architettura di base, con una struttura di analisi migliorata e un livello di dettaglio e precisione di generazione migliorato.

Uso e controversie

Il modello di diffusione stabile consente agli utenti di generare immagini completamente nuove e di modificare quelle esistenti in base a prompt testuali. Tuttavia, l'uso di questa tecnologia ha anche causato qualche controversia in termini di proprietà intellettuale ed etica, soprattutto perché i dati di addestramento iniziali del modello contengono una grande quantità di informazioni private e sensibili. Inoltre, poiché il modello viene addestrato principalmente utilizzando dati in inglese, le immagini generate potrebbero risultare distorte in base al contesto culturale.

Se la diffusione stabile possa bilanciare l'applicazione tecnologica e l'impatto sociale sarà una questione da risolvere, e questo rappresenta un test importante per lo sviluppo futuro?

Trending Knowledge

La magia del deep learning in continua diffusione: perché funziona anche sull'hardware domestico?
Con la rapida ascesa dell'intelligenza artificiale generativa, Stable Diffusion è senza dubbio un prodotto di punta che cattura l'attenzione. Dal suo lancio nel 2022, questo modello di apprendimento p
Il segreto tecnologico dietro una proliferazione costante: come trasforma le parole in immagini straordinarie?
Dal 2022, Stable Diffusion si è rapidamente affermato come un modello di apprendimento profondo di conversione da testo a immagine basato sulla tecnologia di diffusione. Questa tecnologia di intellige

Responses