Kể từ năm 2022, Stable Diffusion đã nhanh chóng nổi lên như một mô hình chuyển văn bản thành hình ảnh học sâu dựa trên công nghệ khuếch tán. Công nghệ trí tuệ nhân tạo tạo ra này do Stability AI ra mắt đã trở thành sản phẩm nổi bật trong cơn sốt trí tuệ nhân tạo hiện nay. Sự khuếch tán ổn định không chỉ có thể tạo ra hình ảnh chi tiết dựa trên mô tả văn bản mà còn có thể được áp dụng để tô màu, mở rộng và chuyển đổi lẫn nhau hình ảnh theo hướng dẫn của lời nhắc văn bản. Quá trình phát triển có sự tham gia của các nhóm nghiên cứu từ nhóm CompVis tại Đại học Ludwig Maximilian Munich và Runway, và được hỗ trợ thông qua các khoản tài trợ điện toán từ Stability và dữ liệu đào tạo từ các tổ chức phi lợi nhuận.
Sự khuếch tán ổn định là một mô hình khuếch tán tiềm ẩn, là một loại mạng nơ-ron nhân tạo tạo sinh sâu.
Kiến trúc kỹ thuật của Stable Diffusion rất phức tạp, chủ yếu bao gồm bộ mã hóa tự động biến thiên (VAE), U-Net và bộ mã hóa văn bản tùy chọn. VAE có chức năng nén hình ảnh từ không gian pixel thành không gian tiềm ẩn nhỏ hơn để nắm bắt được ý nghĩa ngữ nghĩa cơ bản của hình ảnh. Mô hình được đào tạo theo quy trình khuếch tán thuận bằng cách thêm dần nhiễu Gauss. U-Net loại bỏ những tiếng ồn này khỏi quá trình truyền về phía trước và khôi phục lại biểu diễn tiềm ẩn.
Phiên bản gốc của khuếch tán ổn định sử dụng mô hình khuếch tán gọi là mô hình khuếch tán tiềm ẩn (LDM), được nhóm CompVis phát triển vào năm 2015. Mục tiêu đào tạo của các mô hình này là loại bỏ nhiễu Gauss trên hình ảnh đào tạo để chúng có thể tạo ra hình ảnh rõ nét hơn. Với việc lặp lại các phiên bản, kiến trúc ổn định và lan tỏa cũng được cập nhật kịp thời. Ví dụ, phiên bản thứ ba của SD 3.0 đã thay đổi hoàn toàn kiến trúc cơ bản và sử dụng một kiến trúc mới có tên là Rectified Flow Transformer, giúp cải thiện đáng kể hiệu quả của mô hình khi xử lý mã hóa văn bản và hình ảnh.
“Thiết kế khuếch tán ổn định không chỉ tập trung vào chất lượng hình ảnh được tạo ra mà còn nhấn mạnh vào hiệu quả tính toán.”
Quá trình đào tạo của StableDiffusion dựa trên tập dữ liệu LAION-5B, một tập dữ liệu có sẵn công khai chứa 5 tỷ cặp hình ảnh và chú thích. Quá trình tạo tập dữ liệu bao gồm việc thu thập dữ liệu công khai từ internet và lọc dữ liệu dựa trên ngôn ngữ và độ phân giải. Mục tiêu cuối cùng của quá trình đào tạo là tạo ra những hình ảnh được người dùng yêu thích và nhiều phương pháp dựa trên dữ liệu được sử dụng trong quá trình này để cải thiện độ chính xác và tính đa dạng của quá trình tạo hình ảnh. Điều này làm cho sự khuếch tán ổn định chiếm một vị trí quan trọng trong lĩnh vực tạo hình ảnh.
“Quy trình đào tạo khuếch tán ổn định cho thấy cách sử dụng tập dữ liệu để tối ưu hóa khả năng tạo ra kết quả.”
Ứng dụng của khuếch tán ổn định cực kỳ rộng rãi, từ sáng tạo nghệ thuật video đến hình ảnh y tế và tạo ra âm nhạc, và tính linh hoạt của công nghệ này giúp nó dễ dàng thích ứng với nhiều tình huống sáng tạo. Mặc dù phiên bản hiện tại có những hạn chế như khả năng tạo ra chi người kém trong một số tình huống cụ thể, nhưng những vấn đề này hy vọng sẽ được giải quyết trong tương lai nhờ sự tiến bộ của công nghệ và các bản cập nhật. Phiên bản Diffusion XL ổn định mới nhất đã khắc phục một số vấn đề về chất lượng và giới thiệu khả năng tạo và độ phân giải cao hơn.
"Người dùng có thể khắc phục những hạn chế ban đầu của mô hình thông qua việc tinh chỉnh thêm và đạt được kết quả đầu ra được cá nhân hóa hơn."
Mặc dù khuếch tán ổn định là một thành tựu công nghệ đáng kinh ngạc, việc sử dụng nó vẫn cần được cân nhắc cẩn thận. Những hình ảnh được tạo ra có thể vô tình chứa một số thông tin không phù hợp hoặc nhạy cảm, gây ra một loạt các vấn đề về đạo đức. Khi các mô hình dần được mở cửa cho công chúng và người dùng được phép sử dụng những hình ảnh được tạo ra, cách quản lý việc áp dụng các công nghệ này và tác động xã hội mà chúng mang lại đã trở thành vấn đề cấp bách cần được giải quyết.
Sự khuếch tán ổn định không chỉ là một cải tiến khoa học và công nghệ sâu sắc mà còn là tấm gương phản ánh văn hóa xã hội. Khi công nghệ tiếp tục phát triển, sẽ có bao nhiêu ứng dụng đáng ngạc nhiên hơn nữa xuất hiện trong tương lai?