Câu chuyện về nguồn gốc của sự khuếch tán ổn định: Mô hình mang tính cách mạng này ra đời như thế nào?

Với sự phát triển nhanh chóng của công nghệ trí tuệ nhân tạo, Stable Diffusion, một mô hình chuyển văn bản thành hình ảnh học sâu, đã chính thức được phát hành vào năm 2022 và nhanh chóng thu hút sự chú ý rộng rãi trong cộng đồng. Mô hình mang tính cách mạng này không chỉ có thể tạo ra hình ảnh chi tiết dựa trên mô tả văn bản mà còn có thể áp dụng cho nhiều tác vụ khác như tô màu và tô ngoài.

Đằng sau sự khuếch tán ổn định là kết quả của sự hợp tác chung giữa nhóm CompVis tại Đại học Ludwig Maximilian ở Munich, Đức và các nhà nghiên cứu tại Runway. Mô hình được phát triển với sự hỗ trợ từ Stability AI và sử dụng một lượng lớn dữ liệu đào tạo từ các tổ chức phi lợi nhuận, giúp cải tiến này chạy trên hầu hết phần cứng của người tiêu dùng, không giống như các mô hình chuyên nghiệp trước đây chỉ có thể truy cập thông qua các dịch vụ đám mây. Có các văn bản đến các mô hình hình ảnh như DALL-E và Midjourney hoàn toàn trái ngược nhau.

Sự xuất hiện của sự khuếch tán ổn định đánh dấu một cuộc cách mạng mới trong trí tuệ nhân tạo và có thể dẫn đến những cách sáng tạo tiện lợi và sáng tạo hơn trong tương lai.

Quy trình phát triển

Sự khuếch tán ổn định bắt nguồn từ một dự án có tên là Khuếch tán tiềm ẩn, được phát triển bởi các nhà nghiên cứu tại Đại học Ludwig-Maximilians-Universität Munich và Đại học Heidelberg. Bốn tác giả ban đầu của dự án sau đó đã tham gia Stability AI và phát hành các phiên bản tiếp theo của Stable Diffusion. Nhóm CompVis đã phát hành giấy phép kỹ thuật cho mô hình này.

Các thành viên cốt cán của nhóm phát triển bao gồm Patrick Esser của Runway và Robin Rombach của CompVis, những người đã phát minh ra khuôn khổ mô hình khuếch tán tiềm ẩn được khuếch tán ổn định sử dụng trong những ngày đầu. Dự án cũng được hỗ trợ bởi EleutherAI và LAION, một tổ chức phi lợi nhuận của Đức chịu trách nhiệm tổ chức dữ liệu đào tạo khuếch tán ổn định.

Kiến trúc kỹ thuật

Mô hình khuếch tán ổn định sử dụng kiến ​​trúc gọi là Mô hình khuếch tán tiềm ẩn (LDM), được đề xuất vào năm 2015 để đào tạo mô hình bằng cách loại bỏ dần nhiễu Gauss. Quá trình này bao gồm việc nén hình ảnh từ không gian pixel thành không gian tiềm ẩn nhỏ hơn, do đó nắm bắt được ý nghĩa ngữ nghĩa cơ bản hơn của hình ảnh.

Stable Diffusion bao gồm ba phần: Bộ mã hóa tự động biến thiên (VAE), U-Net và bộ mã hóa văn bản tùy chọn.

Bộ mã hóa VAE nén hình ảnh thành không gian tiềm ẩn, trong khi U-Net khử nhiễu biểu diễn tiềm ẩn đầu ra. Cuối cùng, bộ giải mã VAE chuyển đổi biểu diễn trở lại không gian pixel. Bước khử nhiễu trong quy trình này có thể được điều chỉnh linh hoạt dựa trên văn bản, hình ảnh hoặc các phương thức khác.

Dữ liệu và chương trình đào tạo

StableDiffusion được đào tạo trên tập dữ liệu LAION-5B, một tập dữ liệu công khai gồm 5 tỷ cặp hình ảnh-văn bản được lọc theo ngôn ngữ. Phiên bản đào tạo mới nhất, SD 3.0, đánh dấu sự thay đổi hoàn toàn về kiến ​​trúc cốt lõi, với cấu trúc phân tích cú pháp được cải thiện và độ chính xác cũng như chi tiết tạo ra được nâng cao.

Sử dụng và Tranh chấp

Mô hình khuếch tán ổn định cho phép người dùng tạo ra những hình ảnh hoàn toàn mới và chỉnh sửa những hình ảnh hiện có dựa trên lời nhắc dạng văn bản. Tuy nhiên, việc sử dụng công nghệ này cũng gây ra một số tranh cãi về mặt sở hữu trí tuệ và đạo đức, đặc biệt là vì dữ liệu đào tạo ban đầu của mô hình chứa một lượng lớn thông tin riêng tư và nhạy cảm. Ngoài ra, vì mô hình chủ yếu được đào tạo bằng dữ liệu tiếng Anh nên hình ảnh được tạo ra có thể bị sai lệch theo các nền văn hóa khác nhau.

Liệu sự khuếch tán ổn định có thể cân bằng được ứng dụng công nghệ và tác động xã hội hay không sẽ là một vấn đề cần giải quyết và đây là một thử nghiệm quan trọng cho sự phát triển trong tương lai?

Trending Knowledge

Sự kỳ diệu ngày càng lan rộng của học sâu: Tại sao nó lại hiệu quả trên phần cứng gia đình?
Với sự phát triển nhanh chóng của trí tuệ nhân tạo, Stable Diffusion chắc chắn là một sản phẩm nổi bật thu hút sự chú ý. Kể từ khi ra mắt vào năm 2022, mô hình chuyển văn bản thành hình ảnh học sâu dự
Bí mật công nghệ đằng sau sự phát triển ổn định: Làm thế nào để biến từ ngữ thành hình ảnh tuyệt đẹp?
Kể từ năm 2022, Stable Diffusion đã nhanh chóng nổi lên như một mô hình chuyển văn bản thành hình ảnh học sâu dựa trên công nghệ khuếch tán. Công nghệ trí tuệ nhân tạo tạo ra này do Stability AI ra mắ

Responses