Language

Arabic
العربية

Chinese
中文

香港繁體
Traditional Chinese

臺灣正體
Traditional Chinese

English
English

French
Français

German
Deutsch

Italian
Italiano

Indonesian
Bahasa Indonesia

Japanese
日本語

Korean
한국어

Portuguese
Português

Russian
Русский

Spanish
español

Vietnamese
Tiếng Việt

Country/Area

Antigua and Barbuda
Antigua and Barbuda

Bosnia and Herzegovina
Bosna i Hercegovina

Central African Republic
République Centrafricaine

Congo, Democratic Republic of the
République Démocratique du Congo

Congo, Republic of the
République du Congo

Côte d'Ivoire
Côte d'Ivoire

Czech Republic
Česká republika

Dominican Republic
República Dominicana

Equatorial Guinea
Guinea Ecuatorial

Marshall Islands
Aolepān Aorōkin M̧ajeļ

North Macedonia
Северна Македонија

Papua New Guinea
Papua Niugini

Saint Kitts and Nevis
Saint Kitts and Nevis

Saint Vincent and the Grenadines
Saint Vincent and the Grenadines

Sao Tome and Principe
São Tomé e Príncipe

Saudi Arabia
المملكة العربية السعودية

Solomon Islands
Solomon Islands

Sri Lanka
ශ්‍රී ලංකාව

South Sudan
جنوب السودان

Trinidad and Tobago
Trinidad and Tobago

United Arab Emirates
الإمارات العربية المتحدة

United Kingdom
United Kingdom

Vatican City
Città del Vaticano

Language
Country/Area

Arabic
العربية

Chinese
中文

中国简体
Simplified Chinese

香港繁體
Traditional Chinese

臺灣正體
Traditional Chinese

English
English

French
Français

German
Deutsch

Italian
Italiano

Indonesian
Bahasa Indonesia

Japanese
日本語

Korean
한국어

Portuguese
Português

Russian
Русский

Spanish
español

Vietnamese
Tiếng Việt

Antigua and Barbuda
Antigua and Barbuda

The Bahamas
The Bahamas

Bosnia and Herzegovina
Bosna i Hercegovina

Burkina Faso
Burkina Faso

Cape Verde
Cape Verde

Central African Republic
République Centrafricaine

Congo, Democratic Republic of the
République Démocratique du Congo

Congo, Republic of the
République du Congo

Costa Rica
Costa Rica

Côte d'Ivoire
Côte d'Ivoire

Czech Republic
Česká republika

Dominican Republic
República Dominicana

El Salvador
El Salvador

Equatorial Guinea
Guinea Ecuatorial

The Gambia
The Gambia

Marshall Islands
Aolepān Aorōkin M̧ajeļ

North Macedonia
Северна Македонија

Papua New Guinea
Papua Niugini

Saint Kitts and Nevis
Saint Kitts and Nevis

Saint Lucia
Saint Lucia

Saint Vincent and the Grenadines
Saint Vincent and the Grenadines

San Marino
San Marino

Sao Tome and Principe
São Tomé e Príncipe

Saudi Arabia
المملكة العربية السعودية

Sierra Leone
Sierra Leone

Solomon Islands
Solomon Islands

South Africa
South Africa

Sri Lanka
ශ්‍රී ලංකාව

South Sudan
جنوب السودان

Trinidad and Tobago
Trinidad and Tobago

United Arab Emirates
الإمارات العربية المتحدة

United Kingdom
United Kingdom

United States
United States

Vatican City
Città del Vaticano

Câu chuyện về nguồn gốc của sự khuếch tán ổn định: Mô hình mang tính cách mạng này ra đời như thế nào?

Với sự phát triển nhanh chóng của công nghệ trí tuệ nhân tạo, Stable Diffusion, một mô hình chuyển văn bản thành hình ảnh học sâu, đã chính thức được phát hành vào năm 2022 và nhanh chóng thu hút sự chú ý rộng rãi trong cộng đồng. Mô hình mang tính cách mạng này không chỉ có thể tạo ra hình ảnh chi tiết dựa trên mô tả văn bản mà còn có thể áp dụng cho nhiều tác vụ khác như tô màu và tô ngoài.

Đằng sau sự khuếch tán ổn định là kết quả của sự hợp tác chung giữa nhóm CompVis tại Đại học Ludwig Maximilian ở Munich, Đức và các nhà nghiên cứu tại Runway. Mô hình được phát triển với sự hỗ trợ từ Stability AI và sử dụng một lượng lớn dữ liệu đào tạo từ các tổ chức phi lợi nhuận, giúp cải tiến này chạy trên hầu hết phần cứng của người tiêu dùng, không giống như các mô hình chuyên nghiệp trước đây chỉ có thể truy cập thông qua các dịch vụ đám mây. Có các văn bản đến các mô hình hình ảnh như DALL-E và Midjourney hoàn toàn trái ngược nhau.

Sự xuất hiện của sự khuếch tán ổn định đánh dấu một cuộc cách mạng mới trong trí tuệ nhân tạo và có thể dẫn đến những cách sáng tạo tiện lợi và sáng tạo hơn trong tương lai.

Quy trình phát triển

Sự khuếch tán ổn định bắt nguồn từ một dự án có tên là Khuếch tán tiềm ẩn, được phát triển bởi các nhà nghiên cứu tại Đại học Ludwig-Maximilians-Universität Munich và Đại học Heidelberg. Bốn tác giả ban đầu của dự án sau đó đã tham gia Stability AI và phát hành các phiên bản tiếp theo của Stable Diffusion. Nhóm CompVis đã phát hành giấy phép kỹ thuật cho mô hình này.

Các thành viên cốt cán của nhóm phát triển bao gồm Patrick Esser của Runway và Robin Rombach của CompVis, những người đã phát minh ra khuôn khổ mô hình khuếch tán tiềm ẩn được khuếch tán ổn định sử dụng trong những ngày đầu. Dự án cũng được hỗ trợ bởi EleutherAI và LAION, một tổ chức phi lợi nhuận của Đức chịu trách nhiệm tổ chức dữ liệu đào tạo khuếch tán ổn định.

Kiến trúc kỹ thuật

Mô hình khuếch tán ổn định sử dụng kiến trúc gọi là Mô hình khuếch tán tiềm ẩn (LDM), được đề xuất vào năm 2015 để đào tạo mô hình bằng cách loại bỏ dần nhiễu Gauss. Quá trình này bao gồm việc nén hình ảnh từ không gian pixel thành không gian tiềm ẩn nhỏ hơn, do đó nắm bắt được ý nghĩa ngữ nghĩa cơ bản hơn của hình ảnh.

Stable Diffusion bao gồm ba phần: Bộ mã hóa tự động biến thiên (VAE), U-Net và bộ mã hóa văn bản tùy chọn.

Bộ mã hóa VAE nén hình ảnh thành không gian tiềm ẩn, trong khi U-Net khử nhiễu biểu diễn tiềm ẩn đầu ra. Cuối cùng, bộ giải mã VAE chuyển đổi biểu diễn trở lại không gian pixel. Bước khử nhiễu trong quy trình này có thể được điều chỉnh linh hoạt dựa trên văn bản, hình ảnh hoặc các phương thức khác.

Dữ liệu và chương trình đào tạo

StableDiffusion được đào tạo trên tập dữ liệu LAION-5B, một tập dữ liệu công khai gồm 5 tỷ cặp hình ảnh-văn bản được lọc theo ngôn ngữ. Phiên bản đào tạo mới nhất, SD 3.0, đánh dấu sự thay đổi hoàn toàn về kiến trúc cốt lõi, với cấu trúc phân tích cú pháp được cải thiện và độ chính xác cũng như chi tiết tạo ra được nâng cao.

Sử dụng và Tranh chấp

Mô hình khuếch tán ổn định cho phép người dùng tạo ra những hình ảnh hoàn toàn mới và chỉnh sửa những hình ảnh hiện có dựa trên lời nhắc dạng văn bản. Tuy nhiên, việc sử dụng công nghệ này cũng gây ra một số tranh cãi về mặt sở hữu trí tuệ và đạo đức, đặc biệt là vì dữ liệu đào tạo ban đầu của mô hình chứa một lượng lớn thông tin riêng tư và nhạy cảm. Ngoài ra, vì mô hình chủ yếu được đào tạo bằng dữ liệu tiếng Anh nên hình ảnh được tạo ra có thể bị sai lệch theo các nền văn hóa khác nhau.

Liệu sự khuếch tán ổn định có thể cân bằng được ứng dụng công nghệ và tác động xã hội hay không sẽ là một vấn đề cần giải quyết và đây là một thử nghiệm quan trọng cho sự phát triển trong tương lai?

Trending Knowledge

Sự kỳ diệu ngày càng lan rộng của học sâu: Tại sao nó lại hiệu quả trên phần cứng gia đình?

Với sự phát triển nhanh chóng của trí tuệ nhân tạo, Stable Diffusion chắc chắn là một sản phẩm nổi bật thu hút sự chú ý. Kể từ khi ra mắt vào năm 2022, mô hình chuyển văn bản thành hình ảnh học sâu dự

Bí mật công nghệ đằng sau sự phát triển ổn định: Làm thế nào để biến từ ngữ thành hình ảnh tuyệt đẹp?

Kể từ năm 2022, Stable Diffusion đã nhanh chóng nổi lên như một mô hình chuyển văn bản thành hình ảnh học sâu dựa trên công nghệ khuếch tán. Công nghệ trí tuệ nhân tạo tạo ra này do Stability AI ra mắ

Multimedia

Câu chuyện về nguồn gốc của sự khuếch tán ổn định: Mô hình mang tính cách mạng này ra đời như thế nào?

Quy trình phát triển

Kiến trúc kỹ thuật

Dữ liệu và chương trình đào tạo

Sử dụng và Tranh chấp

Trending Knowledge

Responses

Language

Country/Area

No result found

Multimedia

Câu chuyện về nguồn gốc của sự khuếch tán ổn định: Mô hình mang tính cách mạng này ra đời như thế nào?

Quy trình phát triển

Kiến trúc kỹ thuật

Dữ liệu và chương trình đào tạo

Sử dụng và Tranh chấp

Trending Knowledge

Responses

Responses