Language

Arabic
العربية

Chinese
中文

香港繁體
Traditional Chinese

臺灣正體
Traditional Chinese

English
English

French
Français

German
Deutsch

Italian
Italiano

Indonesian
Bahasa Indonesia

Japanese
日本語

Korean
한국어

Portuguese
Português

Russian
Русский

Spanish
español

Vietnamese
Tiếng Việt

Country/Area

Antigua and Barbuda
Antigua and Barbuda

Bosnia and Herzegovina
Bosna i Hercegovina

Central African Republic
République Centrafricaine

Congo, Democratic Republic of the
République Démocratique du Congo

Congo, Republic of the
République du Congo

Côte d'Ivoire
Côte d'Ivoire

Czech Republic
Česká republika

Dominican Republic
República Dominicana

Equatorial Guinea
Guinea Ecuatorial

Marshall Islands
Aolepān Aorōkin M̧ajeļ

North Macedonia
Северна Македонија

Papua New Guinea
Papua Niugini

Saint Kitts and Nevis
Saint Kitts and Nevis

Saint Vincent and the Grenadines
Saint Vincent and the Grenadines

Sao Tome and Principe
São Tomé e Príncipe

Saudi Arabia
المملكة العربية السعودية

Solomon Islands
Solomon Islands

Sri Lanka
ශ්‍රී ලංකාව

South Sudan
جنوب السودان

Trinidad and Tobago
Trinidad and Tobago

United Arab Emirates
الإمارات العربية المتحدة

United Kingdom
United Kingdom

Vatican City
Città del Vaticano

Language
Country/Area

Arabic
العربية

Chinese
中文

中国简体
Simplified Chinese

香港繁體
Traditional Chinese

臺灣正體
Traditional Chinese

English
English

French
Français

German
Deutsch

Italian
Italiano

Indonesian
Bahasa Indonesia

Japanese
日本語

Korean
한국어

Portuguese
Português

Russian
Русский

Spanish
español

Vietnamese
Tiếng Việt

Antigua and Barbuda
Antigua and Barbuda

The Bahamas
The Bahamas

Bosnia and Herzegovina
Bosna i Hercegovina

Burkina Faso
Burkina Faso

Cape Verde
Cape Verde

Central African Republic
République Centrafricaine

Congo, Democratic Republic of the
République Démocratique du Congo

Congo, Republic of the
République du Congo

Costa Rica
Costa Rica

Côte d'Ivoire
Côte d'Ivoire

Czech Republic
Česká republika

Dominican Republic
República Dominicana

El Salvador
El Salvador

Equatorial Guinea
Guinea Ecuatorial

The Gambia
The Gambia

Marshall Islands
Aolepān Aorōkin M̧ajeļ

North Macedonia
Северна Македонија

Papua New Guinea
Papua Niugini

Saint Kitts and Nevis
Saint Kitts and Nevis

Saint Lucia
Saint Lucia

Saint Vincent and the Grenadines
Saint Vincent and the Grenadines

San Marino
San Marino

Sao Tome and Principe
São Tomé e Príncipe

Saudi Arabia
المملكة العربية السعودية

Sierra Leone
Sierra Leone

Solomon Islands
Solomon Islands

South Africa
South Africa

Sri Lanka
ශ්‍රී ලංකාව

South Sudan
جنوب السودان

Trinidad and Tobago
Trinidad and Tobago

United Arab Emirates
الإمارات العربية المتحدة

United Kingdom
United Kingdom

United States
United States

Vatican City
Città del Vaticano

Tiềm năng của dữ liệu không được gắn nhãn: tại sao chúng lại quan trọng đối với việc học máy?

Với sự gia tăng của các mô hình ngôn ngữ lớn, tầm quan trọng của dữ liệu chưa được gắn nhãn trong học máy đã tăng lên đáng kể. Mô hình này được gọi là học có giám sát yếu hoặc học bán giám sát. Cốt lõi của nó là kết hợp một lượng nhỏ dữ liệu do con người gắn nhãn với một lượng lớn dữ liệu không được gắn nhãn để đào tạo. Điều này có nghĩa là chỉ một phần giá trị đầu ra của dữ liệu được gắn nhãn, trong khi dữ liệu còn lại không được gắn nhãn hoặc được gắn nhãn không chính xác. Cách tiếp cận này cung cấp một giải pháp hiệu quả để tận dụng tối đa dữ liệu phong phú chưa được gắn nhãn khi việc ghi nhãn tốn kém và mất thời gian.

Trong lĩnh vực học máy hiện đại, chi phí để có được dữ liệu có chú thích thường rất cao, khiến việc có các bộ dữ liệu có chú thích hoàn chỉnh ở quy mô lớn là không thực tế.

Khi nói đến việc ghi nhãn dữ liệu, nhiều học giả và kỹ sư nghĩ ngay đến chi phí cao liên quan đến quá trình ghi nhãn. Quá trình này có thể yêu cầu nhân sự chuyên môn, chẳng hạn như ghi lại các đoạn âm thanh hoặc tiến hành các thí nghiệm vật lý để xác định các hiện tượng cụ thể. Do đó, học bán giám sát không chỉ thú vị về mặt lý thuyết mà còn thực sự cung cấp các giải pháp khả thi cho nhiều vấn đề khác nhau. Điều này trở thành một công cụ mạnh mẽ để kết nối giữa dữ liệu được dán nhãn và không được gắn nhãn.

Công nghệ học bán giám sát giả định một mối tương quan nhất định, cho phép nó sử dụng lượng lớn dữ liệu chưa được gắn nhãn để cải thiện đáng kể hiệu suất phân loại.

Kỹ thuật học bán giám sát giả định khả năng trích xuất thông tin có ý nghĩa từ quá trình phân bổ cơ bản của dữ liệu. Những kỹ thuật này bao gồm các giả định về tính liên tục, các giả định về phân cụm và các giả định đa dạng. Những giả định này giúp tìm hiểu cấu trúc từ dữ liệu không được gắn nhãn, ví dụ: khi các điểm dữ liệu gần nhau, chúng có nhiều khả năng có cùng nhãn. Ngoài ra, dữ liệu thường tạo thành các cụm riêng biệt, do đó các điểm trong cùng một cụm có thể chia sẻ nhãn. Theo giả định này, học bán giám sát có thể tìm hiểu các đặc điểm nội tại của dữ liệu hiệu quả hơn.

Giả thuyết đa tạp cho rằng dữ liệu thường nằm trên các đa tạp có chiều thấp. Quan điểm này cho phép quá trình học tránh được tai họa về tính đa chiều.

Lịch sử của học bán giám sát có thể bắt nguồn từ phương pháp tự đào tạo vào những năm 1960. Sau đó, vào những năm 1970, Vladimir Vapnik chính thức giới thiệu khuôn khổ học tập dẫn truyền và bắt đầu khám phá việc học tập nhờ sử dụng các mô hình tổng quát. Những phương pháp này đã bắt đầu trở thành điểm nóng trong nghiên cứu lý thuyết và thúc đẩy sự phát triển của học máy.

Trong ứng dụng thực tế, nhiều phương pháp khác nhau được đan xen, tạo thành một hệ sinh thái tương đối phức tạp. Mô hình tổng quát trước tiên ước tính mức phân bổ dữ liệu theo các danh mục khác nhau, điều này cho phép mô hình tìm hiểu hiệu quả ngay cả khi không có đủ dữ liệu chú thích. Tương tự, các phương pháp phân tách mật độ thấp đạt được mục đích tách dữ liệu được dán nhãn khỏi dữ liệu không được gắn nhãn bằng cách vẽ ranh giới ở những khu vực có ít điểm dữ liệu.

Trong chuỗi kỹ thuật này, chính quy hóa Laplacian sử dụng biểu diễn đồ thị để thực hiện việc học dữ liệu. Các biểu đồ này kết nối từng mẫu được gắn nhãn và không được gắn nhãn thông qua sự giống nhau, nhấn mạnh kết nối nội bộ của dữ liệu thông qua cấu trúc của biểu đồ và sử dụng thêm dữ liệu không được gắn nhãn để thúc đẩy quá trình học tập.

Về mặt lý thuyết, học bán giám sát là mô hình mô phỏng quá trình học tập của con người, khiến nó trở nên hấp dẫn và thiết thực.

Tóm lại, sự gia tăng của hoạt động học tập có giám sát yếu chính xác là để giải quyết thách thức về tình trạng khan hiếm dữ liệu được gắn nhãn và chứng minh tiềm năng to lớn của dữ liệu không được gắn nhãn. Với sự phát triển nhanh chóng của dữ liệu và sự phát triển không ngừng của công nghệ học máy, chúng ta có thể cần phải suy nghĩ lại: Làm cách nào để tận dụng tốt hơn tiềm năng của dữ liệu chưa được gắn nhãn trong nghiên cứu trong tương lai?

Trending Knowledge

nan

Trong quá trình thăm dò không gian, cách sử dụng nhiên liệu hiệu quả hơn, giảm chi phí và đến đích nhanh hơn luôn là một chủ đề mà các nhà khoa học và kỹ sư đã suy nghĩ.Năm 1987, khái niệm "ranh giới

Bí mật của việc học có giám sát yếu: Làm thế nào để thay đổi tương lai của AI chỉ bằng một lượng nhỏ dữ liệu được gắn nhãn?

Với sự gia tăng của các mô hình ngôn ngữ lớn, khái niệm giám sát yếu ngày càng nhận được sự chú ý. Trong phương pháp học có giám sát truyền thống, mô hình yêu cầu một lượng lớn dữ liệu đư

Học bán giám sát: Làm thế nào để biến dữ liệu vô giá thành kho báu thông minh?

Với sự gia tăng của các mô hình ngôn ngữ lớn, việc học bán giám sát ngày càng trở nên quan trọng và phù hợp hơn. Mô hình học này kết hợp một lượng nhỏ dữ liệu được gắn nhãn với một lượng

Multimedia

Tiềm năng của dữ liệu không được gắn nhãn: tại sao chúng lại quan trọng đối với việc học máy?

Trending Knowledge

Responses

Language

Country/Area

No result found

Multimedia

Tiềm năng của dữ liệu không được gắn nhãn: tại sao chúng lại quan trọng đối với việc học máy?

Trending Knowledge

Responses

Responses