Với sự gia tăng của các mô hình ngôn ngữ lớn, tầm quan trọng của dữ liệu chưa được gắn nhãn trong học máy đã tăng lên đáng kể. Mô hình này được gọi là học có giám sát yếu hoặc học bán giám sát. Cốt lõi của nó là kết hợp một lượng nhỏ dữ liệu do con người gắn nhãn với một lượng lớn dữ liệu không được gắn nhãn để đào tạo. Điều này có nghĩa là chỉ một phần giá trị đầu ra của dữ liệu được gắn nhãn, trong khi dữ liệu còn lại không được gắn nhãn hoặc được gắn nhãn không chính xác. Cách tiếp cận này cung cấp một giải pháp hiệu quả để tận dụng tối đa dữ liệu phong phú chưa được gắn nhãn khi việc ghi nhãn tốn kém và mất thời gian.
Trong lĩnh vực học máy hiện đại, chi phí để có được dữ liệu có chú thích thường rất cao, khiến việc có các bộ dữ liệu có chú thích hoàn chỉnh ở quy mô lớn là không thực tế.
Khi nói đến việc ghi nhãn dữ liệu, nhiều học giả và kỹ sư nghĩ ngay đến chi phí cao liên quan đến quá trình ghi nhãn. Quá trình này có thể yêu cầu nhân sự chuyên môn, chẳng hạn như ghi lại các đoạn âm thanh hoặc tiến hành các thí nghiệm vật lý để xác định các hiện tượng cụ thể. Do đó, học bán giám sát không chỉ thú vị về mặt lý thuyết mà còn thực sự cung cấp các giải pháp khả thi cho nhiều vấn đề khác nhau. Điều này trở thành một công cụ mạnh mẽ để kết nối giữa dữ liệu được dán nhãn và không được gắn nhãn.
Công nghệ học bán giám sát giả định một mối tương quan nhất định, cho phép nó sử dụng lượng lớn dữ liệu chưa được gắn nhãn để cải thiện đáng kể hiệu suất phân loại.
Kỹ thuật học bán giám sát giả định khả năng trích xuất thông tin có ý nghĩa từ quá trình phân bổ cơ bản của dữ liệu. Những kỹ thuật này bao gồm các giả định về tính liên tục, các giả định về phân cụm và các giả định đa dạng. Những giả định này giúp tìm hiểu cấu trúc từ dữ liệu không được gắn nhãn, ví dụ: khi các điểm dữ liệu gần nhau, chúng có nhiều khả năng có cùng nhãn. Ngoài ra, dữ liệu thường tạo thành các cụm riêng biệt, do đó các điểm trong cùng một cụm có thể chia sẻ nhãn. Theo giả định này, học bán giám sát có thể tìm hiểu các đặc điểm nội tại của dữ liệu hiệu quả hơn.
Giả thuyết đa tạp cho rằng dữ liệu thường nằm trên các đa tạp có chiều thấp. Quan điểm này cho phép quá trình học tránh được tai họa về tính đa chiều.
Lịch sử của học bán giám sát có thể bắt nguồn từ phương pháp tự đào tạo vào những năm 1960. Sau đó, vào những năm 1970, Vladimir Vapnik chính thức giới thiệu khuôn khổ học tập dẫn truyền và bắt đầu khám phá việc học tập nhờ sử dụng các mô hình tổng quát. Những phương pháp này đã bắt đầu trở thành điểm nóng trong nghiên cứu lý thuyết và thúc đẩy sự phát triển của học máy.
Trong ứng dụng thực tế, nhiều phương pháp khác nhau được đan xen, tạo thành một hệ sinh thái tương đối phức tạp. Mô hình tổng quát trước tiên ước tính mức phân bổ dữ liệu theo các danh mục khác nhau, điều này cho phép mô hình tìm hiểu hiệu quả ngay cả khi không có đủ dữ liệu chú thích. Tương tự, các phương pháp phân tách mật độ thấp đạt được mục đích tách dữ liệu được dán nhãn khỏi dữ liệu không được gắn nhãn bằng cách vẽ ranh giới ở những khu vực có ít điểm dữ liệu.
Trong chuỗi kỹ thuật này, chính quy hóa Laplacian sử dụng biểu diễn đồ thị để thực hiện việc học dữ liệu. Các biểu đồ này kết nối từng mẫu được gắn nhãn và không được gắn nhãn thông qua sự giống nhau, nhấn mạnh kết nối nội bộ của dữ liệu thông qua cấu trúc của biểu đồ và sử dụng thêm dữ liệu không được gắn nhãn để thúc đẩy quá trình học tập.
Về mặt lý thuyết, học bán giám sát là mô hình mô phỏng quá trình học tập của con người, khiến nó trở nên hấp dẫn và thiết thực.
Tóm lại, sự gia tăng của hoạt động học tập có giám sát yếu chính xác là để giải quyết thách thức về tình trạng khan hiếm dữ liệu được gắn nhãn và chứng minh tiềm năng to lớn của dữ liệu không được gắn nhãn. Với sự phát triển nhanh chóng của dữ liệu và sự phát triển không ngừng của công nghệ học máy, chúng ta có thể cần phải suy nghĩ lại: Làm cách nào để tận dụng tốt hơn tiềm năng của dữ liệu chưa được gắn nhãn trong nghiên cứu trong tương lai?