隨著大型語言模型的崛起,無標註數據在機器學習中的重要性急劇增加。這種模式被稱為弱監督學習,或稱為半監督學習。其核心是結合少量經人類標註的數據與大量未標註數據進行訓練。這意味著,僅有一部分數據的輸出值得到了標註,而剩餘的數據則是未標註的或不精確標註的。這種方法提供了一種高效的解決方案,能夠在標註成本高昂和時間耗費大的情況下,充分利用豐富的未標註數據。
在現代機器學習的領域,獲取標註數據所需的成本往往極高,這使得擁有大規模的完整標註數據集變得不切實際。
當提到標註數據時,許多學者和工程師會立刻想到標註過程中的高昂開支。這過程可能需要專業的人員,如轉錄音頻片段或進行物理實驗來確定特定現象。因此,半監督學習不僅在理論上引人關注,實際上也為各種問題提供了可行的解決方案。這成為一種橋接標註與未標註數據之間的強大工具。
半監督學習的技術假設存在某種關聯性,使得它能夠利用大量未標註數據,大幅提升分類性能。
半監督學習的技術假設能夠從數據的潛在分佈中提取有意義的信息。這些技術包括連續性假設、聚類假設和流形假設。這些假設有助於從未標註數據中學習結構,例如,當數據點彼此相近時,更有可能擁有相同的標籤。此外,數據經常形成離散聚類,因此,同一聚類內的點可能會共享標籤。在這樣的假設下,半監督學習能夠更高效地學習數據的內在特徵。
而流形假設指出,數據往往位於低維流形上,這樣的觀點使得學習過程能夠避免維度詛咒。
對於半監督學習的歷史,最早可追溯至1960年代的自我訓練方法。此後於1970年代,Vladimir Vapnik正式引入了傳導學習的框架,並開始探索利用生成模型進行的誘導學習。這些方法開始成為理論研究的熱點,推動機器學習向前發展。
在實際應用中,各種方法相互交織,形成了一個相對複雜的生態系統。生成模型首先會估計數據在不同類別下的分佈,這使得模型能夠在標註數據不足的情況下,仍然能夠進行有效的學習。類似地,低密度分離方法通過在數據點稀少的區域劃定邊界,來達到分離標註數據和未標註數據的目的。
在這一系列技術中,拉普拉斯正則化藉助圖的表示方法來進行數據學習。這些圖通過相似性將每一個標註和未標註的樣本連結起來,通過圖的結構來強調數據的內在連結,進一步利用未標註數據來驅動學習過程。
從理論上講,半監督學習是一種模擬人類學習過程的模型,這使得它具備吸引力與實用性。
總結來看,弱監督學習的興起正是為了解決標註數據稀缺的挑戰,並展示了未標註數據的巨大潛力。隨著數據的快速增長和機器學習技術的不斷演進,我們或許需要重新思考:在未來的研究中,我們又應該如何更好地利用無標註數據的潛力呢?