在統計學和機器學習的領域,核方法的應用越來越廣泛。這種方法主要基於一種內積空間的假設,通過對輸入樣本的相似性結構進行建模,來提升預測性能。當我們談及支持向量機(SVM)等傳統方法時,這些方法的原始定義以及它們的正則化過程並非從貝葉斯的角度出發。然而,從貝葉斯的觀點來看,了解這些方法的背景會產生重要的啟示。
核方法的引入,不僅提升了各類學習機器的效能,還為機器學習的理論基礎提供了全新的視角。
核的特性是多樣的,並不一定是半正定的,這意味著其背後所隱藏的結構可能超越了傳統的內積空間,而轉向更一般的重複核希爾伯特空間(RKHS)。在貝葉斯概率論中,核方法成為高斯過程的關鍵組成部分,在這裡,核函數則稱為協方差函數。過去,核方法傳統上用於監督學習的問題,這些問題通常涉及向量型的輸入空間和標量型的輸出空間。近年來,這些方法已擴展至處理多輸出的問題,如多任務學習等。
監督學習的主要任務是,透過基於訓練集的輸入輸出數據,來估算一個新輸入點的輸出。例如,給定某個新的輸入點 x'
,我們需要學習一個標量值估器 _f(x')
,並且這個估計是基於一個訓練集 S
來進行的。這個訓練集是由 n
個輸入輸出對組合而成,表示為 S = (X, Y) = (x1, y1), …, (xn, yn)
。一個常見的估計方法是利用一個对称且正的雙變量函數 k(⋅, ⋅)
,通常稱其為核函數。
監督學習的挑戰在於如何有效地從已知的輸入輸出配對中學習,並將這種學習應用於未見的數據點。
在正則化的框架中,主要假設是函數集 F
包含在一個重複核希爾伯特空間 Hk
中。重複核希爾伯特空間的特性使其更具吸引力,首先,這裡的「重複性」特性能夠確保我們可以通過核函數的線性組合來表達任何的函數。其次,這些函數在給定的點的線性組合閉包內,意味著我們能夠構建出線性及廣義線性模型。第三,該空間的平方範數可以用來度量函數的復雜性。
重複核希爾伯特空間不僅提供了函數表示的靈活性,還為模型複雜性之間的平衡提供了可行的框架。
估計器的明確形式是通過求解正則化函數的最小化過程來得到的。這個正則化函數由兩個主要部分組成:一方面,考量預測誤差的平均平方;另一方面,是一個通過正則化參數來控制模型複雜性的範數。正則化參數 λ
決定了在重複核希爾伯特空間中,對複雜性和不穩定性的懲罰程度。
通過這種方式,我們不僅能夠獲得有效的估計,還在很大程度上減少了過擬合的風險。
在這些理論結合的基礎上,採用重複核希爾伯特空間的估計方法,使得從傳統的觀點轉變為貝葉斯的視角變得可能。從而,無論是正則化還是貝葉斯推斷,最終都可以得出近似等價的估計器。這種互惠關係,無疑顯示了核方法在向多樣化機器學習系列模型發展中的潛力。
在未來,隨著數據與計算能力的增長,這些方法是否會成為機器學習演變史上的重要里程碑呢?