I metodi kernel sono sempre più utilizzati nei campi della statistica e dell'apprendimento automatico. Questo metodo si basa principalmente sul presupposto di uno spazio del prodotto interno e migliora le prestazioni di previsione modellando la struttura di similarità dei campioni di input. Quando parliamo di metodi tradizionali come le macchine a vettori di supporto (SVM), le definizioni originali di questi metodi e delle loro procedure di regolarizzazione non erano basate su una prospettiva bayesiana. Tuttavia, da un punto di vista bayesiano, comprendere il contesto di questi metodi fornisce informazioni importanti.
L'introduzione dei metodi kernel non solo migliora le prestazioni di varie macchine di apprendimento, ma fornisce anche una nuova prospettiva per le basi teoriche dell'apprendimento automatico.
Le proprietà del kernel sono diverse e non necessariamente semi-definite, il che significa che la struttura sottostante può andare oltre il tradizionale spazio del prodotto interno e rivolgersi allo spazio di Hilbert del kernel ripetuto più generale (RKHS). Nella teoria della probabilità bayesiana, i metodi kernel diventano una componente chiave dei processi gaussiani, dove la funzione kernel è chiamata funzione di covarianza. In passato, i metodi kernel sono stati tradizionalmente utilizzati per problemi di apprendimento supervisionato, che solitamente coinvolgono uno spazio di input di tipo vettoriale e uno spazio di output di tipo scalare. Negli ultimi anni, questi metodi sono stati estesi per gestire problemi multi-output, come l'apprendimento multi-task.
Il compito principale dell'apprendimento supervisionato è stimare l'output di un nuovo punto di input sulla base dei dati di input e output del set di addestramento. Ad esempio, dato un nuovo punto di input x'
, dobbiamo imparare uno stimatore di valore scalare _f(x')
, e questa stima è basata su su un set di addestramento S
. Questo set di addestramento è composto da n
coppie input-output, rappresentate da S = (X, Y) = (x1, y1), …, (xn, yn)
. Un metodo di stima comune consiste nell'utilizzare una funzione bivariata positiva e simmetrica k(⋅, ⋅)
, spesso chiamata funzione kernel.
La sfida dell'apprendimento supervisionato è come apprendere in modo efficace da coppie input-output note e applicare questo apprendimento a punti dati invisibili.
Nel framework regolarizzato, l'ipotesi principale è che l'insieme delle funzioni F
sia contenuto in uno spazio di Hilbert kernel ripetuto Hk
. Le proprietà dello spazio di Hilbert del kernel ripetuto lo rendono ancora più attraente. Innanzitutto, la proprietà "ripetitiva" qui assicura che possiamo esprimere qualsiasi funzione tramite una combinazione lineare di funzioni kernel. In secondo luogo, queste funzioni rientrano nella chiusura delle combinazioni lineari in punti dati, il che significa che possiamo costruire modelli lineari e modelli lineari generalizzati. In terzo luogo, la norma quadrata di questo spazio può essere utilizzata per misurare la complessità di una funzione.
Lo spazio di Hilbert del kernel ripetuto non solo fornisce flessibilità nella rappresentazione delle funzioni, ma fornisce anche un quadro fattibile per l'equilibrio della complessità del modello.
La forma esplicita dello stimatore si ottiene risolvendo una procedura di minimizzazione della funzione di regolarizzazione. Questa funzione di regolarizzazione è composta da due parti principali: da un lato, tiene conto dell'errore quadratico medio di previsione; dall'altro, è una norma che controlla la complessità del modello attraverso il parametro di regolarizzazione. Il parametro di regolarizzazione λ
determina quanto penalizzare la complessità e l'instabilità nello spazio di Hilbert del kernel ripetuto.
In questo modo, non solo possiamo ottenere stime valide, ma anche ridurre notevolmente il rischio di overfitting.
Sulla base della combinazione di queste teorie, viene adottato il metodo di stima dello spazio di Hilbert del kernel ripetuto, che consente di passare dalla visione tradizionale a quella bayesiana. Pertanto, sia che si tratti di regolarizzazione o di inferenza bayesiana, alla fine potremo ottenere stimatori approssimativamente equivalenti. Questa relazione reciproca mostra senza dubbio il potenziale dei metodi kernel nello sviluppo di una famiglia diversificata di modelli di apprendimento automatico.
In futuro, con la crescita dei dati e della potenza di calcolo, questi metodi diventeranno pietre miliari nell'evoluzione dell'apprendimento automatico?