Os métodos do kernel são cada vez mais utilizados nas áreas de estatística e aprendizado de máquina. Este método é baseado principalmente na suposição de um espaço de produto interno e melhora o desempenho da previsão modelando a estrutura de similaridade das amostras de entrada. Quando falamos de métodos tradicionais, como máquinas de vetores de suporte (SVM), as definições originais desses métodos e seus procedimentos de regularização não eram de uma perspectiva bayesiana. Entretanto, de um ponto de vista bayesiano, entender o contexto desses métodos gera insights importantes.
A introdução de métodos de kernel não apenas melhora o desempenho de várias máquinas de aprendizado, mas também fornece uma nova perspectiva para a base teórica do aprendizado de máquina.
As propriedades do kernel são diversas e não necessariamente semidefinidas, o que significa que a estrutura por trás dele pode ir além do tradicional espaço do produto interno e se voltar para o espaço de Hilbert do kernel repetido (RKHS) mais geral. Na teoria da probabilidade bayesiana, os métodos kernel se tornam um componente-chave dos processos gaussianos, onde a função kernel é chamada de função de covariância. No passado, os métodos de kernel eram tradicionalmente usados para problemas de aprendizado supervisionado, que geralmente envolviam um espaço de entrada do tipo vetorial e um espaço de saída do tipo escalar. Nos últimos anos, esses métodos foram estendidos para lidar com problemas de múltiplas saídas, como aprendizado multitarefa.
A principal tarefa do aprendizado supervisionado é estimar a saída de um novo ponto de entrada com base nos dados de entrada e saída do conjunto de treinamento. Por exemplo, dado um novo ponto de entrada x'
, precisamos aprender um estimador de valor escalar _f(x')
, e esta estimativa é baseada em um conjunto de treinamento S
. Este conjunto de treinamento é composto de n
pares de entrada-saída, representados por S = (X, Y) = (x1, y1), …, (xn, yn)
. Um método de estimativa comum é usar uma função bivariada simétrica e positiva k(⋅, ⋅)
, frequentemente chamada de função kernel.
O desafio do aprendizado supervisionado é como aprender efetivamente a partir de pares de entrada-saída conhecidos e aplicar esse aprendizado a pontos de dados invisíveis.
Na estrutura regularizada, a principal suposição é que o conjunto de funções F
está contido em um espaço de Hilbert de kernel repetitivo Hk
. As propriedades do espaço de Hilbert do kernel repetitivo o tornam ainda mais atraente. Primeiro, a propriedade "repetitiva" aqui garante que podemos expressar qualquer função por meio de uma combinação linear de funções do kernel. Em segundo lugar, essas funções estão dentro do fechamento de combinações lineares em pontos dados, o que significa que podemos construir modelos lineares e lineares generalizados. Terceiro, a norma quadrada deste espaço pode ser usada para medir a complexidade de uma função.
O espaço de Hilbert do kernel repetido não apenas fornece flexibilidade na representação de funções, mas também fornece uma estrutura viável para o equilíbrio entre a complexidade do modelo.
A forma explícita do estimador é obtida resolvendo um procedimento de minimização da função de regularização. Essa função de regularização consiste em duas partes principais: por um lado, ela leva em consideração o erro quadrático médio de previsão; por outro lado, é uma norma que controla a complexidade do modelo por meio do parâmetro de regularização. O parâmetro de regularização λ
determina o quanto penalizar a complexidade e a instabilidade no espaço de Hilbert do kernel repetitivo.
Dessa forma, não só podemos obter estimativas válidas, mas também reduzir bastante o risco de overfitting.
Com base na combinação dessas teorias, adota-se o método de estimação do espaço de Hilbert de kernel repetido, que permite a transformação da visão tradicional para a perspectiva bayesiana. Portanto, seja por regularização ou inferência bayesiana, podemos eventualmente obter estimadores aproximadamente equivalentes. Essa relação recíproca mostra, sem dúvida, o potencial dos métodos de kernel no desenvolvimento de uma família diversificada de modelos de aprendizado de máquina.
No futuro, à medida que os dados e o poder da computação crescerem, esses métodos se tornarão marcos importantes na evolução do aprendizado de máquina?