Los métodos kernel se utilizan cada vez más en los campos de la estadística y el aprendizaje automático. Este método se basa principalmente en el supuesto de un espacio de producto interno y mejora el rendimiento de la predicción al modelar la estructura de similitud de las muestras de entrada. Cuando hablamos de métodos tradicionales como las máquinas de vectores de soporte (SVM), las definiciones originales de estos métodos y sus procedimientos de regularización no eran desde una perspectiva bayesiana. Sin embargo, desde un punto de vista bayesiano, comprender el contexto de estos métodos proporciona información importante.
La introducción de métodos kernel no sólo mejora el rendimiento de varias máquinas de aprendizaje, sino que también proporciona una nueva perspectiva para la base teórica del aprendizaje automático.
Las propiedades del núcleo son diversas y no necesariamente semidefinidas, lo que significa que la estructura detrás de él puede ir más allá del espacio de producto interno tradicional y recurrir al espacio de Hilbert del núcleo repetido más general (RKHS). En la teoría de probabilidad bayesiana, los métodos kernel se convierten en un componente clave de los procesos gaussianos, donde la función kernel se denomina función de covarianza. En el pasado, los métodos kernel se han utilizado tradicionalmente para problemas de aprendizaje supervisado, que generalmente involucran un espacio de entrada tipo vector y un espacio de salida tipo escalar. En los últimos años, estos métodos se han ampliado para abordar problemas con múltiples salidas, como el aprendizaje multitarea.
Análisis de problemas de aprendizaje supervisado
La tarea principal del aprendizaje supervisado es estimar la salida de un nuevo punto de entrada en función de los datos de entrada y salida del conjunto de entrenamiento. Por ejemplo, dado un nuevo punto de entrada x'
, necesitamos aprender un estimador de valor escalar _f(x')
, y esta estimación se basa en un conjunto de entrenamiento S
. Este conjunto de entrenamiento está compuesto de n
pares de entrada-salida, representados por S = (X, Y) = (x1, y1), …, (xn, yn)
. Un método de estimación común es utilizar una función bivariada simétrica y positiva k(⋅, ⋅)
, a menudo llamada función kernel.
El desafío del aprendizaje supervisado es cómo aprender eficazmente de pares de entrada-salida conocidos y aplicar este aprendizaje a puntos de datos invisibles.Perspectiva de regularización
En el marco regularizado, el supuesto principal es que el conjunto de funciones F
está contenido en un espacio de Hilbert de núcleo repetitivo Hk
. Las propiedades del espacio de Hilbert de núcleo repetitivo lo hacen aún más atractivo. En primer lugar, la propiedad "repetitiva" aquí garantiza que podemos expresar cualquier función a través de una combinación lineal de funciones de núcleo. En segundo lugar, estas funciones están dentro del cierre de combinaciones lineales en puntos dados, lo que significa que podemos construir modelos lineales y lineales generalizados. En tercer lugar, la norma cuadrada de este espacio se puede utilizar para medir la complejidad de una función.
El espacio de Hilbert del núcleo repetido no sólo proporciona flexibilidad en la representación de funciones, sino que también proporciona un marco factible para el equilibrio entre la complejidad del modelo.Estimador de exportación
La forma explícita del estimador se obtiene resolviendo un procedimiento de minimización de la función de regularización. Esta función de regularización consta de dos partes principales: por un lado, tiene en cuenta el error de predicción cuadrático medio; por otro lado, es una norma que controla la complejidad del modelo a través del parámetro de regularización. El parámetro de regularización λ
determina cuánto penalizar la complejidad y la inestabilidad en el espacio de Hilbert del núcleo repetitivo.
De esta manera, no sólo podemos obtener estimaciones válidas sino también reducir en gran medida el riesgo de sobreajuste.
A partir de la combinación de estas teorías, se adopta el método de estimación del espacio de Hilbert de núcleo repetido, que permite pasar de la visión tradicional a la perspectiva bayesiana. Por lo tanto, ya sea regularización o inferencia bayesiana, eventualmente podemos obtener estimadores aproximadamente equivalentes. Esta relación recíproca muestra sin duda el potencial de los métodos kernel en el desarrollo de una familia diversa de modelos de aprendizaje automático.
En el futuro, a medida que crezcan los datos y el poder computacional, ¿estos métodos se convertirán en hitos importantes en la evolución del aprendizaje automático?