Con el auge de los grandes modelos de lenguaje, la importancia de los datos sin etiquetar en el aprendizaje automático ha aumentado drásticamente. Este modelo se denomina aprendizaje débilmente supervisado o aprendizaje semisupervisado. Su núcleo es combinar una pequeña cantidad de datos etiquetados por humanos con una gran cantidad de datos sin etiquetar para el entrenamiento. Esto significa que solo una parte de los valores de salida de los datos está etiquetada, mientras que los datos restantes no están etiquetados o están etiquetados de manera imprecisa. Este enfoque proporciona una solución eficiente para aprovechar al máximo los datos enriquecidos sin etiquetar cuando el etiquetado es costoso y requiere mucho tiempo.
En el campo del aprendizaje automático moderno, el costo de obtener datos anotados suele ser extremadamente alto, lo que hace poco práctico tener conjuntos de datos anotados completos a gran escala.
Cuando se trata de etiquetar datos, muchos académicos e ingenieros piensan inmediatamente en el alto gasto que implica el proceso de etiquetado. Este proceso puede requerir personal especializado, como transcribir clips de audio o realizar experimentos físicos para identificar fenómenos específicos. Por lo tanto, el aprendizaje semisupervisado no sólo es teóricamente interesante, sino que también proporciona soluciones factibles a diversos problemas. Esto se convierte en una poderosa herramienta para tender un puente entre datos etiquetados y no etiquetados.
La tecnología de aprendizaje semisupervisado supone una cierta correlación, lo que le permite utilizar grandes cantidades de datos sin etiquetar para mejorar significativamente el rendimiento de la clasificación.
La técnica del aprendizaje semisupervisado supone la capacidad de extraer información significativa de la distribución subyacente de los datos. Estas técnicas incluyen supuestos de continuidad, supuestos de agrupamiento y supuestos múltiples. Estas suposiciones ayudan a aprender la estructura de los datos sin etiquetar; por ejemplo, cuando los puntos de datos están cerca unos de otros, es más probable que tengan la misma etiqueta. Además, los datos suelen formar grupos discretos, por lo que los puntos dentro del mismo grupo pueden compartir etiquetas. Bajo este supuesto, el aprendizaje semisupervisado puede aprender las características intrínsecas de los datos de manera más eficiente.
La hipótesis múltiple establece que los datos a menudo se ubican en variedades de baja dimensión. Esta visión permite que el proceso de aprendizaje evite la maldición de la dimensionalidad.
La historia del aprendizaje semisupervisado se remonta al método de autoformación en la década de 1960. Más tarde, en la década de 1970, Vladimir Vapnik introdujo formalmente el marco del aprendizaje conductivo y comenzó a explorar el aprendizaje inducido utilizando modelos generativos. Estos métodos han comenzado a convertirse en un punto candente en la investigación teórica y promover el desarrollo del aprendizaje automático.
En aplicaciones prácticas, varios métodos se entrelazan, formando un ecosistema relativamente complejo. El modelo generativo primero estima la distribución de datos en diferentes categorías, lo que permite que el modelo aprenda de manera efectiva incluso cuando no hay suficientes datos anotados. De manera similar, los métodos de separación de baja densidad logran el propósito de separar los datos etiquetados de los no etiquetados trazando límites en áreas donde los puntos de datos son escasos.
En esta serie de técnicas, la regularización laplaciana utiliza la representación gráfica para realizar el aprendizaje de datos. Estos gráficos conectan cada muestra etiquetada y no etiquetada a través de similitud, enfatizan la conexión interna de los datos a través de la estructura del gráfico y utilizan datos sin etiquetar para impulsar el proceso de aprendizaje.
Teóricamente, el aprendizaje semisupervisado es un modelo que simula el proceso de aprendizaje humano, lo que lo hace atractivo y práctico.
En resumen, el aumento del aprendizaje débilmente supervisado tiene como objetivo precisamente resolver el desafío de la escasez de datos etiquetados y demuestra el enorme potencial de los datos no etiquetados. Con el rápido crecimiento de los datos y la continua evolución de la tecnología de aprendizaje automático, es posible que debamos repensar: ¿cómo deberíamos utilizar mejor el potencial de los datos sin etiquetar en futuras investigaciones?