En el campo del aprendizaje automático, el aprendizaje multitarea (MTL) se ha convertido en una dirección de investigación y desarrollo muy esperada. La idea principal de este enfoque es resolver múltiples tareas de aprendizaje simultáneamente y explotar los puntos en común y las diferencias entre las tareas. En comparación con el entrenamiento del modelo solo, MTL puede mejorar significativamente la eficiencia del aprendizaje y la precisión de la predicción. Las primeras versiones del aprendizaje multitarea se denominaban “pistas” y fueron propuestas por primera vez por Rich Caruana en 1997, en su artículo que describía cómo el MTL mejora la generalización al aprender en paralelo y compartir representaciones.
“El aprendizaje multitarea es un método para mejorar el razonamiento aprovechando la información del dominio de las señales de entrenamiento de tareas relacionadas como un sesgo de inferencia”.
En el contexto de la clasificación, el aprendizaje multitarea tiene como objetivo mejorar el desempeño de múltiples tareas de clasificación mediante el aprendizaje conjunto. Por ejemplo, para un filtro de spam para diferentes usuarios, cada usuario puede tener una distribución diferente de funciones para identificar spam. Para los angloparlantes, todos los correos electrónicos rusos pueden considerarse spam, pero esto no se aplica a los hablantes de ruso. Sin embargo, todavía existen características comunes obvias en esta tarea de clasificación, como los símbolos de texto relacionados con la transferencia de dinero. Al resolver conjuntamente los problemas de clasificación de spam de cada usuario a través de MTL, las soluciones pueden influirse entre sí, mejorando así el rendimiento.
Sin embargo, un desafío clave en el aprendizaje multitarea radica en cómo integrar las señales de aprendizaje de múltiples tareas en un solo modelo. Esta parte depende en gran medida de la coherencia o contradicción entre las distintas tareas. En el contexto de MTL, la información se puede compartir de forma selectiva en función de la relevancia de la tarea.
“La información se extrae mediante la combinación y superposición de tareas, y los datos se pueden compartir de forma selectiva en función de la estructura de las dependencias de las tareas”.
En concreto, las tareas pueden agruparse según alguna métrica general o existir en una jerarquía. Por ejemplo, el vector de parámetros de cada tarea se puede modelar como una combinación lineal de alguna base. La superposición de tareas relacionadas muestra los puntos en común entre las tareas, en función de los cuales la combinación de tareas se puede llevar a cabo en un subespacio generado por un determinado elemento básico. En una estructura de este tipo, las diferentes tareas pueden estar disjuntas o superpuestas.
Además de las tareas relacionadas, MTL también puede aprovechar el potencial de tareas no relacionadas. Al utilizar tareas auxiliares no relacionadas, independientemente de su naturaleza, aún podemos obtener los beneficios del aprendizaje conjunto en nuestras aplicaciones. El razonamiento detrás de esto es que el conocimiento previo sobre las correlaciones entre tareas puede conducir a una representación más dispersa e informativa para cada combinación de tareas.
El concepto de transferencia de conocimiento"En experimentos con datos sintéticos y reales, los modelos que incluyen tareas no relacionadas superan significativamente a los métodos estándar de aprendizaje multitarea".
Estrechamente relacionado con el aprendizaje multitarea está el concepto de transferencia de conocimientos. El aprendizaje multitarea tradicional implica desarrollar representaciones compartidas en tareas en paralelo, mientras que la transferencia de conocimiento implica una representación compartida secuencial. En aplicaciones prácticas, los proyectos de aprendizaje automático a gran escala, como la red neuronal convolucional profunda GoogLeNet, pueden desarrollar representaciones robustas que serán de gran ayuda para futuros algoritmos de aprendizaje para tareas relacionadas.
Por ejemplo, los modelos previamente entrenados se pueden utilizar como extractores de características para realizar el preprocesamiento para otros algoritmos de aprendizaje. O se pueden utilizar modelos previamente entrenados para inicializar modelos con estructuras similares y luego ajustarlos para aprender diferentes tareas de clasificación.
Optimización multitarea y desafíosEn algunos casos, entrenar simultáneamente tareas aparentemente relacionadas puede dificultar el rendimiento en comparación con los modelos de tarea única. Para resolver estos conflictos, se deben utilizar varios métodos de optimización de MTL para minimizar el impacto de este problema. En términos generales, para cada tarea, los gradientes calculados eventualmente se fusionan en una dirección de actualización conjunta a través de varios algoritmos de agregación o métodos heurísticos.
Con el avance de la tecnología y la investigación en profundidad sobre el aprendizaje multitarea, no podemos evitar preguntarnos: ¿Cómo mejorará aún más el aprendizaje multitarea la precisión y el alcance de aplicación de nuestros modelos de aprendizaje automático en el futuro?