No campo do aprendizado de máquina, o aprendizado multitarefa (MTL)
se tornou uma direção de pesquisa e desenvolvimento muito aguardada. A ideia principal dessa abordagem é resolver múltiplas tarefas de aprendizagem simultaneamente e explorar os pontos em comum e as diferenças entre as tarefas. Comparado ao treinamento do modelo sozinho, o MTL pode melhorar significativamente a eficiência do aprendizado e a precisão da previsão. As primeiras versões do aprendizado multitarefa eram chamadas de “dicas” e foram propostas pela primeira vez por Rich Caruana em 1997, em seu artigo descrevendo como o MTL melhora a generalização ao aprender em paralelo e compartilhar representações.
“A aprendizagem multitarefa é um método para melhorar o raciocínio, aproveitando informações de domínio de sinais de treinamento de tarefas relacionadas como um viés de inferência.”
No contexto da classificação, a aprendizagem multitarefa visa melhorar o desempenho de múltiplas tarefas de classificação por meio da aprendizagem conjunta. Por exemplo, para um filtro de spam para usuários diferentes, cada usuário pode ter uma distribuição diferente de recursos para identificar spam. Para falantes de inglês, todos os e-mails em russo podem ser considerados spam, mas isso não se aplica a falantes de russo. Entretanto, ainda há características comuns óbvias nessa tarefa de classificação, como símbolos de texto relacionados à transferência de dinheiro. Ao resolver em conjunto os problemas de classificação de spam de cada usuário por meio do MTL, as soluções podem influenciar umas às outras, melhorando assim o desempenho.
No entanto, um desafio fundamental na aprendizagem multitarefa está em como integrar os sinais de aprendizagem de múltiplas tarefas em um único modelo. Esta parte depende em grande parte da consistência ou contradição entre diferentes tarefas. No contexto do MTL, as informações podem ser compartilhadas seletivamente com base na relevância da tarefa.
“As informações são extraídas por meio da combinação e sobreposição de tarefas, e os dados podem ser compartilhados seletivamente com base na estrutura de dependências de tarefas.”
Especificamente, as tarefas podem ser agrupadas de acordo com alguma métrica geral ou existir em uma hierarquia. Por exemplo, o vetor de parâmetros de cada tarefa pode ser modelado como uma combinação linear de alguma base. A sobreposição de tarefas relacionadas mostra as semelhanças entre as tarefas, com base nas quais a combinação de tarefas pode ser realizada em um subespaço gerado por um determinado elemento básico. Em tal estrutura, diferentes tarefas podem ser disjuntas ou sobrepostas.
Além de tarefas relacionadas, o MTL também pode explorar o potencial de tarefas não relacionadas. Ao usar tarefas auxiliares não relacionadas, independentemente de sua natureza, ainda podemos obter os benefícios do aprendizado conjunto em nossas aplicações. O raciocínio por trás disso é que o conhecimento prévio sobre as correlações entre tarefas pode levar a uma representação mais esparsa e informativa para cada combinação de tarefas.
"Em experimentos com dados sintéticos e reais, os modelos que incluem tarefas não relacionadas superam significativamente os métodos de aprendizagem multitarefa padrão."
Intimamente relacionado à aprendizagem multitarefa está o conceito de transferência de conhecimento. A aprendizagem multitarefa tradicional implica o desenvolvimento de representações compartilhadas entre tarefas em paralelo, enquanto a transferência de conhecimento implica uma representação compartilhada sequencial. Em aplicações práticas, projetos de aprendizado de máquina em larga escala, como a rede neural convolucional profunda GoogLeNet, podem desenvolver representações robustas, o que será de grande ajuda em algoritmos de aprendizado posteriores para tarefas relacionadas.
Por exemplo, modelos pré-treinados podem ser usados como extratores de recursos para executar o pré-processamento de outros algoritmos de aprendizado. Ou modelos pré-treinados podem ser usados para inicializar modelos com estruturas semelhantes e depois ajustados para aprender diferentes tarefas de classificação.
Em alguns casos, treinar simultaneamente tarefas aparentemente relacionadas pode prejudicar o desempenho em comparação com modelos de tarefa única. Para resolver esses conflitos, vários métodos de otimização de MTL precisam ser utilizados para minimizar o impacto desse problema. De modo geral, para cada tarefa, os gradientes calculados são eventualmente mesclados em uma direção de atualização conjunta por meio de vários algoritmos de agregação ou métodos heurísticos.
Com o avanço da tecnologia e pesquisas aprofundadas sobre aprendizagem multitarefa, não podemos deixar de perguntar: como a aprendizagem multitarefa melhorará ainda mais a precisão e o escopo de aplicação de nossos modelos de aprendizado de máquina no futuro?