Im Bereich des maschinellen Lernens hat sich Multi-Task-Learning (MTL)
zu einer mit Spannung erwarteten Forschungs- und Entwicklungsrichtung entwickelt. Die Grundidee dieses Ansatzes besteht darin, mehrere Lernaufgaben gleichzeitig zu lösen und Gemeinsamkeiten und Unterschiede der Aufgaben auszunutzen. Im Vergleich zum alleinigen Trainieren des Modells kann MTL die Lerneffizienz und Vorhersagegenauigkeit erheblich verbessern. Frühe Versionen des Multi-Task-Learning wurden „Hinweise“ genannt und erstmals 1997 von Rich Caruana in seinem Aufsatz vorgeschlagen, in dem er beschreibt, wie MTL die Generalisierung durch paralleles Lernen und gemeinsame Nutzung von Darstellungen verbessert.
„Multi-Task-Learning ist eine Methode zur Verbesserung des Denkvermögens, indem Domäneninformationen aus Trainingssignalen verwandter Aufgaben als Inferenzverzerrung genutzt werden.“
Im Kontext der Klassifizierung zielt Multi-Task-Learning darauf ab, die Leistung mehrerer Klassifizierungsaufgaben durch gemeinsames Lernen zu verbessern. Beispielsweise kann bei einem Spamfilter für unterschiedliche Benutzer jeder Benutzer eine andere Verteilung der Funktionen zur Spam-Identifizierung haben. Für Englischsprachige gelten alle russischen E-Mails möglicherweise als Spam. Für Russischsprachige gilt das jedoch nicht. Dennoch gibt es bei dieser Klassifizierungsaufgabe immer noch offensichtliche Gemeinsamkeiten, wie beispielsweise Textsymbole im Zusammenhang mit Geldüberweisungen. Durch die gemeinsame Lösung der Spam-Klassifizierungsprobleme jedes Benutzers über MTL können sich die Lösungen gegenseitig beeinflussen und so die Leistung verbessern.
Eine wesentliche Herausforderung beim Multitask-Lernen besteht jedoch darin, die Lernsignale aus mehreren Aufgaben in ein einziges Modell zu integrieren. Dieser Teil hängt weitgehend von der Konsistenz oder dem Widerspruch zwischen verschiedenen Aufgaben ab. Im Rahmen von MTL können Informationen je nach Aufgabenrelevanz selektiv weitergegeben werden.
„Informationen werden durch die Kombination und Überlappung von Aufgaben extrahiert und Daten können basierend auf der Struktur der Aufgabenabhängigkeiten selektiv geteilt werden.“
Insbesondere können Aufgaben nach allgemeinen Maßstäben gruppiert werden oder in einer Hierarchie existieren. Beispielsweise kann der Parametervektor jeder Aufgabe als lineare Kombination einer Basis modelliert werden. Durch die zugehörige Aufgabenüberschneidung werden die Gemeinsamkeiten zwischen den Aufgaben aufgezeigt, auf deren Grundlage die Aufgabenkombination in einem durch ein bestimmtes Basiselement generierten Teilraum durchgeführt werden kann. In einer solchen Struktur können verschiedene Aufgaben getrennt oder überlappend sein.
Zusätzlich zu verwandten Aufgaben kann MTL auch das Potenzial nicht verwandter Aufgaben erschließen. Durch die Verwendung unabhängiger Hilfsaufgaben, unabhängig von ihrer Art, können wir in unseren Anwendungen dennoch von den Vorteilen des gemeinsamen Lernens profitieren. Der Grund hierfür liegt darin, dass Vorwissen über die Zusammenhänge zwischen Aufgaben zu einer spärlicheren und informativeren Darstellung für jede Aufgabenkombination führen kann.
„Bei Experimenten mit sowohl synthetischen als auch realen Daten übertreffen Modelle, die unabhängige Aufgaben beinhalten, die herkömmlichen Multi-Task-Lernmethoden deutlich.“
Eng mit dem Multi-Task-Lernen verbunden ist das Konzept der Wissensübertragung. Beim traditionellen Multitasking-Lernen werden gemeinsame Darstellungen für mehrere Aufgaben parallel entwickelt, während beim Wissenstransfer eine sequentielle gemeinsame Darstellung erforderlich ist. In praktischen Anwendungen können groß angelegte Projekte zum maschinellen Lernen wie das tiefe Convolutional-Neural-Netzwerk GoogLeNet robuste Darstellungen entwickeln, die bei weiteren Lernalgorithmen für verwandte Aufgaben eine große Hilfe sein werden.
Beispielsweise können vortrainierte Modelle als Merkmalsextraktoren verwendet werden, um die Vorverarbeitung für andere Lernalgorithmen durchzuführen. Oder es können vorab trainierte Modelle verwendet werden, um Modelle mit ähnlichen Strukturen zu initialisieren und diese dann zu optimieren, um verschiedene Klassifizierungsaufgaben zu erlernen.
In einigen Fällen kann das gleichzeitige Trainieren scheinbar verwandter Aufgaben die Leistung im Vergleich zu Einzelaufgabenmodellen beeinträchtigen. Um diese Konflikte zu lösen, müssen verschiedene MTL-Optimierungsmethoden genutzt werden, um die Auswirkungen dieses Problems zu minimieren. Generell werden für jede Aufgabe die berechneten Gradienten schließlich durch verschiedene Aggregationsalgorithmen oder heuristische Methoden in eine gemeinsame Aktualisierungsrichtung zusammengeführt.
Angesichts des technologischen Fortschritts und der eingehenden Forschung zum Multi-Task-Learning müssen wir uns fragen: Wie wird Multi-Task-Learning die Genauigkeit und den Anwendungsbereich unserer Modelle für maschinelles Lernen in Zukunft noch weiter verbessern?