В области машинного обучения многозадачное обучение (MTL)
стало долгожданным направлением исследований и разработок. Основная идея этого подхода заключается в одновременном решении нескольких учебных задач и использовании общих черт и различий между задачами. По сравнению с обучением только модели, MTL может значительно повысить эффективность обучения и точность прогнозирования. Ранние версии многозадачного обучения назывались «подсказками» и были впервые предложены Ричем Каруаной в 1997 году в его статье, описывающей, как MTL улучшает обобщение за счет параллельного обучения и обмена представлениями. р>
«Многозадачное обучение — это метод улучшения рассуждений путем использования доменной информации из обучающих сигналов связанных задач в качестве смещения вывода».
В контексте классификации многозадачное обучение направлено на улучшение производительности нескольких задач классификации путем совместного обучения. Например, для спам-фильтра для разных пользователей у каждого пользователя может быть разное распределение функций для идентификации спама. Для англоговорящих все русские письма могут быть расценены как спам, но это не относится к русскоязычным. Однако в этой задаче классификации все же имеются очевидные общие черты, такие как текстовые символы, связанные с денежными переводами. Совместно решая проблемы классификации спама каждого пользователя посредством MTL, решения могут влиять друг на друга, тем самым повышая производительность. р>
Однако ключевая проблема многозадачного обучения заключается в том, как интегрировать обучающие сигналы из нескольких задач в единую модель. Эта часть во многом зависит от согласованности или противоречивости различных задач. В контексте MTL информация может выборочно распространяться в зависимости от релевантности задачи. р>
«Информация извлекается путем комбинирования и перекрытия задач, и данные могут выборочно передаваться на основе структуры зависимостей задач».
В частности, задачи могут быть сгруппированы по какой-либо общей метрике или существовать в иерархии. Например, вектор параметров каждой задачи можно смоделировать как линейную комбинацию некоторого базиса. Связанное перекрытие задач показывает общность между задачами, на основе которой может быть выполнена комбинация задач в подпространстве, генерируемом определенным базовым элементом. В такой структуре различные задачи могут быть разрозненными или пересекающимися.
Помимо связанных задач, MTL также может задействовать потенциал несвязанных задач. Используя несвязанные вспомогательные задачи, независимо от их характера, мы все равно можем получить преимущества совместного обучения в наших приложениях. Это объясняется тем, что имеющиеся знания о взаимосвязях между задачами могут привести к более разреженному и информативному представлению каждой комбинации задач. р>
«В экспериментах как с синтетическими, так и с реальными данными модели, включающие несвязанные задачи, значительно превосходят стандартные методы многозадачного обучения».
С многозадачным обучением тесно связана концепция передачи знаний. Традиционное многозадачное обучение подразумевает параллельную разработку общих представлений по задачам, в то время как передача знаний подразумевает последовательное общее представление. В практических приложениях крупномасштабные проекты машинного обучения, такие как глубокая сверточная нейронная сеть GoogLeNet, могут разрабатывать надежные представления, которые окажут большую помощь в дальнейших алгоритмах обучения для смежных задач. р>
Например, предварительно обученные модели можно использовать в качестве экстракторов признаков для выполнения предварительной обработки для других алгоритмов обучения. Или предварительно обученные модели можно использовать для инициализации моделей со схожими структурами, а затем настраивать их для обучения различным задачам классификации. р>
В некоторых случаях одновременное обучение, казалось бы, связанным задачам может снизить производительность по сравнению с моделями, выполняющими одну задачу. Для разрешения этих конфликтов необходимо использовать различные методы оптимизации MTL, чтобы минимизировать влияние этой проблемы. В общем случае для каждой задачи рассчитанные градиенты в конечном итоге объединяются в единое направление обновления с помощью различных алгоритмов агрегации или эвристических методов. р>
С развитием технологий и углубленными исследованиями многозадачного обучения мы не можем не задаться вопросом: как многозадачное обучение еще больше повысит точность и сферу применения наших моделей машинного обучения в будущем? р>