On the relationship between imitative logit dynamics in the population game theory and mirror descent method in the online optimization using the example of the Shortest Path Problem
ТТруды МФТИ. 2015. Т. 7. № 4 О связи имитационной логит динамики в популяционной теории игр и метода зеркального спуска в онлайн оптимизации на примере задачи выбора кратчайшего маршрута
Гасников Александр Владимирович [email protected]
Лагуновская Анастасия Александровна [email protected]
Морозова Лариса Эдуардовна [email protected] Центр экономики транспорта и Центр исследования транспортной политики Института экономики транспорта и транспортной политики НИУ ВШЭ; ИППИ РАН; ПреМоЛаб МФТИ
Аннотация
В работе описывается метод зеркального спуска для задач стохастической онлайн оптимизации на симплексе и прямом произведении симплексов. На базе этого метода строятся оптимальные стратегии пользователей транспортной сети при выборе мар-шрутов следования. Поведение всех пользователей, действующих, согласно таким стратегиям, порождает имитационную логит динамику в популяционной игре, соот-ветствующей модели Бэкмана равновесного распределения потоков по путям. Таким образом, на конкретном примере (The Shortest Path Problem), в работе показывается связь онлайн оптимизации и популяционной теории игр. Обнаружение отмеченной связи составляет основной результат данной работы.
Ключевые слова: метод зеркального спуска, онлайн оптимизация, кратчайший путь в графе, равновесное распределение транспортных потоков по путям. Введение
В литературе по онлайн оптимизации почетное место занимает, так называемая, “За-дача о выборе кратчайшего пути” (“The Shortest Path Problem”), см., например, п. 5.4 [1]. Основной результат здесь заключается в описании “оптимальной” стратегии пользователя транспортной сети (на базе алгоритма “Follow the Perturbed Leader”), из дня в день выби-рающего маршрут следования, исходя из истории загрузок графа транспортной сети. В литературе по равновесной теории транспортных потоков наиболее популярными являются модели равновесного распределения потоков по путям. Одной из первых (и по-прежнему наиболее популярных) моделей такого рода является модель Бекмана [2] (также называемая BMW-моделью). Современные исследования этой модели связаны с ее пони-манием, как популяционной игры загрузок (как следствие, потенциальной игры [3]), поиск равновесия (Нэша) в которой сводится к задаче выпуклой оптимизации. Упомянутый эво-люционный подход, в частности, приводит к изучению различных естественных динамик (наилучших ответов, репликаторов, имитационной логит динамики и др.), отражающих “нащупывание” пользователями транспортной сети равновесия [4]. Все эти динамики по-ложительно коррелированны с антиградиентной динамикой, поэтому все они приводят в конечном итоге к одному и тому же равновесию (или в более общем случае к одному и тому же множеству равновесий). Тем не менее, возникает желание глубже разобраться с природой этих динамик. Понять чем та или иная динамика дополнительно (помимо отра-жения рациональности игроков/пользователей транспортной сети) примечательна. руды МФТИ. 2015. Т. 7. № 4
2 В данной работе мы постараемся пояснить, чем примечательна имитационная логит динамика, пояснив ее связь с алгоритмом поведения “Follow the Perturbed Leader”, а точ-нее с переформулировкой этого алгоритма на языке современной выпуклой онлайн опти-мизации: с методом зеркального спуска [5 – 11]. В разделе 2 статьи описаны различные варианты классического метода зеркального спуска применительно к задачам стохастической онлайн оптимизации с шумами. В виду последующих приложений мы сосредоточимся на множествах вида симплекса и прямого произведения симплексов. Хотя во многом эти результаты ранее были известны, тем не менее, в такой общности, в которой они приведены в данной статье, нам не удалось найти точной ссылки, поэтому было решено посвятить этому отдельный раздел 2. В разделе 3 мы используем результаты раздела 2 (в данной статье не в максимальной общности) для объяснения имитационной логит динамики, возникающей при описании поведения поль-зователей транспортной сети в модели Бекмана. Метод зеркального спуска для задач стохастической онлайн опти-мизации с неточным оракулом
Сформулируем основную задачу стохастической онлайн оптимизации с неточным оракулом. Требуется подобрать последовательность k x Q так, чтобы минимизировать псевдо регрет [6 – 11]: N Nk kN k k kx Qk k f x f x f xN N (1) на основе доступной информации , ;...; , k kx x k f x f x при расчете k x . Причем выполнено условие для любых k N ( k – сигма алгебра, порожденная , …, k ) * , , k k k kx k x k f x f x , , k k k kx k k E f x f x . Здесь случайные величины k могут считаться независимыми одинаково распре-деленными. Онлайновость постановки задачи допускает, что на каждом шаге k функция k f может выбираться из рассматриваемого класса функций враждебно по отношению к используемому нами методу генерации последовательности k x . В частности, k f может зависеть от , , ;...; , , ; k k kk x f x f x . Относительно класса функций, из которого выбираются k f , в данной работе будем предполагать выполненными следующие условия : 2. k f – выпуклые функции; 3. для любых k N , x Q Считаем также, что , max x y Q x y R . руды МФТИ. 2015. Т. 7. № 4 , x k f x M . Опишем метод зеркального спуска для решения задачи (1) (здесь можно следовать огромному числу литературных источников, мы в основном будем следовать работам [12, 13]). Введем норму в прямом пространстве (сопряженную норму будем обозначать * ) и прокс-функцию d x сильно выпуклую относительно этой нормы, с константой сильной выпуклости . Выберем точку старта arg min x Q x d x , считаем, что d x , d x . Введем брэгмановское “расстояние” , x V y d y d x d x y x . Везде в дальнейшем будем считать, что x d x V x R для всех x Q . Определим оператор “проектирования” согласно этому расстоянию Mirr arg min , k k kx xy Q g g y x V y . Метод зеркального спуска (МЗС) для задачи (1) будет иметь вид, см., например, [13] = Mirr , k k k kx kx x f x , k N . Тогда при выполнении условии (2) для любого u Q , k N имеет место неравенство, см., например, [13] , , ,2 k k k k k kx k k x k x x f x x u f x V u V u . Это неравенство несложно получить в случае евклидовой прокс-структуры d x x [14] (в этом случае МЗС для задачи (1) есть просто вариант обычного метода проекции градиента). Разделим сначала выписанное неравенство на и возьмем условное матема-тическое ожидание k k E , затем просуммируем то, что получится по k N , используя условие 1. Затем возьмем от того, что получилось при суммировании, полное математическое ожидание, учитывая условие 3. В итоге, выбирая * u x (решение задачи min N k x Qk f x ), получим при условиях 1, 2, 4 [11] ** 2 N xk xN k E V xV xN E f x M R N R M R N , выбирая RM N , получим Можно получить и адаптивный вариант приводимой далее оценки, для этого потребуется использовать метод двойственных усреднений [11, 13, 14]. руды МФТИ. 2015. Т. 7. № 4 kN k E f x MR RN . (2) Немного более аккуратные рассуждения (использующие неравенство Азума–Хефдинга) позволяют уточнить оценку (2) следующим образом (см., например, [15]): kN k f x M R R RN (3) с вероятностью . Оценки (2), (3) являются неулучшаемыми с точностью до мультипликативного чи-слового множителя. Причем верно это и для детерминированных (не стохастических) по-становок, в которых нет шумов ( ), при этом можно ограничиться классом линейных функций [1]. Рассмотрим три примера, которые понадобятся нам в дальнейшем [11, 15]. Пример 1 (симплекс).
Предположим, что nn ii Q S x x . Выберем , ln ln n i ii d x n x x . Тогда МЗС примет следующий вид ( M n N ): i x n , i n , при k N , i n
11 1 1 1 , ,exp exp, ,exp exp r r k kk r kkir i iki r r k kn k nr kkll r ll l f x f xxx xx f x f xxx x . Оценки псевдо регрета будут иметь вид: kN k nE f x M N , kN k f x M nN с вероятностью . Пример 2 (прямое произведение симплексов).
Предположим, что ,..., j mm n jj x z z Q S d . Выберем m jj x z , m j jjj d x d d z , ln ln j n jj j j ij j ii j zd z d n z d . Тогда вводя обозначения RM N , ln m j jj R d n , руды МФТИ. 2015. Т. 7. № 4
5 МЗС можно записать следующим образом: ji j j z d n , j i n , при k N , j i n , j m
1, 1 1 1 1 , ,exp exp, ,exp exp r r k kk r kkij jr i ij k j ji r r k kn k nr kklj jl r ll l f x f xxz zz d df x f xxz z . Оценки псевдо регрета будут иметь вид: m mkN k j j jj j
E f x M d n dN , m m mkN k j j j jj j j f x M d n d dN с вероятностью . Пример 3 (выбор среди вершин симплекса).
Вернемся к примеру 1 и будем до-полнительно считать, что по условию задачи k x должны выбираться среди вершин еди-ничного симплекса n S . Также как и раньше онлайновость постановки задачи допуска-ет, что на каждом шаге k функция k f может подбираться из рассматриваемого класса функций враждебно по отношению к используемому нами методу генерации последова-тельности k x . В частности, k f может зависеть от , , ;...; , , k k k x f x f , и даже от распределения вероятностей k p , согласно которому осуществляется выбор k x . Чтобы можно было работать с таким классом задач, нам придется наложить дополнитель-ные условия : 4. , kk f x l x , k N ; 5. На каждом шаге генерирование случайной величины k x согласно распределению вероятностей k p осуществляется независимо ни от чего. Выбор k f осуществляется без знания реализации k x . Следуя примеру 1, положим i i p x n , i n . При k N , i n со-гласно распределению вероятностей ( M n N )
11 1 1 1 , ,exp exp, ,exp exp r r k kk r kkir i iki r r k kn k nr kkll r ll l f x f xpx xp f x f xpx x , генерируем случайную величину i k , и полагаем
1, 0, 1 k kji k x x j i k . руды МФТИ. 2015. Т. 7. № 4
6 Оценки псевдо регрета будут иметь вид: kN k nE f x M N , kN k f x M nN с вероятностью . Приложение к задаче о выборе кратчайшего пути
Рассмотрим транспортную сеть, которую будем представлять ориентированным графом , V E , где V – множество вершин, а E – множество ребер. Обозначим множест-во пар источник-сток через OD V V ( OD m ); w d – корреспонденция, отвечающая паре w ; p x – поток по пути p ; w P – множество путей, отвечающих корреспонденции w , ww OD P P – множество всех путей. Обозначим через L – максимальное число ребер в пути из P . Будем считать, что затраты на прохождения ребра e E описываются неубы-вающей (и ограниченной в рассматриваемом диапазоне значений) функцией e e f M , где e f – поток по ребру e : e ep pp P f x x ,
1, 0, ep e pe p . Положим M ML . Введем p G x – затраты на проезд по пути p : p e e epe E G f x x . Введем также множество (прямое произведение симплексов), на котором транспортная сеть “будет жить” w p wp P X x d w OD x и функцию, порождающее потенциальное векторное поле G x : . e f x ee E x z dz Основное свойство этой функции заключается в том, что x G x . Будем считать, что число пользователей транспортной сети большое: : w w d d N , N , w OD , но в функциях затрат это учитывается : e e e e f f N . Таким образом, далее под w d , x , f будем понимать соответствующие прошкалирован-ные (по N ) величины [4]. Выберем корреспонденцию w OD , и рассмотрим пользователя транспортной се-тью, соответствующего этой корреспонденции. Стратегией пользователя является выбор руды МФТИ. 2015. Т. 7. № 4
7 одного из возможных путей следования w p P . Будем считать, что пользователь мало что знает об устройстве транспортной системы и о формировании своих затрат. Все что дос-тупно пользователю на шаге k – это история затрат на разных путях, соответствующих его корреспонденции, на всех предыдущих шагах w kr rp p p P r l G x . Для простоты рас-суждений мы не зашумляем эту информацию, считая что доступны точные значения имевших место затрат. Все последующие рассуждения (в виду общности выбранной в разделе 2) можно обобщить и на случай зашумленных данных (детали мы вынуждены здесь опустить). Допуская, что kp l M могут выбираться враждебно, пользователь стремиться действовать оптимальным образом, то есть так, как предписывает стратегия из примера 3 (с i p , w n P ). Заметим, что при некоторых дополнительных оговорках (см. п. 5.4 [1]) случайный выбор пути (согласно примеру 3) может быть осуществлен за время E , что не зависит от n , которое может быть намного больше (например, для манхетенской сети, см. п. 5.4 [1]). Представим себе, что остальные пользователи ведут себя аналогичным образом, но независимо (в вероятностном плане) друг от друга. Тогда в пределе N такая стохас-тическая марковская динамика в дискретном времени вырождается в детерминированную динамику в дискретном времени [16], описываемую итерационным процессом из примера 2 с j w , w j p p P z x , j w n P , M M m , j j M n N , N j jj m j m
N R M N , для задачи не онлайн оптимизации: min x X x , (4) k f x x , NN kk x xN , * * x , max lnRegret 12 min ln mjj mN N jjjj m nMx dN n . Решение задачи (4) иногда называют равновесием Нэша(–Вардропа) в описанной популя-ционной игре [4, 17], соответствующей модели Бэкмана равновесного распределения по-токов по путям [2]. Для простоты формулировок, будем далее считать, что решение един-ственно. Введем теперь схожий процесс (совпадающий с описанным ранее в пределе N ): дискретный аналог имитационной логит динамики с произвольным параметром , популярной в эволюционной теории игр [4]. Пусть отрезок времени T разбит на TN одинаковых отрезков, соответствующих шагам. На каждом шаге k TN каждый пользователь корреспонденции j w OD независимо от всех остальных поль-зователей с вероятностью N принимает решение выбрать потенциально новую страте-гию (маршрут следования) согласно распределению вероятностей j i P (в действительно-сти, тут требуются некоторые оговорки на случай когда, ki x , мы опускаем здесь эти детали, за подробностями отсылаем к монографии [4]) руды МФТИ. 2015. Т. 7. № 4 expexp j k ki iki k kl ll P x G xp x G x , а с вероятностью N – использовать стратегию предыдущего шага. Аналогично дейст-вуют пользователи, принадлежащие другим корреспонденциям j m . Тогда в преде-ле N эта динамика превратится на отрезке T в имитационную логит динамику в непрерывном времени [4, 16], в которой с каждым пользователем связан свой (независи-мый) Пуассоновский процесс с интенсивностью . В моменты скачков процесса пользова-тель принимает решение о потенциальной смене маршрута следования согласно распре-делению вероятностей j i P , j m expexp j i ii l ll P x t G x tp t x t G x t . При T описанный эргодический марковский процесс выходит на стационарную ве-роятностную меру [4] exp 1 N x o , которая при N экспоненциально концентрируется в окрестности решения задачи (4). Если описанные предельные переходы выполнить в обратном порядке: сначала N , потом T , то марковский процесс, отвечающий имитационной логит дина-мике выродится в СОДУ j i P , j m expexp j i ii j il ll P x t G x tdx t d xdt x t G x t . (5) Эта динамика (на внутренности инвариантного относительной этой динамики мно-жества X ) имеет глобальным аттрактором – неподвижную точку, определяемую как ре-шение задачи (4). Более того, СОДУ (5) имеет функцию Ляпунова x [4] (это общий факт: функционал Санова – является функционалом Больцмана [18]), причем [5]
2* 10
T m j jj x t dt d nT T . Заметим также, что СОДУ (5) можно понимать, как непрерывный аналог (см., на-пример, [19]) примера 2. Работа выполнена при финансовой поддержке РФФИ (коды проектов 13-01-12007-офи_м, 15-31-20571 мол_а_вед, 15-31-70001 мол_а_мос). Исследования первого и второго автора, связанные с п. 2, выполнено в ИППИ РАН за счет гранта Российского научного фонда (проект № 14-50-00150). руды МФТИ. 2015. Т. 7. № 4 Литература Lugosi G., Cesa-Bianchi N . Prediction, learning and games. New York: Cambridge Uni-versity Press, 2006. 2.
Patriksson M.
The traffic assignment problem. Models and methods. Utrecht, Nether-lands: VSP, 1994. 3.
Sandholm W.
Population games and Evolutionary dynamics. Economic Learning and So-cial Evolution. MIT Press; Cambridge, 2010. 5.
Немировский А.С., Юдин Д.Б.
Sridharan K.
Learning from an optimization viewpoint. PhD Thesis, Toyota Technologi-cal Institute at Chicago, 2011. 7.
Bubeck S.
Shalev-Shwartz S. Bubeck S.,
Cesa-Bianchi N
Hazan E.
Introduction to online convex optimization // e-print, 2015. http://ocobook.cs.princeton.edu/OCObook.pdf 11.
Гасников А.В., Нестеров Ю.Е., Спокойный В.Г.
Об эффективности одного метода рандомизации зеркального спуска в задачах онлайн оптимизации // ЖВМ и МФ. Т. 55. № 4. 2015. С. 55–71. 12.
Nemirovski A.
Allen-Zhu Z., Orecchia L.
Linear coupling: An ultimate unification of gradient and mirror descent // e-print, 2014. arXiv:1407.1537 14.
Nesterov Y.
Primal-dual subgradient methods for convex problems // Math. Program. Ser. B. 2009. V. 120(1). P. 261–283. 15.
Juditsky A., Nemirovski A.
First order methods for nonsmooth convex large-scale optimi-zation, I, II. In: Optimization for Machine Learning. Eds. S. Sra, S. Nowozin, S. Wright. MIT Press, 2012. 16.
Ethier N.S., Kurtz T.G.
Markov processes. Wiley Series in Probability and Mathematical Statistics: Probability and Mathematical Statistics. John Wiley & Sons Inc., New York, 1986. 17.
Гасников А.В., Гасникова Е.В., Мендель М.А., Чепурченко К.В.
Эволюционные вы-воды энтропийной модели расчета матрицы корреспонденций // Математическое моделирование. 2016. Т. 28. № 4. С. 111–124. arXiv:1508.01077 18.
Гасников А.В., Гасникова Е.В.
Теория макросистем с точки зрения стохастической химической кинетики // Труды МФТИ. 2015. Т. 7. № 4. С. 95–103. 19.