On the upper bound for the mathematical expectation of the norm of a vector uniformly distributed on the sphere and the phenomenon of concentration of uniform measure on the sphere
aa r X i v : . [ m a t h . O C ] F e b О верхней оценке математического ожидания нормыравномерно распределённого на сфере вектора и явленииконцентрации равномерной меры на сфере ∗ Э.А. ГОРБУНОВ ([email protected]),(Московский физико-технический институт, Москва),Е.А. ВОРОНЦОВА ([email protected]),(Дальневосточный федеральный университет, Владивосток),А.В. ГАСНИКОВ ([email protected]) ,(Московский физико-технический институт, Москва)
Аннотация
Рассматривается задача построения верхних оценок математического ожиданиянормы равномерно распределённого на единичной евклидовой сфере вектора.Библиография: 15 названий.
Ключевые слова: концентрация меры, равномерно распределённый на сферевектор
Пусть e ∈ RS n (1) — случайный вектор, имеющий равномерное распределение на n -мерной единичной евклидовой сфере.В настоящей работе рассматривается задача построения уточнённых верхних оценокматематического ожидания нормы вектора e . От точности построения таких оценокзависят, например, оценки скорости сходимости ускоренного метода (Accelerated by CouplingDirectional Search – ACDS), построенного на базе специального каплинга спусков понаправлению в форме градиентного спуска и метода зеркального спуска [1].Первые такие оценки были получены в 2014 году в [2], статья опубликована в 2016 годув [3]. Кроме того, независимо от работы [3] в 2015 г. похожие оценки были сделаны в [4],опубликовано в 2017 г. в [5]; и, также независимо, в 2015 г. одна из возможных оценокматематического ожидания нормы равномерно распределённого на единичной евклидовойсфере вектора была получена в [6].Основным результатом данной работы является теорема 1. Пусть задан некоторый (неслучайный) вектор s с единичной евклидовой сферы. Неумаляя общности, мы будем считать, что вектор s направлен вдоль первой координатнойоси (если это не так, то мы можем перейти к нужному базису). Тогда с вероятностью хотя ∗ Работа А.В. Гасникова и Э.А. Горбунова поддержана грантом РФФИ 18-31-20005 мол_а_вед. РаботаЕ.А. Воронцовой поддержана грантом РФФИ 18-29-03071. − c e − c будет выполнено неравенство |h s, e i| c √ n − (см. теорему 2.7 и рисунок 2.2 из[7] и [8]). То есть, если взять c = 10 , то получим, что с большой вероятностью выполненонеравенство h s, e i n (множество, на котором h s, e i n , обозначим через A s ; как мывидим, при достаточно больших n вероятностная мера множества A s велика). Кроме того,можно показать, что E [ h s, e i ] = n (см., например, лемму B.10 из [9]).Рассмотрим ∞ -норму, которая для произвольного вектора x ∈ R n задаётся формулой k x k ∞ = max i n | x i | , где x = ( x , x , . . . , x n ) ⊤ . Заметим, что функция f ( e ) = k e k ∞ являетсялипшицевой с константой в евклидовой норме. Рассмотрим константу M f такую, что P e { f ( e ) > M f } > и P e { f ( e ) M f } > . Тогда верно неравенство (см. [10], [11]) P e {| f ( e ) − M f | > t } e − t , t > . Это означает, что случайная величина k e k ∞ принимает очень близкие к E [ k e k ∞ ] ( M f и E [ f ( e )] асимптотически близки, см. [12]) значения на множестве достаточно большоймеры. Кроме того, можно показать, что максимальная по модулю компонента вектора e свероятностью не меньше − n √ n принимает значения по модулю меньшие √ ln n √ n − (множество,на котором k e k ∞ √ ln n √ n − , обозначим через B ∞ ). Тогда E [ h s, e i k e k ∞ ] близко к среднемузначению случайной величины h s, e i k e k ∞ на множестве A e ∩ B ∞ (чья вероятностная мерапо-прежнему велика), на котором она не превосходит
400 ln n/n . Константа в этой оценкесильно завышена и она уточняется далее в Теореме 1 (причём не только для ∞ -нормы).Однако такого рода рассуждения, вытекающие из явления концентрации равномерной мерына сфере, поясняют причины возникновения такой оценки, а также её целесообразность втерминах вхождения размерности пространства n .Сформулируем и докажем достаточно известный факт, заключающийся в том, чтовекторная q -норма является невозрастающей функцией от q для любого фиксированноговектора. Лемма 1
Для любого вектора x ∈ R n (и для любого n ∈ N ) выполнено неравенство: k x k p k x k p , (1) где p > p и под знаком k · k q понимается векторная q -норма (норма Гёльдера споказателем q ). Доказательство
Не умаляя общности, будем считать, что все компоненты вектора x являются ненулевыми (если вектор x ненулевой, то его норма равна норме его подвектораменьшей размерности, полученного удалением нулевых компонент, и, соответственно,можно рассматривать этот подвектор; если же вектор x = 0 , то неравенство (1) тожеверно). Пусть g x ( p ) def = ln k x k p = ln (cid:18) n P k =1 | x k | p (cid:19) p = p ln (cid:18) n P k =1 | x k | p (cid:19) . Тогда dg x ( p ) dp = − p ln n X k =1 | x k | p ! + 1 p · n P k =1 ln( | x k | ) · | x k | pn P k =1 | x k | p . ак как ln y — вогнутая по y функция, то по неравенству Йенсена получаем dg x ( p ) dp p ln (cid:18) n P k =1 | x k | p (cid:19) − p + p ln n P k =1 | x k | · | x k | pn P k =1 | x k | p = p ln n P k =1 | x k | p +1 (cid:18) n P k =1 | x k | p (cid:19) p +1 p p ln n P k =1 | x k | p +1 n P k =1 ( | x k | p ) p +1 p = 0 , то есть функция g x ( p ) — невозрастающая функция на [1 , + ∞ ) . Лемма доказана. Имеет место следующая теорема, являющаяся следствием явления концентрации равно-мерной меры на сфере вокруг экватора (см. также [13]; северный полюс задается градиентом ∇ f ( x ) ). Теорема 1
Пусть e ∈ RS n (1) , n > , s ∈ R n , тогда E [ || e || q ] min { q − ,
16 ln n − } n q − , q ∞ (2) E [ h s, e i || e || q ] √ || s || min { q − ,
32 ln n − } n q − , q ∞ , (3) где под знаком || · || q понимается векторная q -норма (норма Гёльдера с показателем q ). Доказательство
Докажем вспомогательное неравенство: E [ || e || q ] ( q − n q − , q < ∞ . (4) Во-первых, E [ || e || q ] = E "(cid:18) n P k =1 | e k | q (cid:19) q ① (cid:18) E (cid:20) n P k =1 | e k | q (cid:21)(cid:19) q ② = ( n E [ | e | q ]) q , (5) где ① выполнено в силу вероятностного неравенства Йенсена (функция ϕ ( x ) = x q являет-ся вогнутой, так как q > ), а переход ② корректен в силу линейности математическогоожидания и одинаковой распределённости компонент вектора e .Во-вторых, воспользуемся тем фактом (лемма Пуанкаре, см., например, [14, п. 6.3]),что e d = ξ p ξ + · · · + ξ n , (6) где ξ = ( ξ , ξ , . . . , ξ n ) ⊤ — n -мерный гауссовский случайный вектор с нулевым математи-ческим ожиданием и единичной ковариационной матрицей, а d = обозначает равенство пораспределению. Тогда E [ | e | q ] = E " | ξ | q ( ξ + ... + ξ n ) q = R ··· R R n | x | q (cid:18) n P k =1 x k (cid:19) − q · π ) n · exp (cid:18) − n P k =1 x k (cid:19) dx . . . dx n . ерейдём к сферическим координатам: x = r cos ϕ sin θ . . . sin θ n − ,x = r sin ϕ sin θ . . . sin θ n − ,x = r cos θ sin θ . . . sin θ n − ,x = r cos θ sin θ . . . sin θ n − ,. . .x n = r cos θ n − ,r > , ϕ ∈ [0 , π ) , θ i ∈ [0 , π ] , i = 1 , n − , якобиан преобразования координат равен det (cid:18) ∂ ( x , . . . , x n ) ∂ ( r, ϕ, θ , θ , . . . , θ n − ) (cid:19) = r n − sin θ (sin θ ) . . . (sin θ n − ) n − . Тогда математическое ожидание E [ | e | q ] можно записать в виде: E [ | e | q ] = R ··· R r> , ϕ ∈ [0 , π ) ,θ i ∈ [0 ,π ] , i =1 ,n − r n − | sin ϕ | q | sin θ | q +1 | sin θ | q +2 . . . | sin θ n − | q + n − · e − r (2 π ) n dr . . . dθ n − = π ) n I r · I ϕ · I θ · I θ · . . . · I θ n − , где I r = + ∞ R r n − e − r dr,I ϕ = π R | sin ϕ | q dϕ = 2 π R | sin ϕ | q dϕ,I θ i = π R | sin θ i | q + i dθ i , i = 1 , n − . Вычислим эти интегралы. Начнём с I r : I r = + ∞ R r n − e − r dr = / замена r = √ t/ = + ∞ R (2 t ) n − e − t dt = 2 n − Γ( n ) . Чтобы вычислить остальные интегралы, будет полезно рассмотреть следующийинтеграл ( α > : π R | sin ϕ | α dϕ = 2 π R | sin ϕ | α dϕ = 2 π R (sin ϕ ) α dϕ = / замена t = sin ϕ/ = R t α − (1 − t ) − dt = B ( α +12 , ) = Γ( α +12 )Γ( )Γ( α +22 ) = √ π Γ( α +12 )Γ( α +22 ) . Отсюда получаем, что E [ | e | q ] = π ) n I r · I ϕ · I θ · I θ · . . . · I θ n − = n − (2 π ) n · Γ( n ) · √ π Γ( q +12 )Γ( q +22 ) · √ π Γ( q +22 )Γ( q +32 ) · √ π Γ( q +32 )Γ( q +42 ) · . . . · √ π Γ( q + n − )Γ( q + n ) = √ π · Γ( n )Γ( q +12 )Γ( q + n ) . (7) Покажем, что ∀ q > √ π · Γ( n )Γ( q +12 )Γ( q + n ) (cid:18) q − n (cid:19) q . (8)4 начала убедимся, что неравенство (8) выполнено для q = 2 (и произвольного n ): √ π · Γ( n )Γ( )Γ( n ) − n = 1 √ π · Γ( n ) · Γ( ) n Γ( n ) − n = 1 n − n = 0 . Рассмотрим функцию (вообще говоря, двух аргументов) f n ( q ) = 1 √ π · Γ( n )Γ( q +12 )Γ( q + n ) − (cid:18) q − n (cid:19) q при q > . Также введём в рассмотрение функцию ψ ( x ) = d (ln(Γ( x ))) dx при x > (дигамма-функция). Для гамма-функции выполняется тождество Γ( x + 1) = x Γ( x ) , x > . Возьмём от этого тождества логарифм и продифференцируем по x : ln Γ( x + 1) = ln Γ( x ) + ln x, d (ln(Γ( x +1))) dx = d (ln(Γ( x ))) dx + x , что можно записать через дигамма-функцию: ψ ( x + 1) = ψ ( x ) + 1 x . (9) Покажем, что дигамма-функция возрастает при x > . Для этого докажем неравенство: (cid:0) Γ ′ ( x ) (cid:1) < Γ( x )Γ ′′ ( x ) . (10) Действительно, (Γ ′ ( x )) = (cid:18) + ∞ R e − t ln t · t x − dt (cid:19) ① < + ∞ R (cid:16) e − t t x − (cid:17) dt · + ∞ R (cid:16) e − t t x − ln t (cid:17) dt = + ∞ Z e − t t x − dt | {z } Γ( x ) · + ∞ Z e t t x − ln tdt | {z } Γ ′′ ( x ) , где ① следует из неравенства Коши-Буняковского (причём неравенство строгое, ибофункции e − t t x − и e − t t x − ln t линейно независимы). Из неравенства (10) следует, что d (ln Γ( x )) dx = (cid:18) Γ ′ ( x )Γ( x ) (cid:19) ′ = Γ ′′ ( x )Γ( x ) − (Γ ′ ( x )) (Γ( x )) (10) > , то есть дигамма-функция возрастает.Теперь покажем, что f n ( q ) убывает на отрезке [2 , + ∞ ) . Для этого достаточнорассмотреть ln( f ( q )) : ln( f n ( q )) = ln (cid:16) Γ( n ) √ π (cid:17) + ln (cid:16) Γ (cid:16) q +12 (cid:17)(cid:17) − ln (cid:0) Γ (cid:0) q + n (cid:1)(cid:1) − q (ln( q − − ln n ) , d (ln( f n ( q ))) dq = ψ (cid:16) q +12 (cid:17) − ψ (cid:0) q + n (cid:1) − ln( q − − q q − + ln n. окажем, что d (ln( f n ( q ))) dq < при q > . Пусть k = ⌊ n ⌋ (ближайшее целое число, непревосходящее n ). Тогда ψ (cid:0) q + n (cid:1) > ψ (cid:16) k − q +12 (cid:17) и ln n ln(2 k + 1) , откуда следует,что d (ln( f n ( q ))) dq < (cid:16) ψ (cid:16) q +12 (cid:17) − ψ (cid:16) k − q +12 (cid:17)(cid:17) − ln( q − − q q − + ln(2 k + 1) (9) = (cid:18) ψ (cid:16) q +12 (cid:17) − k − P i =1 1 q +12 + k − i − − ψ (cid:16) q +12 (cid:17)(cid:19) − q q − + ln (cid:16) k +1 q − (cid:17) ① − k − P i =1 2 q − k − i − q − + ln (cid:16) k +1 q − (cid:17) = − (cid:16) q − + q +1 + q +3 + . . . + q +2 k − (cid:17) + ln (cid:16) k +1 q − (cid:17) ② < − ln (cid:16) q +2 k − q − (cid:17) + ln (cid:16) k +1 q − (cid:17) ③ − ln (cid:16) k +1 q − (cid:17) + ln (cid:16) k +1 q − (cid:17) = 0 , где ① и ③ выполнены в силу неравенства q > , ② следует из оценки сверху интегралаот функции x интегралом от её верхней ступенчатой мажоранты g ( x ) = q − i , x ∈ [ q − i, q − i + 2] , i = 0 , k − : q − q + 1 + 2 q + 3 + . . . + 2 q + 2 k − > q +2 k − Z q − x dx = ln (cid:18) q + 2 k − q − (cid:19) . Итак, мы показали, что d (ln( f n ( q ))) dq < для q > и произвольного натурального n .Следовательно, для любого фиксированного n функция f n ( q ) убывает по q , а значит, f n ( q ) f n (2) = 0 , то есть справедливо неравенство (8) . Отсюда и из (5) , (7) получаем,что для любого q > E [ || e || q ] (5) ( n E [ | e | q ]) q (7) , (8) ( q − n q − . (11) Неравенство (11) нет смысла использовать при больших q (относительно n ). Рассмот-рим правую часть неравенства (11) как функцию q и найдём её минимум при q > .Рассмотрим h n ( q ) = ln( q −
1) + (cid:16) q − (cid:17) ln n (логарифм правой части (11) ). Производная h ( q ) : dh ( q ) dq = q − − nq , q − − nq = 0 ,q − q ln n + 2 ln n = 0 . Если n > , то точка минимума на множестве [2 , + ∞ ) есть q = ln n r − n ! (в случае n оказывается, что q = 2 ; везде далее считаем, что n > ). Поэтому длявсех q > q более точная оценка будет следующей: E [ || e || q ] ① < E [ || e || q ] (11) ( q − n q − ② (2 ln n − n n − = (2 ln n − e n (16 ln n − n (16 ln n − n q − , (12) где ① верно в силу Леммы 1, ② следует из неравенств q n, q > ln n . Объединяяоценки (11) и (12) , получаем неравенство (2) . еперь перейдём к доказательству неравенства (3) . Во-первых, получим оценку для q E [ || e || q ] . В силу вероятностного неравенства Йенсена ( q > ) E [ || e || q ] = E (cid:18) n P k =1 | e k | q (cid:19) ! q E "(cid:18) n P k =1 | e k | q (cid:19) q ① (cid:18) E (cid:20)(cid:18) n n P k =1 | e k | q (cid:19)(cid:21)(cid:19) q ② = (cid:0) n E [ | e | q ] (cid:1) q (7) , (8) n q (cid:18)(cid:16) q − n (cid:17) q (cid:19) q = (2 q − n q − , где ① следует из неравенства (cid:18) n P k =1 x k (cid:19) n n P k =1 x k для x , x , . . . , x n ∈ R , а ② естьследствие линейности математического ожидания и одинаковой распределённости ком-понент вектора e . Отсюда получаем оценку q E [ || e || q ] (2 q − n q − . (13) Рассмотрим правую часть неравенства (13) как функцию q и найдём её минимум при q > . Рассмотрим h n ( q ) = ln(2 q − (cid:16) q − (cid:17) ln n (логарифм правой части (13) ). Производная h ( q ) : dh ( q ) dq = q − − nq , q − − nq = 0 ,q − q ln n + ln n = 0 . Если n > , то точка минимума на множестве [2 , + ∞ ) есть q = ln n r − n ! (в случае n оказывается, что q = 2 ; везде далее считаем, что n > ). Поэтому длявсех q > q более точная оценка будет следующей: q E [ || e || q ] ① < q E [ || e || q ] (13) (2 q − n q − ② (4 ln n − n n − = (4 ln n − e n (32 ln n − n (32 ln n − n q − , (14) где ① верно в силу неравенства || e || q < || e || q для q > q , ② следует из неравенств q n, q > ln n . Объединяя оценки (13) и (14) , получаем неравенство q E [ || e || q ] min { q − ,
32 ln n − } n q − . (15) Теперь найдём E [ h s, e i ] , где s ∈ R n — некоторый вектор. Пусть S n ( r ) — площадьповерхности n -мерной евклидовой сферы радиуса n , dσ ( e ) — ненормированная равномернаямера на n -мерной евклидовой сфере. В данных обозначениях S n ( r ) = S n (1) r n − , S n − (1) S n (1) = n − n √ π Γ( n +22 )Γ( n +12 ) . Кроме того, пусть ϕ — угол между s и e . Тогда E [ h s, e i ] = S n (1) R S h s, e i dσ ( ϕ ) = S n (1) π R || s || cos ϕS n − (sin ϕ ) dϕ = || s || S n − (1) S n (1) π R cos ϕ sin n − ϕdϕ = || s || · n − n √ π Γ( n +22 )Γ( n +12 ) π R cos ϕ sin n − ϕdϕ. (16)7 тдельно вычислим интеграл: π R cos ϕ sin n − ϕdϕ = 2 π R cos ϕ sin n − ϕdϕ = / замена t = sin ϕ/ = π R t n − (1 − t ) dt = B ( n − , ) = Γ( )Γ( n − )Γ( n +42 ) = · Γ( )Γ( n − ) n +22 · Γ( n +22 ) = n +2 · √ π Γ( n − )2Γ( n +22 ) . Отсюда и из (16) получаем, что E [ h s, e i ] = || s || · n − n √ π Γ( n +22 )Γ( n +12 ) · n +2 · √ π Γ( n − )2Γ( n +22 ) = || s || · n − n ( n +2) · Γ( n − ) n − Γ( n − ) = || s || n ( n +2) ① || s || n . (17) Чтобы доказать неравенство (3) , осталось воспользоваться (15) , (17) и неравенствомКоши-Буняковского ( ( E [ XY ]) E [ X ] · E [ Y ] ): E [ h s, e i || e || q ] ① q E [ h s, e i ] · E [ || e || q ] √ || s || min { q − ,
32 ln n − } n q − . Теорема доказана.
Для уточнения констант в верхних оценках теоремы 1 были проведены вычислительныеэксперименты. При генерации случайных векторов, равномерно распределённых на поверх-ности n -мерной евклидовой сферы, использовалась лемма Пуанкаре (см. (6)) о том, чтокомпоненты любого вектора e , имеющего такое распределение, можно представлять какотношения e k √ e + ... + e n , где все e k , k = 1 , , . . . — независимые одинаково распределённыеслучайные величины, имеющие стандартное нормальное распределение N (0 , .На рис. 1 приведены результаты эксперимента по оценке математического ожидания ∞ -нормы векторов e ∈ RS n (1) . По теореме 1 при q = ∞ неравенство (2) имеет вид E [ || e || ∞ ] C t n − , где C t = 16 ln n − . Эти же константы (назовём их в этом случае C p ) можно оценитьпрактически, путём вычисления E [ || e || ∞ ] методом Монте-Карло. Это было сделано для n от до , и на рис. 1 приведено отношение C p /C t для разных n . Оказалось, что отношениес ростом n не меняется, что значит, что теоретическая оценка с точностью до константыверна.Такие же эксперименты были проведены и для оценки константы C t = √ || s || min { q − ,
32 ln n − } в неравенстве (3) при q = ∞ : E [ h s, e i || e || q ] C t n − . Результаты экспериментов (см. рис. 2) также подтверждают, что теоретическая оценка C t с точностью до константы верна.Код на языке Python всех вычислительных экспериментов выложен на Github [15]. Авторы выражают благодарность Павлу Евгеньевичу Двуреченскому за помощь вработе. 8 n C p / C t q = ∞ Рис. 1: Уточнение константы в оценке (2), n — размерность пространства, C t = 16 ln n − n C p / C t q = ∞ Рис. 2: Уточнение константы в оценке (3), n — размерность пространства, C t = √ || s || min { q − ,
32 ln n − } писок литературы [1] Е. A. Воронцова, A. В. Гасников, Э. А. Горбунов. Ускоренные спуски по случайномунаправлению с неевклидовой прокс-структурой // arXiv preprint arXiv:1710.00162[2] A. Gasnikov, A. Lagunovskaya, I. Usmanova, F. Fedorenko. Gradient-free prox-methods withinexact oracle for stochastic convex optimization problems on a simplex // arXiv preprintarXiv:1412.3890[3] А. В. Гасников, А. А. Лагуновская, И. Н. Усманова, Ф. A. Федоренко. Безградиентныепрокc-методы с неточным оракулом для негладких задач выпуклой стохастическойоптимизации на симплексе // Автомат. и телемех. 2016. 10. C. 57–77.[4] O. Shamir. An Optimal Algorithm for Bandit and Zero-Order Convex Optimization withTwo-Point Feedback // arXiv preprint arXiv:1507.08752[5] O. Shamir. An Optimal Algorithm for Bandit and Zero-Order Convex Optimization withTwo-Point Feedback // Journal of Machine Learning Research. 2017. 18. P. 1–11.[6] J. C. Duchi, M. I. Jordan, M. J. Wainwright, A. Wibisono. Optimal Rates for Zero-OrderConvex Optimization: The Power of Two Function Evaluations // IEEE Transaction onInformation Theory. 2015. Vol. 61. Iss. 5. P. 2788–2806.[7] A. Blum, J. Hopcroft, R. Kannan. Foundations of Data Science. Vorabversion einesLehrbuchs, 2016.[8] K. Ball. An elementary introduction to modern convex geometry // Flavors of Geometry.Vol. 31. Cambridge University Press, 1997.[9] L. Bogolubsky, P. Dvurechensky, A. Gasnikov, G. Gusev, Yu. Nesterov, A. Raigorodskii,A. Tikhonov, M. Zhukovskii. Learning Supervised PageRank with Gradient-Based andGradient-Free Optimization Methods // NIPS. 2016.[10] S. Boucheron, G. Lugosi, P. Massart. Concentration inequalities: A nonasymptotic theoryof independence. Oxford university press, 2013.[11] V. Milman, G. Schechtman. Asymptotic Theory of Finite Dimensional Normed Spaces.(With an Appendix by M. Gromov). Berlin, Springer-Verlag, 1986.[12] В. А. Зорич. Математический анализ в задачах естествознания. МЦНМО, 2008.[13] Баяндина А.С., Гасников А.В., Гулиев Ф.Ш., Лагуновская А.А. Безградиентныедвухточечные методы решения задач стохастической негладкой выпуклой оптимизациипри наличии малых шумов не случайной природы // arXiv preprint arXiv:1701.03821[14] M. Lifshits. Lectures on Gaussian Processes. Heidelberg Dordrecht London New York,Springer, 2012.[15] Э. А. Горбунов, Е. A. Воронцова. Вычислительные эксперименты,иллюстрирующие явление концентрации равномерной меры на по-верхности евклидовой сферы в малой окрестности экватора. URL: https://github.com/evorontsova/Concentration-of-Measure/blob/master/Concentration%20of%20Measure.ipynbhttps://github.com/evorontsova/Concentration-of-Measure/blob/master/Concentration%20of%20Measure.ipynb