Comparison of robustness of statistical procedures for network structure analysis
L.P. Semenov, V.A. Kalyagin, P.A. Koldanov, M.V. Batsyn, S.V. Golovanova, M.A. Voronina
ССравнение устойчивости процедур анализа характеристик сетевых моделей фондовых рынков.
Семенов Д.П., Калягин В.А., Колданов П.А., Бацын М.В., Голованова С.В.,Воронина М.А.August 27, 2018
АннотацияПод сетевой моделью фондового рынка понимается полный взвешенный граф, вершины ко-торого соответствуют доходностям рыночных активов, а веса ребер задаются мерой их зависи-мости. Для фильтрации ключевой информации из сетевой модели выделяются подграфы, кото-рые мы будем называть сетевыми структурами. К популярным сетевым структурам в настоя-щее время относятся граф рынка, клики и независимые множества графа рынка, максимальноеостовное дерево. При выделении таких структур и других характеристик сетевой модели из на-блюдений неизбежно появляются ошибки, которые связаны со случайным характером данных,с конечностью времени наблюдения и с процедурами идентификации сетевых структур. Анализтаких ошибок в настоящей работе основан на вероятностной модели доходностей акций, кото-рая описывается классом эллиптических распределений. Основное внимание сосредоточено наанализе устойчивости и сравнении характеристик двух типов процедур идентификации: широкоизвестные процедуры, основанные на выборочном аналоге коэффициентов корреляции Пирсонаи недавно предложенные процедуры, основанные на выборочных аналогах вероятностей совпа-дения знаков.
Ключевые слова: фондовый рынок, сетевая модель, сетевые структуры, сеть случайных величин,процедуры идентификации, гистограмма распределения весов ребер, граф рынка, распределениестепеней вершин графа рынка, клики и независимые множества графа рынка, топология макси-мального остовного дерева.
1. Введение
В последнее время всё большее распространение получают методы анализа фондового рынка, ос-нованные на построении соответствующей сетевой модели[22], [10], [27]. Под сетевой моделью фон-дового рынка понимается полный взвешенный граф, вершины которого соответствуют доходностямрыночных активов (акций), а веса ребер задаются мерой их зависимости. Для фильтрации наи-более ценной информации из такой модели выделяются подграфы, которые называются сетевымиструктурами. К популярным сетевым структурам можно отнести граф рынка, клики и независимыемножества графа рынка [10] и максимальное остовное дерево [22]. К настоящему времени известнодостаточно большое количество работ по применению такого подхода к анализу рынков различныхстран и интерпретации полученных результатов [14], [15], [17], [18], [24], [25], [28], [26],[1], [21], [13],[12], [11]. Вместе с тем, в этих исследованиях отсутствует анализ достоверности полученных выво-дов. Такой анализ необходим так как наблюдения над акциями представляют собой наблюдения надслучайными величинами [5], [4]. Следовательно, при выделении сетевых структур и анализе другиххарактеристик сетевой модели по наблюдениям неизбежно появляются ошибки, которые связаны сослучайным характером данных, с конечностью времени наблюдения и с применяемыми процедурамиидентификации сетевых структур. Первой работой, в которой задача идентификации сетевых струк-тур рассматривалась с учетом случайного характера наблюдений является работа [20]. Настоящая1 a r X i v : . [ m a t h . S T ] J a n абота является продолжением исследований в этом направлении.Математической основой проводимых исследований является понятие сети случайных величин [2],[19].Сетью случайных величин называется пара ( X , γ ) , где X = ( X , X , ..., X N ) — случайный вектор, γ = γ ( X , Y ) — мера зависимости случайных величин X , Y . В сетевой модели, порожденной сетью случай-ных величин, вес ребра ( i , j ) задается значением γ ( X i , X j ) . Для построения сети случайных величинфондового рынка и порожденной сетевой модели, вектор X = ( X , X , ..., X N ) задаётся совместнымраспределением доходностей рыночных активов. Для описания такого распределения в настоящеевремя используются многомерные эллиптические распределения [16] и распределения, заданные раз-личными копула-функциями [4]. В широкий класс эллиптических распределений входят, в частно-сти, многомерные нормальные распределения и распределения Стьюдента с тяжелыми хвостами.В качестве меры зависимости доходностей обычно используется коэффициент корреляции Пирсона.Вместе с тем, в работах [8], [7] было показано, что неопределенность процедур идентификации графарынка и максимального остовного дерева, основанных на выборочных корреляциях Пирсона, можетсущественно возрастать при отклонении совместного распределения доходностей от нормального.В работе [9] предложена новая мера зависимости доходностей, основанная на вероятности совпаде-ния знаков. В работах [8], [7] экспериментально установлено, что процедуры идентификации графарынка и максимального остовного дерева, основанные на вероятности совпадения знаков, обладаютсвойством устойчивости при отклонении распределения от нормального. В работе [19] теоретическидоказана устойчивость статистических процедур идентификации графа рынка в сетевых моделях,порожденных сетями случайных величин в классе эллиптических распределений. В [2],[19] доказано,что этот вывод справедлив и для процедур идентификации максимального остовного дерева. Вме-сте с тем, остаётся открытым вопрос насколько сильно отличаются характеристики устойчивостипроцедур идентификации клик и независимых множеств, а также процедур оценивания других ха-рактеристик сетевых моделей и сетевых структур.Целью настоящей работы является сравнение характеристик устойчивости двух типов процедуридентификации: широко известные процедуры, основанные на выборочном коэффициенте корреля-ций Пирсона и процедуры, основанные на оценках вероятностей совпадения знаков в классе эллип-тических распределений. При этом изучаются такие сетевые структуры как: максимальные кликии максимальные независимые множества графа рынка и такие характеристики как: распределениевесов рёбер сетевой модели (полного взвешенного графа) фондового рынка, распределение степенейвершин в графе рынка, топология степеней вершин максимального остовного дерева.Работа организована следующим образом: в разделе 2 описана вероятностная модель, сеть случай-ных величин, введены основные определения и обозначения; в разделе 3 приведены формулировкизадач; в разделе 4 изложен общий подход к сравнению истинных и выборочных характеристик се-тевых моделей и их структур; в разделе 5 приведены результаты статистического моделирования,основанные на анализе рынков 8 стран и обсуждаются полученные результаты.
2. Основные определения и обозначения
Определение 1. Сетью случайных величин будем называть пару ( X , γ ) , где X = ( X , . . . , X N ) -векторслучайных величин, а γ = { γ i , j : i , j = , . . . , N ; i ̸ = j } мера зависимости между случайными величинами X i , X j .В зависимости от распределения вектора X и выбранной меры зависимости γ можно рассматри-вать различные сети случайных величин. Будем предполагать, что вектор X имеет эллиптическоераспределение, плотность которого имеет вид [6]: f ( x ) = | Λ | − g (( x − µ ) ′ Λ − ( x − µ )) , (1)где Λ - положительно определенная матрица, g ( x ) ≥ , а функция распределения g ( x ′ x ) удовлетворяетусловию нормировки ∞ − ∞ g ( x ′ x ) d ( x ) = f ( x ) = ( π ) n / | Λ | / exp − ( x − µ ) ′ Λ − ( x − µ ) многомерное распределение Стьюдента t ν ( x ) = ( ν π ) N ∗ det Λ Г ( ν + N ) Г ( ν ) ( + ( x − µ ) ′ Λ − ( x − µ ) ν ) ν + N и их смесь при одном и том же векторе µ и матрице Λ , где ν - количество степеней свободы.В настоящей работе рассматриваются следующие сети случайных величин.Определение 2. Эллиптической сетью корреляций Пирсона будем называть сеть случайных вели-чин ( X , γ P ) , в которой вектор X = ( X , . . . , X N ) имеет распределение с плотностью, постоянной намногомерных эллипсоидах, а мера зависимости γ Pi , j между случайными величинами X i , X j задаетсякоэффициентом корреляции Пирсона ρ i , j = E ( X i − EX i )( X j − EX j ) DX i DX j Такие сети (без предположения о распределении X ) широко применяются в задачах генетики ифинансового рынка [22], [12], [10], [11].Определение 3. Эллиптической сетью вероятностей совпадения знаков или знаковой сетью будемназывать сеть случайных величин ( X , γ Sg ) , в которой вектор X = ( X , . . . , X N ) имеет распределение сплотностью, постоянной на многомерных эллипсоидах, а мера зависимости γ Sgi , j между случайнымивеличинами X i , X j задается вероятностью совпадения знаков p i , j = P (( X i − µ i )( X j − µ j ) > ) Сети случайных величин порождают сетевые модели, которые представляют собой простой пол-ный неориентированный взвешенный граф G = ( V , E , γ ) , где V = { , , . . . , N } - множество вершин,которые описываются случайными величинами X , X , . . . , X N , E - множество ребер с весами, задан-ными мерой γ .Изучение сетевых моделей G = ( V , E , γ ) естественно свести к изучению ключевых характеристиксоответствующих графов. В теории графов предложено достаточно большое количество таких харак-теристик: отсеченный граф, клики, независимые множества, максимальное остовное дерево, степенивершин, центральность, диаметр и т.д.В настоящей работе исследуются характеристики графов, удовлетворяющие следующим определе-ниям:Определение 4. Распределением весов ребер называется функция h ( x ) = m , где m - число ребер веса x .Определение 5. Отсеченным графом (графом рынка, MG) сетевой модели G = ( V , E , γ ) называетсяподграф G ′ ( γ ) = ( V ′ , E ′ ) : V ′ = V ; E ′ ⊆ E , E ′ = { ( i , j ) : γ i , j > γ } , где γ - некоторый порог.Подчеркнем, что граф рынка представляет собой простой неориентированный граф без весов ибез петель. Вместе с графом рынка часто изучаются его клики и независимые множества.Определение 6. Под распределением степеней вершин графа рынка понимается таблица × N , гдев первой строке указаны возможные значения степеней вершин , , . . . , N − , а во второй строкеуказано число вершин ν i степени i , i = , . . . , N − .Определение 7. Кликой графа рынка G = ( V , E ) называется полный подграф графа G , т.е. подграф G ′ = ( V ′ , E ′ ) : V ′ ⊂ V , E ′ ⊂ E : ∀ i , j ∈ V ′ ⇒ ( i , j ) ∈ E ′ G = ( V , E ) называется максимальной(MC) (по размеру), если для любойдругой клики G = ( V , E ) выполняется: | V | ≥ | V | Определение 9. Независимым множеством (IS) графа рынка G = ( V , E ) называется пустой подграфграфа G , т.е. подграф G = ( V , E ) : V ⊂ V , E ⊂ E : ∀ i , j ∈ V ⇒ ( i , j ) / ∈ E Определение 10. Независимое множество G = ( V , E ) называется максимальным (MIS) (по размеру),если для любого другого независимого множества G = ( V , E ) графа G выполняется: | V | ≥ | V | .Семейство { MG ( γ ) : γ ∈ R } содержит наиболее полную информацию о сетевой модели, в частно-сти, о сетевой модели рынка. При этом клики и независимые множества характеризуют кластернуюструктуру рынка. Кроме того, размер максимальных клик является показателем глобализации, аразмер максимального независимого множества является показателем степени ’свободы’ на рынке.Определение 11. Максимальным остовным деревом (MST) сетевой модели G = ( V , E , γ ) называетсядерево (граф без циклов) G ′ = ( V ′ , E ′ ) : V ′ = V ; E ′ ⊂ E ; | E ′ | = | V | − такое, что ∑ ( i , j ) ∈ E ′ γ i , j максимальна.Определение 12. Топологией MST будем называть последовательность степеней вершин MST, упо-рядоченную в возрастающем порядке.
3. Задачи идентификации характеристик сетевых моделей фондовых рын-ков
При практическом построении характеристик сетевых моделей распределение вектора X и значение γ i , j неизвестны. Доступными данными являются наблюдения за доходностями рыночных активов.Под проблемой идентификации характеристик сетевых моделей в настоящей работе понимается за-дачи построения таких характеристик по наблюдениям. В качестве модели наблюдений используетсяповторная выборка x i ( t ) , i = , . . . , N ; t = , . . . , n конечного объема из распределения случайного век-тора X = ( X , . . . , X N ) .1. Задача оценки распределения весов ребер h ( x ) заключается в построении гистограммы оценоквесов рёбер.2. Задача идентификации графа рынка заключается в выборе одной из гипотез: H T G : γ i , j ≤ γ , ∀ ( i , j ) , i < j , H T G : γ , > γ , γ i , j ≤ γ , ∀ ( i , j ) ̸ = ( , ) , i < j , H T G : γ , > γ , γ > γ , γ i , j ≤ γ , ∀ ( i , j ) ̸ = ( , ) , ( i , j ) ̸ = ( , ) ,. . . H T GL : γ i , j > γ , ∀ ( i , j ) , i < j , (2)При этом гипотеза H T G соответствует пустому графу рынка G ′ ( γ ) , гипотеза H T G - графу рынка G ′ ( γ ) с одним ребром ( , ) , и т.д., гипотеза H T GL соответствует полному графу рынка G ′ ( γ ) .Для сетевой модели на N вершинах число гипотез равно L = N ( N − )
3. Задача оценки степеней вершин в графе рынка.4. Задача идентификации максимальных клик в графе рынка.5. Задача идентификации максимальных независимых множеств в графе рынка.4. Задача идентификации MST.Пусть E = { ( i , j ) : ( i , j ) ∈ E } - подмножество ребер, образующих остовное дерево, E = { ( i , j ) : ( i , j ) ∈ E } - другое подмножество ребер, образующих остовное дерево и т.д. Обозначим мно-жество всех таких подмножеств E MST = { E , E , . . . , E L MST } . В соответствии с определением 11задача идентификации максимального остовного дерева (при условии, что оно единственно) понаблюдениям x i ( t ) ; i = , . . . , N , t = , . . . , n может быть сформулирована как задача выбора однойиз многих статистических гипотез H MST : ∑ ( i , j ) ∈ E γ i , j > ∑ ( i , j ) ∈ E k γ i , j : ∀ E k ∈ E MST , E k ̸ = E H MST : ∑ ( i , j ) ∈ E γ i , j > ∑ ( i , j ) ∈ E k γ i , j : ∀ E k ∈ E MST , E k ̸ = E H MST : ∑ ( i , j ) ∈ E γ i , j > ∑ ( i , j ) ∈ E k γ i , j : ∀ E k ∈ E MST , E k ̸ = E . . . H MSTL
MST : ∑ ( i , j ) ∈ E LMST γ i , j > ∑ ( i , j ) ∈ E k γ i , j : ∀ E k ∈ E MST , E k ̸ = E L MST (3)Согласно формуле Кэли число остовных деревьев в полном графе на N вершинах, и следова-тельно, число различаемых гипотез равно L MST = N N − .7. Задача оценки топологии MST.
4. Меры различия истинных и выборочных характеристик
Пусть γ i , j , i , j = , . . . , N - истинное значение меры зависимости между случайными величинами X i и X j (вес ребра между вершинами i и j в сетевой модели). Сетевую модель, построенную на основе γ i , j , i , j = , . . . , N будем называть истинной сетевой моделью. Характеристики этой сетевой модели,определенные в разделе 2 будем называть истинными характеристиками сетевой модели.Пусть ˆ γ i , j , i , j = , . . . , N - оценка значения меры зависимости между случайными величинами X i и X j , построенная по выборке x i ( t ) , i = , . . . , N ; t = , . . . , n . Сетевую модель, построенную на основе ˆ γ i , j , i , j = , . . . , N будем называть выборочной сетевой моделью. Характеристики этой сетевой моделибудем называть выборочными характеристиками сетевой модели.Введем меры различия между истинными и выборочными характеристиками соответствующих се-тевых моделей.Определение 13. Под мерой различия истинного распределения весов ребер h ( x ) и оценкой этогораспределения (гистограммой ˆ h ( x ) ) будем понимать E ( | S − ˆ S | ) , где E - математическое ожидание, S -площадь под кривой h ( x ) , ˆ S - площадь под кривой ˆ h ( x ) .Определение 14. Под мерой различия оценки распределения степеней вершин графа рынка и егоистинного значения будем понимать E ( ∑ N − i = | k i − ˆ k i | ) , где N – число вершин, k i – истинное числовершин степени i , ˆ k i – ее оценка.Определение 15. Под мерой различия максимальных выборочных и истинных клик (независимыхмножеств) будем понимать E ( ∑ Ni = | v i − ˆ v i | ) математическое ожидание мощности симметрической раз-ности множества вершин истинной клики и выборочной клики, где N – число вершин, v i – индикатор,равный , если вершина i есть в клике (независимом множестве), а ˆ v i – индикатор в выборочной клике(независимом множестве).Определение 16. Под мерой различия топологии выборочного и истинного MST будем пониматьвероятность правильного определения топологии степеней вершин.Определение 17. Под устойчивостью введенных мер различия к изменению вероятностной моделираспределения вектора X будем понимать независимость этих мер от функции g .5 . Результаты исследования устойчивости процедур оценки характери-стик сетевых моделей В настоящем разделе приведены результаты исследования устойчивости двух типов процедур иден-тификации характеристик сетевых моделей. Исследования проводились в рамках эллиптической се-ти корреляции Пирсона. В качестве истинных сетевых моделей были использованы сетевые модели,построенные по наблюдениям за доходностями акций реальных рынков. Были проанализированы до-ходности наиболее доходных акций рынков России, Бразилии, Индии, Китая, Франции, Германии,США и Великобритании за 2010-2012 года. В качестве истинных значений весов ребер использова-лись значения коэффициентов корреляции Пирсона, построенные по наблюдениям за календарныйгод. В таблице 1 для примера приведен фрагмент матрицы × весов истинной сетевой моделирынка Великобритании за 2010 год.Таблица 1. Фрагмент истинной матрицы корреляций доходностей. Великобритания, 2010 год. СетьПирсона. 1,00 0,12 0,00 0,10 -0,05 -0,14 0,04 -0,02 -0,02 0,220,12 1,00 0,08 -0,03 -0,01 -0,03 -0,05 -0,03 0,05 -0,100,00 0,08 1,00 0,04 -0,06 0,02 0,02 -0,04 -0,04 -0,030,10 -0,03 0,04 1,00 -0,07 0,06 0,10 0,06 0,04 0,09-0,05 -0,01 -0,06 -0,07 1,00 0,49 0,14 0,44 0,35 0,01-0,14 -0,03 0,02 0,06 0,49 1,00 0,24 0,48 0,42 -0,090,04 -0,05 0,02 0,10 0,14 0,24 1,00 0,30 0,15 0,00-0,02 -0,03 -0,04 0,06 0,44 0,48 0,30 1,00 0,45 0,04-0,02 0,05 -0,04 0,04 0,35 0,42 0,15 0,45 1,00 0,010,22 -0,10 -0,03 0,09 0,01 -0,09 0,00 0,04 0,01 1,00На основе таких сетевых моделей за каждый год наблюдений для каждой страны были построеныистинные характеристики. В общей сложности для 8 стран, 3 лет наблюдений и 5 характеристик былопостроено ∗ ∗ = истинных характеристик сетевых моделей. Примеры истинных характеристиксетевых моделей приведены ниже. 6ис. 1. Истинная гистограмма весов ребер. Великобритания, 2010 год. Сеть Пирсона.Рис. 2. Истинное распределение степеней вершин в графе рынка при пороге 0.3. Великобритания,2010 год. Сеть Пирсона. 7ис. 3. Истинное MST. Великобритания, 2010 год. Сеть Пирсона.Анализ устойчивости рассматриваемых процедур идентификации характеристик сетевых моде-лей проводился методом статистического моделирования. Были сгенерированы многомерные выбор-ки различного объема из распределения смеси с плотностью: f ( x , ..., x N ) = γ ∗ f gauss ( x , ..., x N ) + ( − γ ) ∗ f St , k ( x , ..., x N ) где f gauss ( x , ..., x N ) - N-мерное нормальное распределение, f St , k ( x , ..., x N ) - N-мерное распределениеСтьюдента с ν = степенями свободы. В качестве Λ использовалась истинная матрица весов ребер.Эксперимент повторялся 10000 раз и усреднением находилась оценка введенных выше мер различия.Результаты проведения экспериментов представлены в виде кривых зависимости меры различия от γ ( γ = , . , . , ..., ) для каждого рынка и каждой сети. Для оценки выборочных гистограмм использовались традиционные процедуры: выборочная корре-ляция Пирсона и частота совпадения знаков. Эксперимент заключался в следующем: n = разгенерировался N-мерный ( N = ) случайный вектор с распределением смеси с заданным γ . По на-блюдениям вычислялась гистограмма и мера различия. Эксперимент повторялся 10000 раз и усред-нением находилась оценка меры различия. Результаты проведения экспериментов представлены ввиде кривых зависимости меры различия от γ ( γ = , . , . , ..., ) для каждого рынка и каждой сети.Результаты экспериментов показывают, что оценка распределения весов ребер, основанная на оценкевероятности совпадения знаков устойчива к изменению параметра смеси γ . При использовании дляоценок выборочных коэффициентов корреляции Пирсона мера различия неустойчива к изменениюпараметра смеси γ . Аналогичные результаты, показывающие устойчивость процедур, основанных наоценках вероятности совпадения знаков справедливы и для рынков других стран и годов наблюде-ния. 8ис. 4. Зависимость меры различия 13 от γ . Гистограмма весов ребер. Россия, 2012 год. Красным -сеть вероятности совпадения знаков, синим - сеть Пирсона.9ис. 5. Зависимость меры различия 13 от γ . Гистограмма весов ребер. Китай, 2010 год. Красным -сеть вероятности совпадения знаков, синим - сеть Пирсона. Эксперимент заключался в следующем: n ( n = , ) раз генерировался N-мерный ( N = ) случай-ный вектор с распределением смеси с заданным γ . По наблюдениям вычислялись выборочные корре-ляции Пирсона и частоты совпадения знаков, строился граф рынка 5 с порогом γ ( γ = ,
1; 0 ,
3; 0 , ) ,находилось распределение степеней вершин и мера различия. Эксперимент повторялся 10000 раз иусреднением находилась оценка меры различия. Результаты проведения экспериментов представле-ны в виде кривых зависимости меры различия от γ ( γ = , . , . , ..., ) для каждого рынка, каждойсети и каждого значения количества наблюдений.Как и в случае с распределением весов ребер, результаты экспериментов показывают, что вероят-ность совпадения знаков оказывается устойчивой к изменению параметра смеси γ , а оценки выбороч-ных коэффициентов корреляции Пирсона - нет. Также стоит отметить, что значение меры различия,как правило, быстро уменьшается с ростом числа наблюдений.10ис. 6. Зависимость меры различия 14 от γ . Распределение степеней вершин. γ = . . Бразилия,2012 год. 100 наблюдений. Красным - сеть вероятности совпадения знаков, синим - сеть Пирсона.Рис. 7. Зависимость меры различия 14 от γ . Распределение степеней вершин. γ = . . Бразилия,2012 год. 250 наблюдений. Красным - сеть вероятности совпадения знаков, синим - сеть Пирсона.С другой стороны, есть примеры, когда сходимость обеих мер плохая и значение меры различияс увеличением наблюдений практически не изменяется.11ис. 8. Зависимость меры различия 14 от γ . Распределение степеней вершин. γ = . . Франция, 2011год. 100 наблюдений. Красным - сеть вероятности совпадения знаков, синим - сеть Пирсона.Рис. 9. Зависимость меры различия 14 от γ . Распределение степеней вершин. γ = . . Франция, 2011год. 250 наблюдений. Красным - сеть вероятности совпадения знаков, синим - сеть Пирсона.На рисунках ниже отмечены "экстремальные" случаи, когда мера различия при использованиидля оценок вероятности совпадения знаков оказывается почти равной мере различия при использо-вании для оценок выборочного коэффициента корреляции Пирсона при γ близких к и, наоборот,12казывается хуже при γ близком к .Рис. 10. Зависимость меры различия 14 от γ . Распределение степеней вершин. γ = . . Китай, 2011год. 250 наблюдений. Красным - сеть вероятности совпадения знаков, синим - сеть Пирсона.Рис. 11. Зависимость меры различия 14 от γ . Распределение степеней вершин. γ = . . Германия,2010 год. 100 наблюдений. Красным - сеть вероятности совпадения знаков, синим - сеть Пирсона.13 .3. Клики и независимые множества Эксперимент заключался в следующем: n ( n = , ) раз генерировался N-мерный ( N = ) случай-ный вектор с распределением смеси с заданным γ . По наблюдениям вычислялись выборочные корре-ляции Пирсона и частоты совпадения знаков, строился граф рынка 5 с порогом γ ( γ = ,
1; 0 ,