The error accumulation in the conjugate gradient method for degenerate problem
ККОМПЬЮТЕРНЫЕ ИССЛЕДОВАНИЯИ МОДЕЛИРОВАНИЕ 2020 Т. 10 № 1 С. 1–14
МАТЕМАТИЧЕСКИЕ ОСНОВЫ И ЧИСЛЕННЫЕ МЕТОДЫ МОДЕЛИРОВАНИЯ
УДК: 519.85
Накопление ошибки в методе сопряжённых градиентов длявырожденных задач
А. Б. Рябцев
Национальный исследовательский университет "Московский физико-технический институт",Россия, 141701, Московская область, г.Долгопрудный, Институтский пер., 9E-mail: [email protected] Получено 01.06.2016.Принято к публикации 01.06.2016.
В данной работе рассматривается метод сопряжённых градиентов при решении задачиминимизации квадратичной функции с аддитивным шумом в градиенте. Были рассмот-рены три концепции шума: враждебный шум в линейном члене, стохастический шум влинейном члене и шум в квадратичном члене, а также комбинации первого и второго споследним. Экспериментально получено, что накопление ошибки отсутствует для любой израссмотренных концепций, что отличается от фольклорного мнения, что, как и в ускорен-ных методах, накопление ошибки должно иметь место. В работе приведена мотивировкатого, почему ошибка может и не накапливаться. Также экспериментально исследовалась за-висимость ошибки решения как от величины (масштаба) шума, так и от размера решенияпри использовании метода сопряжённых градиентов. Предложены и проверены гипотезы озависимости ошибки в решении от масштаба шума и размера (2-нормы) решения для всехрассмотренных концепций. Оказалось, что ошибка в решении (по функции) линейно зави-сит от масштаба шума. В работе приведены графики, иллюстрирующие каждое отдельноеисследование, а также детальное описание численных экспериментов, включающее в себяизложение способов зашумления как вектора, так и матрицы.Ключевые слова: метод сопряжённых градиентов, вырожденная задача, зашумлённыйоракул. c (cid:13) a r X i v : . [ m a t h . O C ] M a y OMPUTER RESEARCH AND MODELING2020 VOL. 10 NO. 1 P. 1–14
MATHEMATICAL MODELING AND NUMERICAL SIMULATION
UDC: 519.85
The error accumulation in the conjugate gradient method fordegenerate problem
A. B. Ryabtsev
National Research University "Moscow Institute of Physics and Technology",9 Institutskiy per., Dolgoprudny, Moscow Region, 141701, RussiaE-mail: [email protected] Received 01.06.2016.Accepted for publication 01.06.2016.
In this paper, we consider the conjugate gradient method for solving the problem ofminimizing a quadratic function with additive noise in the gradient. Three concepts of noisewere considered: antagonistic noise in the linear term, stochastic noise in the linear term andnoise in the quadratic term, as well as combinations of the first and second with the last. It wasexperimentally obtained that error accumulation is absent for any of the considered concepts,which differs from the folklore opinion that, as in accelerated methods, error accumulation musttake place. The paper gives motivation for why the error may not accumulate. The dependenceof the solution error both on the magnitude (scale) of the noise and on the size of the solutionusing the conjugate gradient method was also experimentally investigated. Hypotheses about thedependence of the error in the solution on the noise scale and the size (2-norm) of the solution areproposed and tested for all the concepts considered. It turned out that the error in the solution(by function) linearly depends on the noise scale. The work contains graphs illustrating eachindividual study, as well as a detailed description of numerical experiments, which includes anaccount of the methods of noise of both the vector and the matrix.Keywords: conjugate gradient method, degenerate problem, noisy oracle.
Citation: Computer Research and Modeling, 2020, vol. 10, no. 1, pp. 1–14 (Russian). c (cid:13) акопление ошибки в методе сопряжённых градиентов . . . 3 Введение
Во многих приложениях часто необходимо решать систему линейных алгебраическихуравнений: Ax = b. Если точное решение не требуется, а нужно лишь найти какое-то приближение, то даннуюзадачу можно свести к задаче минимизации квадратичной функции (считаем матрицу A симметричной и неотрицательно определенной): f ( x ) = 12 (cid:104) Ax, x (cid:105) − (cid:104) b, x (cid:105) → min x ∈ R n и решать её известными методами численной оптимизации, такими как, например, уско-ренный метод Нестерова [Нестеров, 2010], или методом сопряжённых градиентов [Gasnikov,2017].Многие задачи, приходящие из реальных приложений, оказываются вырожденными(наименьшие собственные значения матрицы A равны нулю или близки к нулю), см., на-пример, [Kabanikhin S.I., 2012]. В данной статье также будем рассматривать вырожденныйслучай.Известно , что ускоренные методы могут оказаться неустойчивыми к неточностям вградиентах, что приводит к накоплению ошибки с ростом числа итераций. Насколько намизвестно, метод сопряжённых градиентов до сих пор не был в теоретическом плане исследо-ван в данном ключе, хотя, безусловно, также является ускоренным. По-видимому, причинасвязана с наличием отрицательных результатов о сходимости методов с одномерным по-иском. Так, например, как следует из [Poljak, 1981] метод наискорейшего спуска со скольугодно малой аддитивной неточностью в градиенте может в итоге расходиться. Однако, вданной работе показано, что типично такие ситуации для метода сопряжённых градиентовна квадратичных задачах не возникают и шум не накапливается.Стоит отметить, что задача минимизации положительно определенной квадратичнойформы является классической задачей выпуклой оптимизации. Исследование данного се-мейства задач может дать представление о сходимости (хотя бы в окрестности решения)различных методов в задачах выпуклой оптимизации. Метод сопряжённых градиентов га-рантированно находит точное решение этой задачи за N = n итераций, где n — размер зада-чи. Это свойство является отличительной особенностью методов сопряжённых градиентовот всевозможных обобщений. Однако, трудности появляются при решении вырожденных(некорректных) задач квадратичной оптимизации. В этом случае, число требуемых ите-раций может быть близко к n . С учетом того, что стоимость итерации O ( n ) , получаетсяобщая трудоемкость O ( n ) , что можно получить и более простыми алгоритмами, например,методом Гаусса.В данной статье мы рассмотрим простейшую задачу: Ax = b, в условиях отсутствия точных значений матрицы A и(или) вектора b . Нам доступны мат-рица ˜ A вместо исходной A или вектор ˜ b вместо исходного b : (cid:107) ˜ A − A (cid:107) ≤ δ A , (cid:107) ˜ b − b (cid:107) ≤ δ b . Подробнее в разделе Связанные исследования.2020, Т. 10, № 1, С. 1–14
А. Б. РябцевОба случая рассмотрены как отдельно, так и вместе. Поставленная задача сводитсяк задаче минимизации квадратичной формы: f ( x ) = 12 (cid:104) Ax, x (cid:105) − (cid:104) ˜ b, x (cid:105) → min x ∈ R n , f ( x ) = 12 (cid:104) ˜ Ax, x (cid:105) − (cid:104) b, x (cid:105) → min x ∈ R n , f ( x ) = 12 (cid:104) ˜ Ax, x (cid:105) − (cid:104) ˜ b, x (cid:105) → min x ∈ R n . Связанные исследования
Известно [Devolder O., 2013], [Dvinskikh D., Gasnikov A., 2019], что при использованиинеточного градиента ˜ ∇ f ( x ) , удовлетворяющего для всех x , yf ( x ) + (cid:104) ˜ ∇ f ( x ) , y − x (cid:105) − δ ≤ f ( y ) ≤ f ( x ) + (cid:104) ˜ ∇ f ( x ) , y − x (cid:105) + L (cid:107) y − x (cid:107) + δ справедлива оценка f ( x N ) − f ( x ∗ ) = O (cid:16) LR N p + δ + N p − δ (cid:17) . Здесь p ∈ { , } для неускоренных и ускоренных методов соответсвенно, а R = (cid:107) x − x ∗ (cid:107) .Для случая аддитивного шума в градиенте (cid:107) ˜ ∇ f ( x ) − ∇ f ( x ) (cid:107) ≤ δ в цикле работ А.С. Немировского [Немировский А.С., Поляк Б.Т., 1984], [Немировский,1986], [Nemirovski A., 1992] были получены интересные результаты о регуляризующих свой-ствах метода сопряжённых градиентов для вырожденных (некорректных) задач квадра-тичной оптимизации. Вырожденной будем называть задачу выпуклой оптимизации, длякоторой отношение максимального и минимального собственного значения функционала(обусловленность задачи) много больше квадрата размерности пространства, в которомпроисходит оптимизация: Lµ (cid:29) n , и не меньше величины обратной к относительной точно-сти, с которой требуется решить задачу. Например, к такому классу задач относятся задачаминимизации квадратичной формы, заданной матрицей с набором собственных чисел какна рис. 1. Eigenvalues
Рис. 1. Спектр плохообусловленной матрицы.
Многие задачи, приходящие из реальных приложений, оказываются вырожденны-ми, см., например, [Kabanikhin S.I., 2012]. Строить сходящиеся по аргументу алгоритмыдля таких задач в общем случае оказывается невозможным. Решение задачи оказывается
КОМПЬЮТЕРНЫЕ ИССЛЕДОВАНИЯ И МОДЕЛИРОВАНИЕ акопление ошибки в методе сопряжённых градиентов . . . 5неустойчивым к неточностям в данных. Для возможности корректного восстановления ре-шения требуются дополнительные предположения (истокопредставимости). Здесь мы огра-ничимся простейшей задачей: Ax = b, в которой не доступны точные значения A и b , а доступны только ˜ A и ˜ b , где (cid:107) ˜ A − A (cid:107) ≤ δ A , (cid:107) ˜ b − b (cid:107) ≤ δ b , где (cid:13)(cid:13) C (cid:13)(cid:13) = (cid:112) λ max ( C T C ) . По поставленной задаче можно построить следующие задачи оп-тимизации f ( x ) = 12 (cid:13)(cid:13)(cid:13) ˜ Ax − ˜ b (cid:13)(cid:13)(cid:13) → min x ∈ R n , f ( x ) = 12 (cid:104) ˜ Ax, x (cid:105) − (cid:104) ˜ b, x (cid:105) → min x ∈ R n (если A T = A, ˜ A T = ˜ A ) . Введём индекс τ ∈ { , } , который будет отвечать рассматриваемому случаю. В ра-боте [Немировский, 1986] было показано, что в случае, когда выполняется условие истоко-представимости x ∗ = ( A T A ) σ/ y ∗ , (cid:13)(cid:13) y ∗ (cid:13)(cid:13) ≤ R σ , Ax ∗ = b, метод сопряжённых градиентов с критерием останова вида (cid:13)(cid:13)(cid:13) ˜ Ax N − ˜ b (cid:13)(cid:13)(cid:13) ≤ (cid:16) δ A (cid:13)(cid:13)(cid:13) x N (cid:13)(cid:13)(cid:13) + δ b (cid:17) , стартующий с x = 0 , сходится для соответствующей задачи τ ∈ { , } следующим образом ω N = (cid:13)(cid:13)(cid:13) ˜ Ax N − ˜ b (cid:13)(cid:13)(cid:13) = O (cid:32) ˜ L σ ) R σ N τ (1+ σ ) + ω ∗ (cid:33) , ω ∗ = ˜ L σ R σ δ A + δ b , где ˜ L = max (cid:110)(cid:13)(cid:13) A (cid:13)(cid:13) , (cid:13)(cid:13) ˜ A (cid:13)(cid:13) (cid:111) , причем до выполнения критерия останова (cid:13)(cid:13)(cid:13) ˜ Ax N − ˜ b (cid:13)(cid:13)(cid:13) ≤ (cid:16) δ A (cid:13)(cid:13)(cid:13) x N (cid:13)(cid:13)(cid:13) + δ b (cid:17) при θ + 2 σ > , θ ∈ [0 , справедлива следующая оценка ν θ,N = (cid:13)(cid:13)(cid:13)(cid:0) A T A (cid:1) θ/ (cid:0) x N − x ∗ (cid:1)(cid:13)(cid:13)(cid:13) = O (cid:16) R (2 − θ ) / (1+ σ ) σ w ( θ +2 σ ) / (1+ σ ) N (cid:17) , (cid:13)(cid:13) x N (cid:13)(cid:13) = O (cid:0)(cid:13)(cid:13) x ∗ (cid:13)(cid:13) (cid:1) . Обратим внимание, что в ν θ,N стоит настоящая (незашумленная) матрица A . Приве-денные выше результаты являются точными и не могут быть улучшены за счет использо-вании других методов. Причем не могут быть улучшены как в части скорости сходимости,так и в части достижимой точности O ( ω ∗ ) . Удивительно здесь, в частности, то, что методсопряжённых градиентов, безусловно, можно относить к классу ускоренных (оптимальных)методов, для которых известно, что в общем случае, неточность в вычислении градиенталинейно накапливается с ростом номера итерации [Devolder O., 2013]. Однако приведенный А. Б. Рябцеввыше результат свидетельствует об отсутствии накопления неточностей, что соответствуетнеускоренным методам.По-видимому, связано это со спецификой шума – шум в градиенте аддитивный. Вработе [d’Aspremont A., 2008] рассмотрена задача f ( x ) → min x ∈ Q с компактным Q . В этойработе показано, что для ускоренных методов аддитивный шум в градиенте не накапли-вается по мере роста итераций. Более общий результат (не требующий компактности Q )приведен в работе [Dvinskikh D., Gasnikov A., 2019].Естественно, появляется гипотеза, что и для метода сопряжённых градиентов подобнотому, что имеет место для ускоренных градиентных методов, не будет наблюдаться накоп-ление неточностей по мере роста итераций, если шум в градиенте аддитивен. Об этом, вчастности, говорят результаты, приведенные выше, в которых шум аддитивен и не менялсяс номером итерации. Более точно в данной работе проверялась гипотеза, что для случая (cid:107) ˜ ∇ f ( x ) − ∇ f ( x ) (cid:107) ≤ δ для метода сопряжённых градиентов верна оценка f ( x N ) − f ( x ∗ ) = O (cid:16) LR N + δR (cid:17) . Причём для шума в векторе b отдельно рассматривались две концепции: враждебный шум,зависящий от направления градиента в данный момент, и случайный, прибавляющийся иливычитающийся из вектора b на каждой итерации с вероятностью .Если предполагать, что последовательность, генерируемая методом, ограничена, тошум в матрице можно рассматривать тоже как аддитивный шум в градиенте. Для даннойконцепции проверена гипотеза (cid:12)(cid:12) f ( x ∗ noisy ) − f ( x ∗ ) (cid:12)(cid:12) = O (cid:0) δR (cid:1) . Здесь f ( x ∗ noisy ) — это то, к чему стремится функционал незашумлённой задачи напоследовательности, сгенерированной сопряжёнными градиентами с неточным градиентом. Концепции шума в векторе b В работе проведены эксперименты для двух концепций шума в векторе b : 1) враж-дебного и 2) случайного.1. δ k = δsign ( Ax k − b ) δ k = (cid:40) δ, с вероятностью − δ, с вероятностью Суть враждебного метода в отодвигании на каждой итерации точки оптимума в на-правлении антиградиента, что как бы создаёт "убегание", которое препятствует своевре-менному нахождению решения.Отметим, что при исследованиях поведения метода в случае зашумления матрицы,шум на каждой итерации вносился согласно идее случайного шума для вектора, то естьсгенерированная матрица шума прибавлялась к исходной равновероятно то со знаком плюс,то со знаком минус.Подробнее в разделе Дополнительные материалы. Можно считать, что f ( x k ) стремится к f ( x ∗ noisy ) в Чезаровском смысле (то есть в смысле средних ариф-метических). КОМПЬЮТЕРНЫЕ ИССЛЕДОВАНИЯ И МОДЕЛИРОВАНИЕ акопление ошибки в методе сопряжённых градиентов . . . 7 Метод сопряжённых градиентов
Для экспериментов в работе использовался метод сопряжённых градиентов, а имен-но — алгоритм Флетчера-Ривса (алгоритм 1).Алгоритм 1 Метод сопряжённых градиентов (алгоритм Флетчера-Ривса).Input: x — начальная точка, d = −∇ f ( x ) . i := 0 while (cid:107) d i (cid:107) ≥ ε do Вычислить α i , минимизирующее f ( x i + α i d i ) по формуле: α i = − d Ti ( Ax i + b ) d Ti Ad i (1)Сделать шаг: x i +1 = x i + α i d i (2)Обновить направление: d i +1 = −∇ f ( x i +1 ) + β i d i , (3)где β i вычисляется по формуле: β i = ∇ f ( x i +1 ) T Ad i d Ti Ad i (4) end whileOutput: x N Численные эксперименты
Для графиков, иллюстрирующих исследования выхода траекторий функции наасимптоту, были использованы параметры из таблицы 1.n δ A δ b R Враждебный шум . ≈ Стохастический шум . ≈ Шум в матрице { . . } ≈ Шум в матрице и столбце .
005 0 . ≈ Таблица 1. Параметры задачи при исследовании выхода траекторий функции на асимптоту. Обо-значения: размерность задачи n , размер шума в матрице и в векторе соответственно δ A и δ b , размеррешения R = (cid:107) x ∗ − x (cid:107) . Графики, относящиеся к исследованию зависимости ошибки от δ при решении зашум-лённой задачи, соответствуют экспериментам с параметрами из таблицы 2.n δ A δ b R Враждебный шум [0; 0 . ≈ Стохастический шум [0; 0 . ≈ Шум в матрице [0; 0 . {
10; 50 } Таблица 2. Параметры при исследовании зависимости от δ . А. Б. РябцевВ таблице 3 указаны параметры задач, на примере которых исследовалась зависи-мость ошибки от R . n δ A δ b R Шум в матрице { .
01; 0 . } [0; 20] Шум в матрице и столбце .
001 0 .
01 [0; 50]
Таблица 3. Параметры при исследовании зависимости от R . Код доступен для просмотра в Google Colab (ссылка).
Результаты
1. Шум в векторе b . f ( x ) (a) Враждебный шум в векторе. f ( x ) (b) Случайный шум в векторе. Рис. 2. Зависимость величины функции f ( x ) (отшкалированной на единицу) от номера итерации.Графики показывают выход на асимптоту, свидетельствующий об отсутствии накопления ошибки сростом числа итераций. Параметры задачи при данном исследовании: n = 10 , δ b = 0 . , R ≈ . Накопление ошибки отсутствует как в случае враждебного шума, так и в случае сто-хастического шума. Метод сходится, но ему требуется больше времени. Этот фактлегко установить по графикам на рис. 2. Из них также видно, что враждебный шумзамедляет метод. ���� ���� ���� ���� ���� � �������������������������������� � � �� �� � � � � ��������������������������� � ����� � � ��� � �� (a) Враждебный шум в векторе. ���� ���� ���� ���� ���� � �������������������������������� � � � ���� � � � � � � ����������������������� ����� � ����� � � ��� � �� (b) Случайный шум в векторе. Рис. 3. Зависимость невязки по функции от δ b . Графики показывают, что ошибка зависит от δ b линейно. Параметры задачи при данном исследовании: n = 10 , R ≈ . КОМПЬЮТЕРНЫЕ ИССЛЕДОВАНИЯ И МОДЕЛИРОВАНИЕ акопление ошибки в методе сопряжённых градиентов . . . 9Графики на рис. 3 подтверждают гипотезу | f ( x ∗ noisy ) − f ( x ∗ ) | = O ( δ b R ) при малых δ b в случае враждебного и стохастического шума. ���� ���� ���� ���� ���� � ������� � � �� �� � � � � �������������������������� � � � �� � (a) Враждебный шум в векторе. ���� ���� ���� ���� ���� � ������� � � � ���� � � � � � � �������������������������� � � � �� � (b) Случайный шум в векторе. Рис. 4. Зависимость невязки по аргументу от δ b . Параметры задачи: n = 10 , R ≈ . Так как задача не является сильно выпуклой, сходимость по аргументу не ожидается.Но тем не менее ошибка аргумента зависит от размера шума линейно, что показано награфиках с рис. 4. Синяя прямая построена как аппроксимация экспериментальныхточек методом наименьших квадратов.Все перечисленные выше пары графиков чётко показывают, что враждебный шумприводит к более плохим результатам, чем стохастический, этим он обуславливаетсвоё название.2. Шум в матрице. f ( x ) (a) Параметры задачи: n = 10 , δ A = 0 . , R ≈ . f ( x ) (b) Параметры задачи: n = 10 , δ A = 0 . , R ≈ . Рис. 5. Зависимость величины функции f ( x ) (отшкалированной на единицу) от номера итерациипри шуме в матрице. Графики показывают выход на асимптоту, свидетельствующий об отсутствиинакопления ошибки с ростом числа итераций. Также видно, что в случае шума в матрице методоказывается более чувствительным к величине шума, чем в случае шума в векторе. В данном исследовании имеет смысл говорить исключительно о малых шумах, так как, если шум сравнимс нормой градиента, то невозможно найти даже приближённо решение исходной задачи.2020, Т. 10, № 1, С. 1–14 δ . Это обусловлено тем, что шум в градиенте будет ограничен не просто δ , какв случае с шумом в векторе b , а δ (cid:107) x k (cid:107) , что в абсолютном большинстве итераций (приусловии, что R (cid:29) ) будет больше, чем просто δ . То есть имея какое-то конкретное δ ,ограничение на неточность градиента будет на самом деле больше этого δ . ����� ����� ����� ����� ����� ����� � ������������������ � � �� �� � � � � � � ������������������������ � � � ���� � � ��� � �� (a) Параметры задачи: n = 10 , R = 50 . ����� ����� ����� ����� ����� ����� � ������������������ � � �� �� � � � � � � ������������������������ � � � ���� � � ��� � �� (b) Параметры задачи: n = 10 , R = 10 . Рис. 6. Зависимость невязки по функции от δ A при шуме в матрице. Графики показывают, чтоошибка зависит от δ A линейно. Также видно, что незначительное увеличение R приводит к значи-тельному росту неточности решения по функции. Графики на рис. 6 иллюстрируют линейность зависимости невязки по функции от δ A , а также сильную зависимость от R — входящую в оценку, очевидно, не в первойстепени. ��� ��� ��� ��� ���� ���� ���� ���� ���� � ��������������������������� � � �� �� ��� � � � ��������������� ��������� � � � ���� � � ��� ������ �� (a) Параметры задачи: n = 10 , δ = 0 . . ��� ��� ��� ��� ���� ���� ���� ���� ���� � ��������������������������� � � �� �� ��� � � � ��������������� ���������� � � � ���� � � ��� ������ �� (b) Параметры задачи: n = 10 , δ = 0 . . Рис. 7. Зависимость невязки по функции от R при шуме в матрице. Графики показывают, чтоошибка зависит от R квадратично. Также видно, что увеличение δ приводит к росту неточностирешения по функции. Более ясно иллюстрируют зависимость именно от R графики на рис. 7. На них изоб-ражены результаты исследования зависимости невязки по функции от R при двухразличных, но фиксированных размерах δ A . Эти графики подтверждают гипотезу овхождении в оценку | f ( x ∗ noisy ) − f ( x ∗ ) | = O ( δ A R ) КОМПЬЮТЕРНЫЕ ИССЛЕДОВАНИЯ И МОДЕЛИРОВАНИЕ акопление ошибки в методе сопряжённых градиентов . . . 11именно квадрата R в отличие от гипотезы | f ( x ∗ noisy ) − f ( x ∗ ) | = O ( δ b R ) для шума в векторе b .Вместе эти четыре графика показывают, что результаты эксперимента согласуются сгипотезой | f ( x ∗ noisy ) − f ( x ∗ ) | = O ( δ A R ) .
3. Шум в матрице и в векторе.В данном случае гипотеза является комбинацией гипотез для двух предыдущих ва-риантов, а именно | f ( x ∗ noisy ) − f ( x ∗ ) | = O ( δ b R + δ A R ) . Вполне ожидаемо, что и здесь накопление ошибки не наблюдается — метод выходитна асимптоту и начинает колебаться около неё, что обусловлено случайностью шумав матрице для графика на рис. 8(a) и случайностью шумов в матрице и векторе (вбольшей степени случайностью шума в матрице) для графика на рис. 8(b). Здесьтакже видно, что комбинация матричного шума с враждебным шумом в векторе b замедляет метод сильнее, чем комбинация матричного шума со случайным шумом ввекторе b . f ( x ) (a) Шум в матрице и враждебный шум в векторе. f ( x ) (b) Шум в матрице и случайный шум в векторе. Рис. 8. Зависимость величины функции f ( x ) (отшкалированной на единицу) от номера итерациипри шуме в матрице и в векторе. Графики показывают выход на асимптоту, свидетельствующий оботсутствии накопления ошибки с ростом числа итераций. Также видно, что в случае враждебногошума в векторе выход на асимптоту происходит позже, чем в случае случайного шума. Параметрызадачи: n = 10 , δ A = 0 . , δ b = 0 . , R ≈ . Графики на рис. 9 согласуются с гипотезой. Так же как и предыдущие графики онииллюстрируют, что враждебный шум мешает методу сильнее, чем случайный, и этоприводит к большей ошибке по функции найденного решения. Здесь речь идёт о равновероятном прибавление или вычетание матрицы шума или вектора шума к исход-ным на каждой итерации. Подробнее в разделе Дополнительные материалы.2020, Т. 10, № 1, С. 1–14 � �� �� �� �� �� � ���������������������������� � � � ���� � � � � � � � ���������������� � ������������ � ���������� � � �� � � � ����� � � ��� ������ �� (a) Шум в матрице и враждебный шум в векторе. � �� �� �� �� �� � ���������������������������� � � � ���� � � � � � � � ���������������� � ������������ � ���������� � � �� � � � ����� � � ��� ������ �� (b) Шум в матрице и случайный шум в векторе. Рис. 9. Зависимость невязки по функции от R . Графики показывают, что ошибка зависит от R квадратично. Также видно, что шум в матрице вкупе с враждебным шумом в векторе приводит кболее плохим результатам, чем шум в матрцие вместе со случайным шумом. Параметры задачи: n = 10 , δ A = 0 . , δ b = 0 . . Заключение
Результатом данной работы является экспериментальная иллюстрация нетривиаль-ного факта: при решении задачи минимизации положительно определённой квадратичнойформы методом сопряжённых градиентов с зашумлённым оракулом накопление ошибки от-сутствует. При этом, он остаётся наиболее эффективным (быстрым) методом для решениязадач минимизации положительно определённых квадратичных форм больших размерно-стей, что видно из рис. 10. f ( x ) (a) Ускоренный метод Нестерова. f ( x ) (b) Метод сопряжённых градиентов. Рис. 10. Зависимость величины функции f ( x ) (отшкалированной на единицу) от номера итерациипри шуме в матрице и в векторе. Графики показывают, что метод Нестерова с шумом в оракуле наплохообусловленных задачах сходится сильно медленнее метода сопряжённых градиентов с тем жешумом. Параметры задачи: n = 10 , δ A = 0 . , δ b = 0 . . Специалистам, сталкивающимся с необходимостью решать СЛАУ или же искать ми-нимумы положительно определённых квадратичных форм с плохообусловленными матри-цами больших размерностей, данные экспериментальные результаты добавляют уверенно-сти при использовании метода сопряжённых градиентов в условиях недоступности точногоградиента. Хотя шум здесь и приводит к большей неточности полученного решения, чемпри использовании других ускоренных методов, метод сопряжённых градиентов оказыва-ется в десятки и даже в сотни раз быстрее. В качестве дальнейшего развития данного
КОМПЬЮТЕРНЫЕ ИССЛЕДОВАНИЯ И МОДЕЛИРОВАНИЕ акопление ошибки в методе сопряжённых градиентов . . . 13исследования было бы интересно обобщить полученный результат на случай гильбертовапространства, где неточность при решении возникает естественным образом ввиду невоз-можности вычисления градиента по всем направлениям. Также интересно было бы провестиисследования скорости сходимости (в вырожденном случае) “ в среднем ” по спектру и повыбору точки старта для метода тяжелого шарика, метода Нестерова и метода сопряжён-ным градиентам [Scieur D., Pedregosa F., 2020] и стр. 63 [Gasnikov, 2017].
Дополнительные материалы
Важно отметить, что для генерации зашумлённых векторов и матриц есть различныеподходы. Выбранные нами способы обусловлены скоростью вычисления и относительнойпростотой реализации.1. Вектор • Основа– (cid:107) b (cid:107) = (cid:112) b + b + ... + b n – (cid:107) ˜b − b (cid:107) = (cid:113) (˜ b − b ) + (˜ b − b ) + ... + (˜ b n − b n ) ≤ δ b – (cid:107) ˜b − b (cid:107) = (cid:112) ∆ + ∆ + ... + ∆ n ≤ δ b – ∆ + ∆ + ... + ∆ n ≤ δ b • Враждебный шум– { ξ i } ni =1 ∈ N (0 , – ∆ kj = (cid:115) ξ j · δ b (cid:80) ni =1 ξ i · sign (cid:16)(cid:2) ∇ f ( x k ) (cid:3) j (cid:17) ,в нашем случае sign (cid:16)(cid:2) ∇ f ( x k ) (cid:3) j (cid:17) = sign (cid:16)(cid:2) Ax k − b (cid:3) j (cid:17) – знак j -ого элементаградиента в точке x k – ∆ k = (∆ k , ∆ k , . . . , ∆ kn ) T – ˜b k = b + ∆ k • Стохастический шум– { ξ i } ni =1 ∈ N (0 , – ∆ kj = (cid:115) ξ j · δ b (cid:80) ni =1 ξ i – нормировка– ∆ k = (∆ k , ∆ k , . . . , ∆ kn ) T – ˜b k = b ± ∆ k – с вероятностью
2. Матрица– (cid:107) ˜ A − A (cid:107) ≤ δ A – ˜ A = A ± M – с вероятностью , M – матрица шума– ˜ A − A = ± M – (cid:107) M (cid:107) ≤ δ A – { ξ i } n × ni =1 ∈ N (0 , m k = (cid:115) ξ k · δ A (cid:80) n × ni =1 ξ i – нормировка первой строки матрицы шума– m k = (cid:115) ξ − n + k · δ A (cid:80) n × ni =1 ξ i – нормировка второй строки матрицы шума– . . .– m pk = (cid:115) ξ p − n + k · δ A (cid:80) n × ni =1 ξ i – нормировка p -ой строки матрицы шума– . . .– m nk = (cid:115) ξ n − n + k · δ A (cid:80) n × ni =1 ξ i – нормировка последней строки матрицы шума– M = m m . . . m n m m . . . m n ... ... . . . ... m n m n · · · m nn Список литературы (References)
Gasnikov A. V. Universal gradient descent //arXiv preprint arXiv:1711.00394. – 2017.Poljak B. T. Iterative algorithms for singular minimization problems //Nonlinear Programming4. – Academic Press, 1981. – С. 147-166.Нестеров Ю. Е. Введение в выпуклую оптимизацию. – 2010.
Nesterov Yu. E. Vvedenie v vypukluyu optimizatsiyu. – 2010.
Гилл Ф., Мюррей У., Райт М. Практическая оптимизация. – Мир, 1985. – Т. 509.
Gill F., Myurrei U., Rait M. Prakticheskaya optimizatsiya. – Mir, 1985. – T. 509.
Немировский А. C. О регуляризующих свойствах метода сопряжённых градиентов нанекорректных задачах //Журнал вычислительной математики и математической фи-зики. – 1986. – Т. 26. – №. 3. – С. 332-347.
Nemirovskii A. S. O regulyarizuyushchikh svoistvakh metoda sopryazhennykh gradientov na nekorrektnykhzadachakh //Zhurnal vychislitel’noi matematiki i matematicheskoi fiziki. – 1986. – T. 26. – №. 3. – S. 332-347.
Немировский А. C., Поляк Б. Т. Итерационные методы решения линейных некорректныхзадач при точной информации. II. // Изв. АН СССР. Техническая кибернетика – 1984– № 3. – С. 18–25.
Nemirovskii A. S., Polyak B. T. Iteratsionnye metody resheniya lineinykh nekorrektnykh zadach pri tochnoiinformatsii. II. // Izv. AN SSSR. Tekhnicheskaya kibernetika – 1984 – № 3. – S. 18–25.