[PDF] Flexible Modification of Gauss-Newton Method and Its Stochastic Extension

Abstract

This work presents a novel version of recently developed Gauss-Newton method for solving systems of nonlinear equations, based on upper bound of solution residual and quadratic regularization ideas. We obtained for such method global convergence bounds and under natural non-degeneracy assumptions we present local quadratic convergence results. We developed stochastic optimization algorithms for presented Gauss-Newton method and justified sub-linear and linear convergence rates for these algorithms using weak growth condition (WGC) and Polyak-Lojasiewicz (PL) inequality. We show that Gauss-Newton method in stochastic setting can effectively find solution under WGC and PL condition matching convergence rate of the deterministic optimization method. The suggested method unifies most practically used Gauss-Newton method modifications and can easily interpolate between them providing flexible and convenient method easily implementable using standard techniques of convex optimization.

Full PDF

aa r X i v : . [ m a t h . O C ] F e b Гибкая модификация метода Гаусса–Ньютона и его стохастическоерасширение

Н. Е. Юдин , , А. В. Гасников , Московский физико-технический институт (национальный исследовательский университет),Долгопрудный, Московская обл., Россия Федеральный исследовательский центр «Информатика и управление» Российской академии наук,Москва, Россия Институт проблем передачи информации им. А.А. Харкевича Российской академии наук, Москва,Россия ∗ e-mail: [email protected] В работе предлагается новая версия метода Гаусса–Ньютона для решения системы нелинейных урав-нений, основанная на идеях использования верхней оценки нормы невязки системы уравнений и квад-ратичной регуляризации. В рамках данного метода получена глобальная сходимость, а при естествен-ных предположениях установлена локальная квадратичная сходимость. В новой версии метода Гаусса–Ньютона разработаны стохастические алгоритмы оптимизации, для данных алгоритмов выведены усло-вия сублинейной и линейной сходимости, основанные на условии слабого роста и условии Поляка–Лоясиевича. Предложенный метод объединяет в себе несколько существующих и часто используемыхна практике модификаций метода Гаусса–Ньютона, позволяя получить гибкий и удобный в использо-вании метод, реализуемый на практике с помощью стандартных техник выпуклой оптимизации.

Ключевые слова : системы нелинейных уравнений, минимизация эмпирического риска, методГаусса–Ньютона, методы доверительной области, невыпуклая оптимизация, неточное проксимальноеотображение, неточный оракул, стохастическая оптимизация, стохастическая аппроксимация, перепа-раметризованная модель, условие слабого роста, условие Поляка–Лоясиевича, оценка сложности

Задача решения системы нелинейных уравнений является одной из наиболее фундаментальных в чис-ленных методах. В различных вариантах данная задача представлена в трудах и монографиях по чис-ленным методам и по численным методам в оптимизации [1, 2, 3, 4]. В общем виде система нелинейныхуравнений задаётся через многозначное отображение F : R n → R m : F ( x ) = m , m = (0 , . . . , T . (1)В работе рассматривается следующая релаксация исходной задачи решения системы (не)линейных уравне-ний с помощью решения задачи безусловной минимизации (здесь и далее по умолчанию подразумевается,что k k — стандартная евклидова норма в R m , если не оговорено иное, см. раздел 7.4 о возможных обоб-щениях): min x ∈ R n n f ( x ) def = k F ( x ) k o . (2)Обычно введённую задачу минимизации решают через минимизацию ( f ( x )) , дополнительно пред-положив достаточную гладкость получившейся функции или субдифференцируемость отображения f [5,6, 7, 8, 9]. При таком подходе часто применяются методы доверительной области и квазиньютоновскиеметоды для минимизации квадрата оптимизируемого функционала в (2) с применением различных эвери-стик [6, 7, 8, 9, 10, 11, 12, 13]. Однако подобные преобразования потенциально могут увеличить необходимоеколичество итераций для достижения требуемого ǫ –уровня значения функции f из произвольного началь-ного приближения x ∈ R n с помощью итерационного метода оптимизации. В частности, для линейногооператора F возведение в квадрат f приводит к увеличению числа обусловленности задачи и к квадра-тичному росту количества необходимых итераций для достижения ǫ –оптимального решения задачи (2),что крайне ощутимо на практике при больших значениях mn . В качестве альтернативного подхода можно1ассмотреть прямое решение задачи (2) с помощью метода Гаусса–Ньютона , заключающегося в сведе-нии к решению последовательности вспомогательных задач оптимизации при условии гладкости функций F i , i ∈ { , . . . , m } : min h ∈ R n n(cid:13)(cid:13)(cid:13) F ( x ) + F ′ ( x ) h (cid:13)(cid:13)(cid:13) : x + h ∈ D( x ) o ,F ′ ( x ) def = (cid:18) ∂F i ∂x j ( x ) (cid:19) m,ni,j =1 ∈ R m × n — матрица Якоби, (3) D( x ) — соответствующая окрестность точки x ∈ R n . Среди полезных свойств такого сведения можноотметить отсутствие необходимости вычислять производные второго и более высоких порядков, а такжевозможность в естественных условиях невырожденности оптимизировать (2) с помощью последователь-ности задач (3) с локальной квадратичной скоростью сходимости [2].В данной работе предлагается другой подход к решению задачи (2). Он заключается в замене функ-ции, измеряющей невязку системы уравнений (1), на евклидову норму, поделённую на квадратный кореньколичества уравнений m . Полученная невязка используется в построении метода, решающего задачу (2)с помощью решения последовательности задач, в каждой из которых новое приближение решения (2) вы-числяется как результат параметризованного проксимального отображения, в котором выполняется поискточки минимума суммы верхней оценки линеаризованной по аналогии с (3) невязки на основе евклидовойнормы, поделённой на квадратный корень количества координат, и квадратичного проксимального слагае-мого [14, 15]. В рамках предложенного подхода при естественных для задач вида (2) и (3) предположенияхустановлено монотонное уменьшение значения функции f , а также локальная сублинейная и линейнаясходимость [15]. В отличие от [14, 15] в данной работе рассматриваются оба случая соотношения значений m и n : m ≤ n и m > n . Первый случай соответствует решению системы (не)линейных алгебраическихуравнений, второй случай является задачей восстановления регрессии, решаемой методом наименьшихквадратов. В данной работе представлен анализ локальной и глобальной сложности решения задачи (2)в рамках предложенного подхода, выведены условия локальной квадратичной сходимости, для случаев m ≤ n и m > n разработаны и исследованы стохастические методы решения задачи (2).Выполненный анализ стохастических методов применим для задач минимизации эмпирического и сред-него риска , имеющих представление в форме (2). Для таких задач в работе использовано свойство функци-оналов в форме (2), называемое условием слабого роста [16, 17, 18]. В текущей работе оно заключается вмажорировании квадрата нормы градиента функции ( f ( x )) значением самой функции ( f ( x )) . Условиеслабого роста имеет и стохастическую форму, в которой мажорируется средний квадрат нормы стоха-стического градиента функции ( f ( x )) , оцененного по части функций из системы (1), значением самойфункции ( f ( x )) . Наравне с условием слабого роста для задач (2) в данной работе рассматривается вы-полнение условия Поляка–Лоясиевича , состоящее в мажорировании значения ( f ( x )) квадратом нормыградиента ( f ( x )) [34]. Для условия Поляка–Лоясиевича так же рассматривается стохастическая версия,заключающаяся в мажорировании значения ( f ( x )) средним квадратом нормы стохастической оценкиградиента ( f ( x )) , построенной с помощью части функций из системы (1). Выполнение обозначенныхусловий в случае m ≤ n приводит к совместности системы уравнений (1) и позволяет решить задачу (2)с любой наперёд заданной точностью с помощью предложенных в этой работе стохастических методовоптимизации с линейной скоростью. В машинном обучении и в статистическом моделировании подобныеусловия, из которых следует совместность системы уравнений (1), обычно выполняются для перепара-метризованных моделей ( m ≤ n , если за m принять количество объектов в выборке), а сами условияв терминах стохастической аппроксимации часто называются условиями интерполяции , означающимикак раз тождественное равенство F ( x ) = m для некоторых x ∈ R n [19, 20, 21, 22, 23, 24, 25, 26, 35]. Раздел 2 содержит в себе краткое изложение основных полученных в данной работе результатов. Вразделе 3 разрабатывается теория модифицированного метода Гаусса–Ньютона, выводится общее прави-ло обновления приближения решения задачи (5), задаются алгоритмы метода Гаусса–Ньютона с неточныморакулом и адаптивным подбором гипрепараметров, отвечающих за длину шага метода (схема 1); выодитсяалгоритм с адаптивно настраиваемой точностью верхней оценки оптимизируемого функционала (схема 2).В разделе 3 доказывается в рамках естественных предположений сходимость любого процесса построенияприближения решения задачи (5) к стационарной точке с выполнением условий оптимальности первогопорядка в случае неограниченного возрастания точности вычисления приближения решения на каждой2терации. При наличии невырожденности матрицы Якоби установлена локальная квадратичная сходи-мость. В условиях невырожденной сопряжённой матрицы Якоби установлена локальная линейная сходи-мость, а в случае достаточно точного оракула невырожденность сопряжённой матрицы Якоби приводит кглобальной линейной сходимости метода. В разделе 4 представлена стохастическая версия модификацииметода Гаусса–Ньютона с несколькими стратегиями обновления приближения решения задачи вида (5). Вразделе 5 исследуется сходимость предложенного метода со схемой реализации 3, выводятся условия схо-димости к приближённому решению в терминах среднего. При наличии невырожденности сэмплируемойна каждой итерации сопряжённой матрицы Якоби установлена линейная сходимость к приближённомурешению в среднем. Также исследуются свойства улучшенной версии схемы 3 с сэмплированием двухбатчей на каждой итерации для оценки шага метода (схема 4). Для неточных проксимальных отобра-жений и для неограниченных функционалов с неограниченными якобианами разработана своя версиясхемы 3, представленная в схеме 5. В данном разделе предложен стохастический аналог метода Гаусса–Ньютона с адаптивно настраиваемой точностью стохастической оценки оптимизируемого функционала(схема 6). В разделе 6 представлена стратегия обновления приближения решения в стохастическом методеГаусса–Ньютона, позволяющая при наличии условия слабого роста и невырожденности сопряжённой мат-рицы Якоби решить с любой наперёд заданной точностью задачу (5) вне зависимости от размера батчасэмплируемых функций. Раздел 7 посвящён вопросам реализации предложенных модификаций методаГаусса–Ньютона на практике, предлагаются способы эффективного вычисления проксимальных отобра-жений, рассматриваются схемы метода Гаусса–Ньютона в произвольных нормированных пространствах,демонстрируется возможность решения возникающих вопросов с помощью стандартных средств линейнойалгебры и выпуклой оптимизации. В разделе 8 описываются предложенные модификации метода Гаусса–Ньютона в классе квазиньютоновских методов, демонстрируется связь с методами оптимизации второгопорядка, с методом Ньютона. В приложении представлены доказательства выведенных в данной работеутверждений.

Введём обозначение конечномерного евклидового пространства с помощью буквы E (наравне с этимобозначением будут использованы обозначения с индексацией), для этого пространства зафиксируем стан-дартную евклидову норму k k . Обозначим евклидовы пространства E с dim( E ) = n и E с dim( E ) = m .Определим сопряжённое евклидово пространство E ∗ для пространства E как пространство линейныхфункций над E . Значение в точке x ∈ E для функции u ∈ E ∗ определяется скалярным произведением: h u, x i . Для нормы k x k , x ∈ E имеется классическое соотношение, связывающее с нормой k u k , u ∈ E ∗ :  k x k = max u ∈ E ∗ {h u, x i : k u k ≤ } ; k u k = max x ∈ E {h u, x i : k x k ≤ } . Из соотношения выше следует выполнение неравенства Коши–Буняковского–Шварца: h u, x i ≤ k u kk x k .Для гладкой по x функции f : E → E обозначим вычисленную в точке x ∈ E первую и вторую произ-водную по x как ∇ x f ( x ) и ∇ x f ( x ) соответственно (в случае отсутствия неоднозначности при определениипеременной дифференцирования индексация у ∇ опускается). Для E ≡ R первую и вторую производныебудем называть градиентом и гессианом. Заметим, что ∇ f ( x ) ∈ E ∗ , ∇ f ( x ) : E → E ∗ — самосопряжённыйлинейный оператор.Далее, введённые обозначения позволяют определить сопряжённый оператор A ∗ : E ∗ → E ∗ для опера-тора A : E → E : h u, Ax i = h A ∗ u, x i , u ∈ E ∗ , x ∈ E . Определим операторную норму для линейного оператора A : E → E как максимальное сингулярноечисло матрицы оператора σ max ( A ) : k A k = σ max ( A ) = max x ∈ E {k Ax k : k x k ≤ } = p λ max ( AA ∗ ) = p λ max ( A ∗ A ) , где λ max ( · ) — максимальное собственное значение оператора. Дополнительно обозначим с помощью k A k F фробениусову норму оператора A с матрицей ( a ij ) m,ni,j =1 : k A k F = vuut m,n X i,j =1 | a ij | = p Tr ( AA ∗ ) = p Tr ( A ∗ A ) . k A k ≤ k A k F , по свойству следа оператора Tr( · ) . Также введём минимальное сингулярное числоматрицы данного оператора A : σ min ( A ) = min x ∈ E {k Ax k : k x k ≤ } . Для многозначного отображения F : E → E определим матрицу Якоби F ′ ( x ) в точке x ∈ E какматрицу линейного оператора из E в E : F ′ ( x ) h = lim t → (cid:18) t ( F ( x + th ) − F ( x )) (cid:19) ∈ E , h ∈ E . Для линейных операторов задаётся отношение частичного порядка на конусе неотрицательно опреде-лённых матриц следующим стандартным образом: A (cid:22) A , A (cid:23) A, A : E → E ∗ , A : E → E ∗ ⇔ h ( A − A ) x, x i ≥ , ∀ x ∈ E. Аналогичное отношение верно и относительно сопряжённого пространства: B (cid:22) B , B (cid:23) B, B : E ∗ → E, B : E ∗ → E ⇔ h u, ( B − B ) u i ≥ , ∀ u ∈ E ∗ . Заметим, что для линейного оператора A : E → E верно отношение  AA ∗ (cid:23) σ min ( A ∗ ) I dim( E ) ; A ∗ A (cid:23) σ min ( A ) I dim( E ) . Обозначим за , m множество целых чисел от до m включительно: { , . . . , m } . Обозначим через f ( x ) = O( h ( x )) оценку сверху функции f функцией h с точностью до константы и, быть может, полило-гарифмических факторов. Так же через f ( x ) = Ω( h ( x )) обозначим оценку снизу функции f функцией h сточностью до константы и, быть может, полилогарифмических факторов. Положим также f ∗ = min x ∈ E f ( x ) , g ∗ ( y ) = min x ∈ E g ( x, y ) , определив минимальные возможные значения по аргументу x для функций f и g соответственно. В работе представлена модификация метода Гаусса–Ньютона с сильно выпуклой параметризованнойлокальной моделью нормы невязки системы нелинейных уравнений. Используя предложенную локальнуюмодель, построены алгоритмы детерминированной оптимизации и алгоритмы стохастической оптимиза-ции для решения задачи (5). Предложены алгоритмы решения задачи (5) с адаптивной настройкой ги-перпараметров локальной модели. В анализе построенных методов заложено понятие неточного оракула,формализованное в виде отличия значения локальной модели в точке очередного приближения решениясистемы (4) от минимального значения локальной модели на текущем шаге. В классе детерминированныхметодов Гаусса–Ньютона разработан с помощью предложенной локальной модели алгоритм, адаптивноучитывающий произвольное значение погрешности неточного оракула в области квадратичной сходимо-сти. Для стохастических методов Гаусса–Ньютона выведены условия, при которых задача (4) разрешимас произвольным размером батча. Среди разработанных вариаций метода Гаусса–Ньютона присутствуетверсия для неограниченных оптимизируемых функционалов в рамках естественных предположений. Длякаждого представленного алгоритма решения задачи (5) дан анализ сходимости с неасимптотическимиоценками относительно потенциала уровня ǫ > , используемого в качестве индикатора сходимости ите-ративного процесса.Кратко результаты работы по построению и изучению модифицированного метода Гаусса–Ньютонапредставлены в таблице 1. В ней столбец «Схемы метода» представляет собой собрание применимыхалгоритмов в обозначенных в столбце справа теоремах. Столбец «Условие сходимости» содержит ссылкина потенциалы, используемые для измерения сходимости до уровня ǫ > . Остальные столбцы описываютосновные требуемые условия для успешного применения схем с указанной асимптотикой. В таблице первыечетыре строки соответствуют детерминированным методам, остальные — стохастическим. Прочерки встолбце «Погрешность оракула» означают использование точного направления минимизации локальноймодели с некоторым масштабом на каждом шаге соответствующего строке с прочерком алгоритма.4 хемыметода Теоремы Предположения Условиесходимости Количествоитераций Размербатча Погрешностьоракула1, 2 1, 8 1 (6) O (cid:0) ǫ (cid:1) m O (cid:0) ǫ (cid:1) O (cid:0) log (cid:0) ln (cid:0) αǫ (cid:1)(cid:1)(cid:1) m ≥

1, 2 6 1 (9) O (cid:0) ǫ (cid:1) m —1, 2 5, 7 1, 2 (10) O (cid:0) ln (cid:0) ǫ (cid:1)(cid:1) m —3, 5, 6 10 3, 4, 5, 6 (20) O (cid:0) ǫ (cid:1) min (cid:8) m, O (cid:0) ǫ (cid:1)(cid:9) —3, 5, 6 11 3, 4, 5, 6, 7 (24) O (cid:0) ln (cid:0) ǫ (cid:1)(cid:1) min (cid:8) m, n, O (cid:0) ǫ (cid:1)(cid:9) —4 12 3, 4, 5, 6 (20) O (cid:0) ǫ (cid:1) min (cid:8) m, O (cid:0) ǫ (cid:1)(cid:9) —4 13 3, 4, 5, 6, 7 (24) O (cid:0) ln (cid:0) ǫ (cid:1)(cid:1) min (cid:8) m, n, O (cid:0) ǫ (cid:1)(cid:9) —3, 5, 6 14 3, 4, 5, 6 (20) O (cid:0) ǫ (cid:1) min (cid:8) m, O (cid:0) ǫ (cid:1)(cid:9) (32), (34)3, 5, 6 15 3, 4, 5, 6, 7 (24) O (cid:0) ln (cid:0) ǫ (cid:1)(cid:1) min (cid:8) m, n, O (cid:0) ǫ (cid:1)(cid:9) (37), (39)5, 6 16 8, 9 (43) (42) (42) (42)5, 6 17 8, 9, 10 (45) (44) (44) (44)4 18 4, 5, 7, 8 (45) O (cid:0) ln (cid:0) ǫ (cid:1)(cid:1) ∈ , m, m ≤ n — Таблица 1: Основные характеристики разработанных модификаций

Вернёмся к задаче поиска решения x ∗ ∈ E гладкой нелинейной системы уравнений: F ( x ) = m , (4)где F : E → E — гладкое многозначное отображение с матрицей Якоби F ′ ( x ) , x ∈ E . Для оценкиблизости текущего приближения к решению системы уравнений (4) рассмотрим следующую функциюневязки для системы с набором функций ˆ F ( x ) def = √ m F ( x ) : ˆ f ( x ) def = 1 √ m k F ( x ) k = (cid:13)(cid:13)(cid:13) ˆ F ( x ) (cid:13)(cid:13)(cid:13) . Используя функцию невязки ˆ f ( x ) можно решить задачу (4) через сведение к задаче оптимизации безограничений: ˆ f ∗ = min x ∈ E (cid:26) ˆ f ( x ) = 1 √ m k F ( x ) k = 1 √ m (cid:13)(cid:13) ( F ( x ) , . . . , F m ( x )) ∗ (cid:13)(cid:13)(cid:27) . (5)Существование решения задачи (4) равносильно ˆ f ∗ = ˆ f ( x ∗ ) = 0 . В работе рассматривается итера-тивная процедура решения задачи (5), основанная на минимизации локальной модели оптимизируемогофункционала: φ ( x, y ) def = (cid:13)(cid:13)(cid:13) ˆ F ( x ) + ˆ F ′ ( x )( y − x ) (cid:13)(cid:13)(cid:13) , ( x, y ) ∈ E , ˆ F ′ ( x ) = 1 √ m F ′ ( x ) . k ∈ Z + очередное приближение решения(4) вычисляется поиском точки минимума выпуклой по y функции φ ( x, y ) : x k +1 ∈ Argmin y ∈ E { φ ( x k , y ) } . Однако добавление регуляризации к классической схеме метода Гаусса–Ньютона позволяет устано-вить свойства локальной и глобальной эффективности всего метода. В данной работе проводится анализрегуляризованного метода Гаусса–Ньютона с модифицированной локальной моделью оптимизируемогофункционала, предложенного в [15]. Для этого введём изначальные предположения о решаемой задаче.Рассмотрим

F ⊆ E — замкнутое выпуклое множество с непустым подмножеством внутренних точек. Предположение 1.

Пусть многозначное отображение ˆ F ( x ) является гладким на F с Липшиц–непре-рывной матрицей Якоби: ∃ L ˆ F > (cid:13)(cid:13)(cid:13) ˆ F ′ ( y ) − ˆ F ′ ( x ) (cid:13)(cid:13)(cid:13) F ≤ L ˆ F k y − x k , ∀ ( x, y ) ∈ F . Из предположения 1 по свойству соотношения операторной нормы и нормы Фробениуса следует нера-венство: (cid:13)(cid:13)(cid:13) ˆ F ′ ( y ) − ˆ F ′ ( x ) (cid:13)(cid:13)(cid:13) ≤ L ˆ F k y − x k , ∀ ( x, y ) ∈ F . Введём понятие множества уровня L ( v ) для функции ˆ f : L ( v ) def = n x : ˆ f ( x ) ≤ v o , предположив, что L ( ˆ f ( x )) ⊆ F , x ∈ F — начальное приближение решения,то есть для каждого начального приближения x во всей работе размер F предполагается достаточнобольшим, чтобы вся последовательность n x k : ˆ f ( x k ) ≤ ˆ f ( x k − ) o k ∈ N принадлежала F . Предположение 2.

Пусть для многозначного отображения выполнено условие Поляка–Лоясиевича: ∃ µ > , σ min ( ˆ F ′ ( x ) ∗ ) ≥ √ µ, ∀ x ∈ F . Из предположения 2 неявно следует неравенство dim( E ) ≤ dim( E ) . В работе [15] предложена следу-ющая локальная регуляризованная модель оптимизируемой функции ˆ f ( y ) : ˆ f ( y ) ≤ ˆ f ( x )2 + ( φ ( x, y )) f ( x ) + L k y − x k , L ≥ L ˆ F , ( x, y ) ∈ F . Однако сейчас рассматривается более общая форма данной модели, называемая общей локальной моделью ,вывод которой представлен в лемме 1: ˆ f ( y ) ≤ ψ x,L,τ ( y ) = τ φ ( x, y )) τ + L k y − x k , L ≥ L ˆ F , τ > , ( x, y ) ∈ F . Общая локальная модель позволяет ввести правило точного обновления приближения решения x в итера-ционной схеме регуляризованного метода Гаусса—Ньютона: T L,τ ( x ) def = argmin y ∈ E { ψ x,L,τ ( y ) } . Разработанная схема обновления x объединяет в себе ранее предложенные модификации метода Гаусса–Ньютона, различающиеся выбором гиперпараметра τ : τ = φ ( x, y ) [14] и τ = ˆ f ( x ) [15]. В отличие от случаяc τ = φ ( x, y ) , модель ψ x,L, ˆ f ( x ) ( y ) является гладкой по y и позволяет однозначно вычислять T L, ˆ f ( x ) ( x ) всилу сильной выпуклости по y . Также в данной работе для общей локальной модели расширено мно-жество значений τ , при которых имеет место сходимость модифицированного метода Гаусса–Ньютона.6 lgorithm 1: Общий метод нормализованных квадратов с неточны проксимальнымотображениемВход:  x ∈ E , L ( ˆ f ( x )) ⊆ F — начальное приближение , x − = x ; E ( · ) — функция погрешности проксимального отображения ; N ∈ N — количество итераций метода ; L — оценка локальной постоянной Липшица , L ∈ (0 , L ˆ F ] , L = L ; T ( · ) — функция, определяющая значение τ . Повторять для k = 0 , , . . . , N − :

1. определить τ k = T ( x k , L k , ε k ) , ε k = E ( k, x k , x k − ) ;2. вычислить такой x k +1 ∈ E , что ψ x k ,L k ,τ k ( x k +1 ) − ψ x k ,L k ,τ k ( T L k ,τ k ( x k )) ≤ ε k и ˆ f ( x k ) − ψ x k ,L k ,τ k ( x k +1 ) ≥ ;3. если ˆ f ( x k +1 ) > ψ x k ,L k ,τ k ( x k +1 ) , то положить L k := min (cid:8) L k , L ˆ F (cid:9) и вернуться к пункту 1;4. L k +1 = max (cid:8) L k , L (cid:9) . Выход: x N .Предлагаемая в работе модификация метода Гаусса–Ньютона является дальнейшим развитием метода нормализованных квадратов [15] и описана в схеме 1.В предложенной схеме рассматривается так называемый неточный оракул, который на каждой внеш-ней итерации k в качестве x k +1 возвращает не точку минимума локальной модели, а приближение значе-ния T L k ,τ k ( x k ) с погрешностью ε k ≥ . Схема 1 обладает определённым уровнем общности, выраженнымв возможности динамически менять τ k и ε k на каждой итерации, формально это описано с помощьюотображений E ( · ) и T ( · ) , которые не всегда от всех обозначенных аргументов существенно зависят, одна-ко позволяют обозначить формально частичную произвольность в выборе τ k и ε k , уточняемую в текстеработы в менее строгой форме, но достаточной для понимания концепции метода. Кроме общности, вразработанной схеме содержится адаптивный подбор локальной постоянной Липшица, построенный попринципу бинарного поиска на отрезке [ L, L ˆ F ] , причём на практике не обязательно знать верхнюю гра-ницу отрезка поиска L k , так как для L k ≥ L ˆ F локальная модель ψ x k ,L k ,τ k ( · ) всегда корректно определенана F и неравенство в пункте выполнено с противоположным знаком. Стоит отметить, что в схеме 1 напрактике желательно выбирать достаточно малое значение ε k ≥ , чтобы было гарантированное умень-шение (выполнялось ˆ f ( x k ) > ψ x k ,L k ,τ k ( x k +1 ) ) до достижения области неоднозначности, существованиекоторой обусловлено наличием неточности при вычислении x k +1 на k –ой итерации, причём не для каж-дого способа выбора τ k может быть выполнено гарантированное уменьшение, и в данной работе условиятеорем определяют способы, позволяющие добиться обозначенного уменьшения. Например, в схеме 1 напрактике это часто приводит к присвоению x k +1 = x k , если на k –ом шаге не удалось подобрать x k +1 ,для которого верно ˆ f ( x k ) ≥ ψ x k ,L k ,τ k ( x k +1 ) при τ k = ˆ f ( x k ) . Неточное вычисление x k +1 в данной работеобозначено в виде «чёрного ящика» и на практике может быть представлено другим итерационным ме-тодом, например, методом градиентного спуска, минимизирующим функционал ψ x k ,L k ,τ k ( · ) на k –ом шагеметода Гаусса–Ньютона; контроль за точностью вычисления x k +1 представлен с помощью сравнения зна-чения функции ψ x k ,L k ,τ k ( x k ) с минимальным значением ψ x k ,L k ,τ k ( T L k ,τ k ( x k )) , хотя эквивалентно можносравнивать норму градиента локальной модели ψ x k ,L k ,τ k ( x k +1 ) (см. раздел 7.3).Прежде чем перейти к оценке сходимости последовательности { x k } k ∈ Z + , построенной по предложен-ной схеме, рассмотрим две естественные величины, оценивающие близость текущего приближения x k кстационароной точке:• норма обобщённого проксимального градиента — k L k ( T L k ,τ k ( x k ) − x k ) k ;• приращение локальной модели — ∆ r ( x k ) def = ˆ f ( x k ) − min y ∈ E n ( φ ( x k , y )) : k y − x k k ≤ r o , r > ; ˆ f ( x ) def = (cid:16) ˆ f ( x ) (cid:17) , x ∈ E . 7бе величины позволяют определить множества стационарных точек, причём нетрудно установить экви-валентность данных определений:• { x ∗ : x ∗ ∈ E , k L ( T L,τ ( x ∗ ) − x ∗ ) k = 0 , ∀ L > , ∀ τ > } ;• { x ∗ : x ∗ ∈ E , ∆ r ( x ∗ ) = 0 , ∀ r > } .С помощью введённых величин близости к стационарной точке установлена сублинейная сходимость кокрестности стационарной точки для метода, реализованного по схеме 1. Теорема 1.

Пусть выполнено предположение 1, k ∈ N , r > . Тогда для метода Гаусса–Ньютона,реализованного по схеме 1 с τ k = ˆ f ( x k ) , ε k = ε ≥ , верны следующие оценки:  L F L (cid:18) ε + ( ˆ f ( x ) − ˆ f ( x k ) ) k (cid:19) ≥ min i ∈ ,k − (cid:26)(cid:13)(cid:13)(cid:13) L ˆ F (cid:16) T L ˆ F , ˆ f ( x i ) ( x i ) − x i (cid:17)(cid:13)(cid:13)(cid:13) (cid:27) ; L ˆ F (cid:18) ε + ( ˆ f ( x ) − ˆ f ( x k ) ) k (cid:19) ≥ min i ∈ ,k − n (cid:0) L ˆ F r (cid:1) κ (cid:16) ∆ r ( x i )4 ˆ f ( x i ) L ˆ F r (cid:17)o ; где κ ( t ) = t { t ∈ [0 , } + (cid:0) t − (cid:1) { t> } . В теореме 1 утверждается аддитивность вклада в оценку сходимости двух факторов: погрешностьвычисления проксимального отображения и количество итераций метода, из–за этого для достиженияминимальной нормы проксимального градиента на уровне ǫ > необходимо часть от ǫ покрыть с помощьюдостаточно малого ǫ , а оставшуюся часть — с помощью достаточно большого количества итераций. Этонеасимптотическое условие сходимости к уровню ǫ представляет собой следующее выражение: min i ∈ ,k − n(cid:13)(cid:13)(cid:13) L ˆ F (cid:16) T L ˆ F , ˆ f ( x i ) ( x i ) − x i (cid:17)(cid:13)(cid:13)(cid:13)o ≤ ǫ. (6)Формально данное условие описывается с помощью системы неравенств:  L F εL ≤ rǫ , r ∈ (0 , L F ( ˆ f ( x ) − ˆ f ( x k ) ) Lk ≤ (1 − r ) ǫ . Из неравенств выводятся максимальное значение погрешности ε и минимальное количество итераций k : ε = rǫ L L F = O (cid:0) ǫ (cid:1) , k = & L F ˆ f ( x )(1 − r ) ǫ L ' = O (cid:18) ǫ (cid:19) . Также полученные оценки указывают на ускорение метода при сужении отрезка поиска постоянной Лип-шица на каждой итерации вокруг истинного значения L ˆ F . При выборе адаптивной стратегии вычисления x k +1 с постепенно уменьшающейся погрешностью ε k до нулевого предельного значения возможно при-ближение к стационарной точке с любой наперёд заданной точностью (следствие 1.1), более того, прификсированном x все получаемые стационарные точки x ∗ принадлежат связному множеству (следствие1.2), хотя не все из них являются решениями системы (4), даже возможен случай, в котором ни одна из по-лученных стационарных точек не будет решением системы уравнений (4). Для наличия решений системыуравнений необходима совместность системы, в следующем утверждении содержатся условия локальнойсходимости схемы 1 при наличии разрешимости (4). Теорема 2.

Пусть выполнено предположение 1, пусть для метода Гаусса–Ньютона со схемой 1 суще-ствует x ∗ ∈ L ( ˆ f ( x )) , ˆ F ( x ∗ ) = m — решение с σ min (cid:16) ˆ F ′ ( x ∗ ) (cid:17) ≥ ς > . Если выполнено ς > L ˆ F α принекотором фиксированном α ∈ (0 , для всех ε k ≥ , k ∈ Z + в схеме 1 с  k x k − x ∗ k < ςL ˆ F − α ;0 < τ k ≤ (cid:16) α ( ς − L ˆ F k x k − x ∗ k ) − L ˆ F (cid:17) − L F ! k x k − x ∗ k k x k − x ∗ k L k +2 ε k ; о x k +1 ∈ L ( ˆ f ( x )) и k x k +1 − x ∗ k ≤ L ˆ F k x k − x ∗ k + r k x k − x ∗ k (cid:16) τ k L k + L F k x k − x ∗ k (cid:17) + 2 τ k ε k ς − L ˆ F k x k − x ∗ k ≤ α k x k − x ∗ k . Если не существует такого α ∈ (0 , , то в схеме 1 при выборе  τ k = c k x k − x ∗ k , c > ε k = c k x k − x ∗ k , c > в области k x k − x ∗ k ≤ ς L ˆ F + q c L ˆ F + L F + 2 c c , k ∈ Z + выполнена следующая оценка: k x k +1 − x ∗ k ≤ L ˆ F k x k − x ∗ k + r k x k − x ∗ k (cid:16) τ k L k + L F k x k − x ∗ k (cid:17) + 2 τ k ε k ς − L ˆ F k x k − x ∗ k ≤ k x k − x ∗ k , x k +1 ∈ L ( ˆ f ( x )) . Согласно теореме 2, в условиях невырожденности достаточно близкое нахождение к оптимуму позво-ляет решить задачу (5) с квадратичной скоростью, затратив в худшем случае не больше k = (cid:24) (cid:18) ln (cid:18) ln (cid:18) αǫ (cid:19)(cid:19) − ln (cid:18) ln (cid:18) L ˆ F ας (cid:19)(cid:19)(cid:19)(cid:25) = O (cid:18) log (cid:18) ln (cid:18) αǫ (cid:19)(cid:19)(cid:19) итераций для приближения к точке оптимума на расстояние k x k − x ∗ k ≤ ǫ (7)в конце итерационного процесса, если выполнено структурное ограничение ς > L ˆ F α . В утверждении тео-ремы 2 при выполнении ограничения ς > L ˆ F α указана произвольность выбора ε k ≥ и L k > , котораякомпенсируется выбором τ k > , что означает перераспределение вклада L k в оптимизируемом функци-онале на τ k , при этом произвольность ε k для неточного оракула оставляет единственным ограничениемнеобходимость выбора x k +1 , для которого ˆ f ( x k ) − ψ x k ,L k ,τ k ( x k +1 ) ≥ , хотя это ограничение заложеносхемой 1, в ходе доказательства теоремы 2 не используется и может быть проигнорировано, так как увели-чение ε k ведёт к уменьшению τ k , увеличивая оптимизируемый функционал и компенсируя рост погрешно-сти поиска x k +1 , что автоматически ведёт к выполнению ˆ f ( x k ) − ψ x k ,L k ,τ k ( x k +1 ) ≥ , однако на практикевсё–таки полезно работать с не слишком большими величинами, избегая значительных погрешностей в вы-числениях с плавающей точкой. Если структурное ограничение ς > L ˆ F α не выполнено, то квадратичнаясходимость имеет место, но только в более узкой области и при непроизвольном выборе ( τ k , ε k ) . Условияневырожденности в теореме 2 позволяют локально быстро решить задачу оптимизации, однако они неяв-но требуют выполнения соотношения dim( E ) ≤ dim( E ) , то есть требуется при выполнении совместностисистемы наличие количества уравнений, не уступающего количеству параметров (следствие 2.1). Стоиттакже заметить, что в случае ς > L ˆ F α для τ k = φ ( x k , y ) радиус локальной квадратичной сходимости в 4раза меньше (Theorem 3.4, [14]).Для задач с dim( E ) > dim( E ) гарантия наличия ς > уже пропадает, хотя остаётся возможность сов-местности системы уравнений, и если предположить невырожденность системы в виде условия 2, то имеетместо локальная линейная сходимость к решению системы (4), согласно изложенному ниже утверждению. Теорема 3.

Допустим выполнение предположений 1 и 2 для метода Гаусса–Ньютона со схемой реализа-ции 1, в которой τ k = ˆ f ( x k ) . Тогда в схеме 1 для последовательности { x k } k ∈ Z + выполняются следующиесоотношения: ˆ f ( x k +1 ) ≤ ε k +  ˆ f ( x k )2 + L ˆ F µ ˆ f ( x k ) ≤ ˆ f ( x k ) , если ˆ f ( x k ) ≤ µ L ˆ F ;ˆ f ( x k ) − µ L ˆ F , иначе . сли при генерации последовательности { x k } k ∈ Z + была зафиксирована L k = L ˆ F , то данные соотношениявыражаются по–другому: ˆ f ( x k +1 ) ≤ ε k +  ˆ f ( x k )2 + L ˆ F µ ˆ f ( x k ) ≤ ˆ f ( x k ) , если ˆ f ( x k ) ≤ µ L ˆ F ;ˆ f ( x k ) − µ L ˆ F , иначе . Теорема 3 утверждает глобальную сублинейную сходимость к точке оптимума с локальной линейнойсходимостью на старших итерациях при малых значениях оптимизируемого функционала. Данное утвер-ждение фиксирует главную особенность метода Гаусса–Ньютона — наличие локальной линейной сходи-мости в условии Поляка–Лоясиевича с коэффициентом линейной сходимости, не зависящим от значения √ µ > , отделяющего минимальное сингулярное число матрицы ˆ F ′ ( x ) ∗ от нуля. Если сравнить модифи-кацию с τ k = ˆ f ( x k ) и модификацию с τ k = φ ( x k , y ) , то можно сделать вывод о том, что упрощение поиска x k +1 на каждой итерации замедлило скорость локальной линейной сходимости метода ( при τ k = ˆ f ( x k ) против при τ k = φ ( x k , y ) , Theorem 4.4, [14]), однако возможность явно выразить x k +1 при τ k = ˆ f ( x k ) позволяет вывести глобальную линейную сходимость [15]. И, как в случае теоремы 1, подбор монотонноубывающей последовательности { ε k } k ∈ Z + с нулевым пределом позволяет вычислить решение задачи (5) слюбой наперёд заданной точностью (следствие 3.1).Кроме гарантии линейной сходимости к решению системы (4), условие Поляка–Лоясиевича позволяетоценить расстояние текущего приближения до решения задачи, неасимптотические границы на данноерасстояние представлены в теореме 4. Теорема 4.

Пусть выполнены предположения 1 и 2 для метода Гаусса–Ньютона со схемой реализации1, в которой τ k = ˆ f ( x k ) , ε k = 0 , k ∈ Z + . Тогда существует решение x ∗ ∈ F задачи (4) , такое, что ˆ f ( x ∗ ) = 0 и k x − x ∗ k ≤ f ( x ) q L ˆ F µL . В теореме 4, как и в теореме 3, информация о точном значении постоянной Липшица позволяет вхудшем случае быстрее приближаться к решению, находиться ближе к решению на каждой итерации(следствия 3.2 и 4.1). Если дополнительно верны условия теоремы 2, то значение ˆ f ( x k ) можно использо-вать для подбора τ k в области квадратичной сходимости (лемма 6), предположив ограниченность нормыматрицы Якоби:Для (cid:13)(cid:13)(cid:13) ˆ F ′ ( x ) (cid:13)(cid:13)(cid:13) ≤ M ˆ F , x ∈ F , возьмём ε k = 0 , τ k = ˆ f ( x k ) , k ∈ Z + ⇒⇒ f ( x k )3 M ˆ F < k x k − x ∗ k ≤ min (cid:26) ς L ˆ F , L ˆ F (cid:18)(cid:0) M ˆ F + 5 ς (cid:1) − q(cid:0) M ˆ F + 5 ς (cid:1) − ς (cid:19)(cid:27) < ςL ˆ F . Главным же недостатком данного способа выбора τ k является необходимость точно вычислять каждоеприближение решения x k +1 . Выполнение условия Поляка–Лоясиевича также позволяет ограничить зна-чение k x k − x ∗ k (лемма 6, теорема 4) с двух сторон в случае ограниченных якобианов и точного оракула,используя значение ˆ f ( x k ) : ˆ f ( x k ) ≤ M ˆ F k x k − x ∗ k + L ˆ F k x k − x ∗ k , k x k − x ∗ k ≤ f ( x k ) s L ˆ F µL ⇒⇒ ˆ f ( x k ) √ µLM ˆ F √ µL + 2 ˆ f ( x k ) L ˆ F p L ˆ F ≤ k x k − x ∗ k ≤ f ( x k ) s L ˆ F µL ,ε k = 0 , τ k = ˆ f ( x k ) , k ∈ Z + . При этом одно из важных свойств решения задачи, удовлетворяющей условию Поляка–Лоясиевича, состо-ит в единственности x ∗ для данного начального приближения x ∈ E , L ( ˆ f ( x )) ⊆ F с τ k = ˆ f ( x k ) , ε k = 0 (следствие 4.1). Более того, выполнение предположения 2 для системы уравнений c dim( E ) = dim( E ) приводит к наличию участков сублинейной, линейной и квадратичной сходимости при решении задачи(5).В отличие от условий теоремы 3, использование информации о явном выражении T L k ,τ k ( x k ) позво-ляет получить глобальную линейную сходимость для произвольного начального приближения x ∈ E , L ( ˆ f ( x )) ⊆ F . Согласно следствию 2.2, T L k ,τ k ( x k ) имеет следующее представление: T L k ,τ k ( x k ) = x k − (cid:16) ˆ F ′ ( x k ) ∗ ˆ F ′ ( x k ) + τ k L k I n (cid:17) − ˆ F ′ ( x k ) ∗ ˆ F ( x k ) .

10 данной работе рассматривается более общая форма правила обновления x k +1 , использующая явноевыражение T L k ,τ k ( x k ) : x k +1 = x k − η k (cid:16) ˆ F ′ ( x k ) ∗ ˆ F ′ ( x k ) + τ k L k I n (cid:17) − ˆ F ′ ( x k ) ∗ ˆ F ( x k ) , η k ∈ R . (8)Полученное таким образом значение x k +1 является субоптимальным относительно T L k ,τ k ( x k ) , однако поз-воляет лучше рассмотреть метод Гаусса–Ньютона в классе квазиньютоновских методов. Следующее утвер-ждение расширяет множество оценок на значение ˆ f ( x k +1 ) , представленное в теореме 3. Теорема 5.

Пусть выполнены предположения 1 и 2. Рассмотрим последовательность { x k } k ∈ Z + , вычис-ляемую по схеме 1 с правилом (8) , в котором τ k > , η k ∈ (0 , , k ∈ Z + . Тогда для k ∈ Z + : ˆ f ( x k +1 ) ≤ τ k  ˆ f ( x k )2 τ k (cid:16) − η k (2 − η k ) µL k τ k + µ (cid:17) , τ k ≥ µL k ; ˆ f ( x k )(1 − η k ) τ k + η k (2 − η k ) L k ˆ f ( x k )2 µ − η k (2 − η k ) L k ˆ f ( x k ) τ k µ (1+ ξ ) , для некоторого ξ ∈ ( − , при τ k < µL k . При этом для η k = 1 , k ∈ Z + верно: ˆ f ( x k +1 ) ≤ τ k L ˆ F µ ˆ f ( x k ) . Использование явной формы T L k ,τ k ( x k ) в анализе позволяет устанавливать сходимость не только втерминах проксимальных градиентов, но ещё и относительно градиента функции ˆ f , как указано в утвер-ждении ниже. Теорема 6.

Пусть условия теоремы 5 верны, определим на каждой итерации метода нормализованныхквадратов максимальный коэффициент линейной сходимости α k : α k ∈ 

12 + L k ˆ f ( x k ) + (1 − η k ) µ (cid:16) L k ˆ f ( x k ) + µ (cid:17) ,  , k ∈ Z + . Дополнительно предположим, что на каждой итерации τ k = c k ˆ f ( x k ) , k ∈ Z + : c k ∈ " L k ˆ f ( x k ) + (1 − η k ) µ (2 α k − L k ˆ f ( x k ) + µ ) , α k − − µ L k ˆ f ( x k ) ++ vuut α k + α k µL k ˆ f ( x k ) − ! + 14 µL k ˆ f ( x k ) + 1 ! − (1 − η k ) µL k ˆ f ( x k )  . огда метод нормализованных квадратов с вычислением x k +1 по правилу (8) глобально сходится не хуже,чем линейно к решению задачи (5) lim k → + ∞ x k = x ∗ : ˆ F ( x ∗ ) = m со следующей оценкой: ˆ f ( x k ) ≤ ˆ f ( x ) k − Y i =0 α i , k ∈ Z + , − Y i =0 α i def = 1 . Утверждение выше указывает на возможные значения τ k , пропорциональные ˆ f ( x k ) , при которых ме-тод нормализованных квадратов имеет глобально линейную сходимость. Стоит заметить, что наименьшеедопустимое значение α k соответствует c k = 1 . Это представляет метод нормализованных квадратов с τ k = ˆ f ( x k ) как наиболее быстрый в классе методов нормализованных квадратов с гарантией линейнойсходимости, отличающихся выбором c k . Данный результат является скорее теоретико–иллюстративным,обосновывающим важность и общее удобство случая τ k = ˆ f ( x k ) . Также в условии теоремы 7 роль η k характерно показана: близость значений η k к и к симметрично относительно η k = 1 приводит к за-медлению сходимости в терминах α k . Выбор τ k = ˆ f ( x k ) в теореме 6 приводит к упрощению оценки наквадрат нормы градиента в силу наличия сходимости ( ˆ f ( x k ) ˆ f ( x k +1 ) ≤ ˆ f ( x k ) , k ∈ Z + ): min i ∈ ,k − (cid:26)(cid:13)(cid:13)(cid:13) ∇ ˆ f ( x i ) (cid:13)(cid:13)(cid:13) (cid:27) ≤ f ( x ) (cid:16) L ˆ F ˆ f ( x ) + M F (cid:17) η (2 − η ) k . И для достижения минимального значения нормы градиента ˆ f на уровне ǫ > необходимо затратить k = O (cid:0) ǫ (cid:1) итераций метода: k =  f ( x ) (cid:16) L ˆ F ˆ f ( x ) + M F (cid:17) η (2 − η ) ǫ  , формально для такого количества итераций выполнено неравенство: min i ∈ ,k − n(cid:13)(cid:13)(cid:13) ∇ ˆ f ( x i ) (cid:13)(cid:13)(cid:13)o ≤ ǫ. (9)В теореме 7 выбор τ k = ˆ f ( x k ) соответствует следующей оценке: ˆ f ( x k +1 ) ≤ ˆ f ( x k )  − η k (2 − η k ) µ (cid:16) L k ˆ f ( x k ) + µ (cid:17)  ≤ ˆ f ( x k )  − η (2 − η ) µ (cid:16) L ˆ F ˆ f ( x ) + µ (cid:17)  ≤≤ ˆ f ( x k ) exp  − η (2 − η ) µ (cid:16) L ˆ F ˆ f ( x ) + µ (cid:17)  ≤ ˆ f ( x ) exp  − ( k + 1) η (2 − η ) µ (cid:16) L ˆ F ˆ f ( x ) + µ (cid:17)  ,η ∈ Argmin k ∈ Z + { η k (2 − η k ) } . А благодаря строению функции ˆ f возможно установить аналогичную оценку на норму градиента: (cid:13)(cid:13)(cid:13) ∇ ˆ f ( x k ) (cid:13)(cid:13)(cid:13) = (cid:13)(cid:13)(cid:13) F ′ ( x k ) ∗ ˆ F ( x k ) (cid:13)(cid:13)(cid:13) ≤ (cid:13)(cid:13)(cid:13) ˆ F ′ ( x k ) ∗ (cid:13)(cid:13)(cid:13) (cid:13)(cid:13)(cid:13) ˆ F ( x k ) (cid:13)(cid:13)(cid:13) = 2 (cid:13)(cid:13)(cid:13) ˆ F ′ ( x k ) (cid:13)(cid:13)(cid:13) ˆ f ( x k ) . Оценка в теорема 5 при τ k = ˆ f ( x k ) означает для достижения уровня ˆ f ( x k ) ≤ ǫ (10)необходимость затратить k = O (cid:0) ln (cid:0) ǫ (cid:1)(cid:1) итераций: k =  (cid:16) L ˆ F ˆ f ( x ) + µ (cid:17) η (2 − η ) µ ln ˆ f ( x ) ǫ ! . Таким образом, теорема 7 устанавливает глобальную линейную сходимость при выполнении условияПоляка–Лоясиевича с гарантией отсутствия участков сублинейной сходимости.12отя выбор τ k = ˆ f ( x k ) очень удобен на практике, в процессе оптимизации можно значение τ k накаждой итерации адаптивно настраивать, a при достаточном приближении τ k к значению φ ( x k , y ) общееповедение метода нормализованных квадратов будет похоже на поведение метода Гаусса–Ньютона, рас-смотренного в работе [14]. Само значение τ = φ ( x, y ) соответствует ближайшей верхней оценке на ˆ f ( y ) относительно τ (лемма 1) с L ≥ L ˆ F , τ > : ˆ f ( y ) ≤ L k y − x k + (cid:13)(cid:13)(cid:13) ˆ F ( x ) + ˆ F ′ ( x )( y − x ) (cid:13)(cid:13)(cid:13)| {z } = φ ( x,y ) ≤ L k y − x k + τ τ (cid:13)(cid:13)(cid:13) ˆ F ( x ) + ˆ F ′ ( x )( y − x ) (cid:13)(cid:13)(cid:13) , ( x, y ) ∈ F . Важно заметить, что в силу неравенства для локальных моделей выше, утверждения теорем 5 и 6 приподстановке τ k = ˆ f ( x k ) , k ∈ Z + в условие выполнены для метода Гаусса–Ньютона с локальной моде-лью ψ x,L,φ ( x,y ) ( y ) , относительно которой в схеме 1 значение x k +1 является приближением элемента из Argmin y ∈F (cid:8) ψ x k ,L k ,φ ( x k ,y ) ( y ) (cid:9) [15].Введём обозначение оптимального значения τ : T L ( x ) = argmin τ> { ψ x,L,τ ( T L,τ ( x )) } , которое вытекает из свойства строгой выпуклости по τ общей локальной модели и позволяет упроститьвычисление приближения точки минимума по y в случае τ = φ ( x, y ) , L ( ˆ f ( x )) ⊆ F : ˆ f ( T L, T L ( x ) ( x )) ≤ min y ∈F (cid:26) L k y − x k + φ ( x, y ) (cid:27) = min y ∈F min τ> ( L k y − x k + τ φ ( x, y )) τ ) == min τ> ( τ y ∈F ( L k y − x k + ( φ ( x, y )) τ )) = min τ> { ψ x,L,τ ( T L,τ ( x )) } ⇒⇒ T L, T L ( x ) ( x ) ∈ Argmin y ∈F (cid:26) L k y − x k + φ ( x, y ) (cid:27) , L ≥ L ˆ F . Обозначенная выше справедливость теорем 5 и 6 для локальной модели с τ k = T L k ( x k ) , k ∈ Z + приподстановке в условия данных теорем τ k = ˆ f ( x k ) , k ∈ Z + наглядно следует из цепочки неравенств ниже: | {z } ψ xk,Lk, T Lk ( xk ) ( · ) — локальная модель ˆ f ( · ) ≤ | {z } по определению T Lk ( x k ) (лемма 1) ˆ f ( T L k , T Lk ( x k ) ( x k )) ≤ T Lk, T Lk ( xk ) ( x k ) минимизирует ψ xk,Lk, T Lk ( xk ) ( · ) z }| { ψ x k ,L k , T Lk ( x k ) ( T L k , T Lk ( x k ) ( x k )) ≤ ψ x k ,L k , T Lk ( x k ) ( T L k , ˆ f ( x k ) ( x k )) ≤ ψ x k ,L k , ˆ f ( x k ) ( T L k , ˆ f ( x k ) ( x k )) . (11)То есть в схеме 1 для последовательности { x k } k ∈ Z + всегда выполнено соотношение ˆ f ( x k ) − ψ x k ,L k , T Lk ( x k ) ( T L k , T Lk ( x k ) ( x k )) ≥ ˆ f ( x k ) − ψ x k ,L k , ˆ f ( x k ) ( T L k , ˆ f ( x k ) ( x k )) ≥ . (12)Таким образом, если обозначить процедуру получения x k +1 по известным ( x k , L k , τ k ) на каждой ите-рации k ∈ Z + через отображение X : F × R → F , то схема оптимизации с адаптивным подбором τ k накаждом шаге k заключается в следующем:1. Вычислить τ ∗ k — приближение оптимального значения T L k ( x k ) , τ ∗ k может быть получено приближённоиз задачи поиска элемента множества Argmin τ> { ψ x k ,L k ,τ ( X ( x k , L k , τ )) } ;2. Получить значение x k +1 = X ( x k , L k , τ ∗ k ) как приближение T L k ,τ ∗ k ( x k ) .Схема 2 представляет метод Гаусса–Ньютона, в котором используется адаптивный подбор τ k . В этойсхеме на первое место выходит задача поиска гиперпараметра τ ∗ k , то есть вместе с поиском x k +1 происходитоптимизация оптимизатора, представленного в виде отображения X , и в таком виде метод Гаусса–Ньютонаведёт себя в режиме, близком к режиму с τ k = φ ( x k , y ) , что формально отражено в теоремах 8 (следствия8.1 и 8.2) и 9 (следствия 9.1 и 9.2). Теорема 8.

Пусть выполнено предположение 1, k ∈ N , r > . Рассмотрим функции κ ( t ) = t { t ∈ [0 , } + (cid:18) t − (cid:19) { t> } и ˜∆ r ( x ) def = ˆ f ( x ) − min y ∈ E { φ ( x, y ) : k y − x k ≤ r } . lgorithm 2: Общий метод нормализованных квадратов с неточным проксимальнымотображением и адаптивным подбором τ Вход:  x ∈ E , L ( ˆ f ( x )) ⊆ F — начальное приближение , x − = x ; E ( · ) — функция погрешности подбора τ ; N ∈ N — количество итераций метода ; L — оценка локальной постоянной Липшица , L ∈ (0 , L ˆ F ] , L = L ; X ( · ) — отображение, аппроксимирующее T L k ,τ k ( x k ) . Повторять для k = 0 , , . . . , N − :

1. определить ε k = E ( k, x k , x k − ) ;2. вычислить τ ∗ k > , для которого выполнено ψ x k ,L k ,τ ∗ k ( X ( x k , L k , τ ∗ k )) − ψ x k ,L k , T Lk ( x k ) ( T L k , T Lk ( x k ) ( x k )) ≤ ε k и ˆ f ( x k ) − ψ x k ,L k ,τ ∗ k ( X ( x k , L k , τ ∗ k )) ≥ ;3. вычислить x k +1 = X ( x k , L k , τ ∗ k ) ;4. если ˆ f ( x k +1 ) > ψ x k ,L k ,τ ∗ k ( x k +1 ) , то положить L k := min (cid:8) L k , L ˆ F (cid:9) и вернуться к пункту 2;5. L k +1 = max (cid:8) L k , L (cid:9) . Выход: x N . Тогда для метода Гаусса–Ньютона, реализованного по схеме 2 с ε k = ε ≥ , верны следующие оценки:  L F L (cid:18) ε + ( ˆ f ( x ) − ˆ f ( x k ) ) k (cid:19) ≥ min i ∈ ,k − (cid:26)(cid:13)(cid:13)(cid:13) L ˆ F (cid:16) T L ˆ F , T L ˆ F ( x i ) ( x i ) − x i (cid:17)(cid:13)(cid:13)(cid:13) (cid:27) ; L ˆ F (cid:18) ε + ( ˆ f ( x ) − ˆ f ( x k ) ) k (cid:19) ≥ min i ∈ ,k − n (cid:0) L ˆ F r (cid:1) κ (cid:16) ˜∆ r ( x i )2 L ˆ F r (cid:17)o . Теорема 9.

Допустим выполнение предположений 1 и 2 для метода Гаусса–Ньютона со схемой реали-зации 2. Тогда для последовательности { x k } k ∈ Z + выполняются следующие соотношения: ˆ f ( x k +1 ) ≤ ε k +  L ˆ F µ ˆ f ( x k ) ≤ ˆ f ( x k ) , если ˆ f ( x k ) ≤ µ L ˆ F ;ˆ f ( x k ) − µ L ˆ F , иначе . Если при генерации последовательности { x k } k ∈ Z + была зафиксирована L k = L ˆ F , то данные соотношениявыражаются по–другому: ˆ f ( x k +1 ) ≤ ε k +  L ˆ F µ ˆ f ( x k ) ≤ ˆ f ( x k ) , если ˆ f ( x k ) ≤ µL ˆ F ;ˆ f ( x k ) − µ L ˆ F , иначе . В теореме 8 скорость сходимости не отличается от результатов в теореме 1. А теорема 9 в своих след-ствиях 9.1 и 9.2 наглядно демонстрирует уменьшение необходимого количества итераций для достижения ǫ –уровня функции ˆ f по сравнению с теоремой 3, однако на практике часто это означает усложнениевычисления каждой итерации, что приходится соизмерять для определения наиболее оптимальных гипер-параметров решения задачи, тем не менее, в схеме 2 представлен универсальный способ учёта сложностикаждой итерации для извлечения преимуществ из явного алгоритма вычисления точки минимума локаль-ной модели ψ x,L, T L ( x ) ( · ) .Минимизация величины ψ x k ,L k ,τ ( X ( x k , L k , τ )) по τ может быть достаточно трудоёмкой процедурой.Более того, отображение X ( · ) может быть негладким по τ > , а в случае дифференцируемости по τ практическая реализация может представлять собой разновидность алгоритма распространения ошибки14ерез итерации метода оптимизации, осуществляющего аппроксимацию отображения T L k ,τ ( x k ) . При ис-пользовании правила вычисления x k +1 (8) в качестве отображения X ( · ) величина ψ x k ,L k ,τ ( X ( x k , L k , τ )) принимает следующий вид: ψ x k ,L k ,τ ( X ( x k , L k , τ )) = τ f ( x k )2 τ − η k (2 − η k )2 τ (cid:28)(cid:16) ˆ F ′ ( x k ) ∗ ˆ F ′ ( x k ) + τ L k I n (cid:17) − ˆ F ′ ( x k ) ∗ ˆ F ( x k ) , ˆ F ′ ( x k ) ∗ ˆ F ( x k ) (cid:29) . Для η k = 1 данная функция является строго выпуклой по τ , так как локальная модель ψ x,L,τ ( y ) строговыпукла по τ и сильно выпукла по y , а ψ x k ,L k ,τ ( X ( x k , L k , τ )) представляет собой проекцию по y локальноймодели ψ x,L,τ ( y ) (Theorem 3.1.7, [3]), поэтому в рассматриваемом случае приближение оптимального τ ∗ k > можно эффективно найти с помощью стандартных средств линейной алгебры и выпуклой оптимизации,в частности, процедур одномерного поиска. В данной работе предлагается решение задачи (5) в режиме стохастической аппроксимации, в кото-ром локальная модель на каждой итерации оценивается по сэмплированному подмножеству функций изсистемы (4). То есть природа стохастичности, возникающая в задаче (5) при оптимизации с помощьюстохастического оракула, порождена сэмплированием начального приближения x ∈ E и батчированиемфункций из конечной генеральной совокупности. Как следствие, стохастичность в оценке функции ˆ f ( x ) заложена взятием подмножества функций из F в виде батча B размера | B | = b ∈ { , . . . , m } независимона каждой итерации и из одного и того же распределения: B = (cid:8) F i j ( x ) (cid:12)(cid:12) j ∈ { , . . . , b } , i j ∈ { , . . . , m } (cid:9) . Батч B может быть и мультимножеством, если сэмплировать i j с возвращением. Дополнительно зададим B k , k ∈ Z + — батч размера b , сэмплированный на k –ой итерации метода оптимизации. Рассматриваетсятолько независимое от x k , k ∈ Z + сэмплирование без возвращения в генеральной совокупности B размера m с равновероятными подмножествами размера b : B = { F i ( x ) | i ∈ { , . . . , m }} . Определим соответствующие подмножеству функций B вектор ˆ G ( x, B ) и матрицу Якоби ˆ G ′ ( x, B ) : ˆ G ( x, B ) def = 1 √ b ( F i ( x ) , . . . , F i b ( x )) ∗ ;ˆ G ′ ( x, B ) def = 1 √ b ( ∇ F i ( x ) , . . . , ∇ F i b ( x )) ∗ . Тогда всей выборке функций соответствуют следующий вектор ˆ F ( x ) и его матрица Якоби ˆ F ′ ( x ) : ˆ F ( x ) = 1 √ m ( F ( x ) , . . . , F m ( x )) ∗ def = ˆ G ( x, B );ˆ F ′ ( x ) = 1 √ m ( ∇ F ( x ) , . . . , ∇ F m ( x )) ∗ def = ˆ G ′ ( x, B ) . Фактически таким определением для ˆ G ( x, B ) зафиксировали единственно возможный порядок функций,хотя в результате сэмплирования без возвращения он может быть иным, но данный момент не принципи-ален для дальнейшего анализа в силу определения функции ˆ f . В связи с этим введём оценки функций ˆ f , ˆ f по батчу функций B : ˆ g ( x, B ) def = (cid:13)(cid:13)(cid:13) ˆ G ( x, B ) (cid:13)(cid:13)(cid:13) ;ˆ g ( x, B ) def = (ˆ g ( x, B )) . Введённые функции позволяют задать стохастическую локальную модель функции ˆ f , но уже в ка-честве ограничивающей параболы функции ˆ g (лемма 9): ˆ g ( y, B ) ≤ ˆ ψ x,L,τ ( y, B ) def = τ L k y − x k + 12 τ (cid:13)(cid:13)(cid:13) ˆ G ( x, B ) + ˆ G ′ ( x, B )( y − x ) (cid:13)(cid:13)(cid:13) , L ≥ L ˆ F , ( x, y ) ∈ E , τ > , B ⊆ B . x k +1 = ˆ T L k ,τ k ( x k , B k ) def = argmin y ∈ E n ˆ ψ x k ,L k ,τ k ( y, B k ) o , τ k > , L k > , k ∈ Z + . В этой работе рассматривается случай, в котором стохастический оракул отличается от предложенногов Method of Stochastic Squares [15]. В данном случае точка x k +1 целиком оценивается по батчу функцийиз ˆ F , поэтому рассматриваемый вариант метода стохастических квадратов (Method of Stochastic Squares)и называется методом трёх стохастических квадратов , и в этом методе рассматриваются следующиеоценки на функции ˆ f и ˆ f : ˆ f ( x ) = ˆ g ( x, B ) = vuuut E q  b b X j =1 (cid:0) F i j ( x ) (cid:1)  ≥ (cid:8) неравенство Йенсена, √· — вогнутая (cid:9) ≥≥ E q vuut b b X j =1 (cid:0) F i j ( x ) (cid:1)  = E q [ˆ g ( x, B )] ;ˆ f ( x ) = ˆ g ( x, B ) = E q  b b X j =1 (cid:0) F i j ( x ) (cid:1)  = E q [ˆ g ( x, B )] . Символ q обозначает равномерное распределение на подмножества индексов координат вектор–функции ˆ F размера b . Данную стохастичность можно обобщить и на бесконечные генеральные совокупности, рассмот-рев, например, следующие формы риска ( i j и ξ ∈ { , . . . , m } — сэмплы, подчиняющиеся вероятностномузакону q ): ˆ f ( x ) = r E q h ˜ F ξ ( x ) i ≥ (cid:8) неравенство Йенсена (cid:9) ≥ E q vuut b b X j =1 ˜ F i j ( x )  = E q [ˆ g ( x, B )] ;ˆ f ( x ) = E q h ˜ F ξ ( x ) i = E q  b b X j =1 ˜ F i j ( x )  = E q [ˆ g ( x, B )] , ˜ F ξ ( x ) def = ( F ξ ( x )) . Замена конечной суммы по компонентам ˆ f на математическое ожидание приводит задачу (5) к разно-видности задачи минимизации среднего риска с потенциально бесконечной генеральной совокупностью B : min x ∈ E ( ˆ f ( x ) = r E q h ( F ξ ( x )) i) . (13)Однако для задачи (13) в случае бесконечной генеральной совокупности B не определён нормированныйвектор ˆ F ( x ) . Для решения подобного вида задач методом трёх стохастических квадратов необходимосменить вид оптимизируемого функционала, например, на тот, в котором размерность матрицы Якоби независит от количества сэмплов в оценке риска. Для стохастической версии метода Гаусса–Ньютона вместо предположений 1 и 2 используются следу-ющие.

Предположение 3 (Липшиц–непрерывность функций из F ) . Существуют конечные L ˆ F > , l ˆ F > , для которых k∇ F i ( x ) − ∇ F i ( y ) k ≤ L ˆ F k x − y k , (cid:12)(cid:12)(cid:12) ( F i ( x )) − ( F i ( y )) (cid:12)(cid:12)(cid:12) ≤ l ˆ F k x − y k , ∀ ( x, y ) ∈ E , ∀ i ∈ , m. В отличие от предположений, введённых в работе [15], в предположении 3 липшицевость рассматри-вается относительно отдельной функции из выборки. Стоит отметить, что в случае бесконечно большойгенеральной совокупности B предположение 3 выполняется в смысле почти наверно.16 редположение 4 (Ограниченность нормы матрицы Якоби ˆ G ′ ) . Существует конечное M ˆ G > , длякоторого (cid:13)(cid:13)(cid:13) ˆ G ′ ( x, B ) (cid:13)(cid:13)(cid:13) ≤ M ˆ G при любых x ∈ E и B ⊆ B , | B | = b ∈ , m . Для b = m и при сэмплированиибатча функций без возвращения существует конечное M ˆ F > , для которого (cid:13)(cid:13)(cid:13) ˆ F ′ ( x ) (cid:13)(cid:13)(cid:13) ≤ M ˆ F при всех x ∈ E . Предположение 4 так же ограничивает максимальное собственное значение матрицы ˆ G ′ ( x, B ) ∗ ˆ G ′ ( x, B ) значением M G по свойству операторной нормы, что ограничивает сверху сингулярные числа матрицы ˆ G ′ ( x, B ) значением M ˆ G (лемма 7). Предположение 5 (Ограниченность значения функции ˆ g ) . Существует конечное P ˆ g > , для которого ˆ g ( x, B ) ≤ P ˆ g , при любых x ∈ E и B ⊆ B , | B | = b ∈ , m . Для b = m и при сэмплировании батча функцийбез возвращения существует конечное P ˆ f > , для которого (cid:13)(cid:13)(cid:13) ˆ f ( x ) (cid:13)(cid:13)(cid:13) ≤ P ˆ f при всех x ∈ E . Предположение 5 явно задаёт ограниченность множества значений в функциях ˆ f и ˆ g , в то время какв работе [15] неявно предполагается, что ˆ f ( x ) < + ∞ , из–за чего все использованные значения функцийбыли ограничены сверху ˆ f ( x ) в силу нахождения в множестве уровня ˆ f ( x ) . Так же, как и предположе-ние 3, предположение 5 в случае бесконечно большой генеральной совокупности B выполняется в смыслепочти наверно. Выполнение предположений 4 и 5 влечёт за собой липшицевость ( F i ( x )) из предположения3 и липшицевость функции ˆ g ( x, B ) (лемма 8). А по свойству Липшиц–непрерывности наилучшее (наи-меньшее) значение постоянной Липшица функции ˆ g ( x, B ) равно sup x ∈ E {k∇ x ˆ g ( x, B ) k} [27] и ограничено: sup x ∈ E {k∇ x ˆ g ( x, B ) k} ≤ min (cid:8) l ˆ F , M ˆ G P ˆ g (cid:9) , ∀ B ⊆ B , (14)так как | ˆ g ( z, B ) − ˆ g ( y, B ) | ≤ sup x ∈ E {k∇ x ˆ g ( x, B ) k} | {z } ≤ l ˆ F (лемма 8) k z − y k , ∀ ( y, z ) ∈ E , ∀ B ⊆ B и sup x ∈ E {k∇ x ˆ g ( x, B ) k} = sup x ∈ E n(cid:13)(cid:13)(cid:13) G ′ ( x, B ) ∗ ˆ G ( x, B ) (cid:13)(cid:13)(cid:13)o ≤ x ∈ E n(cid:13)(cid:13)(cid:13) ˆ G ′ ( x, B ) (cid:13)(cid:13)(cid:13) (cid:13)(cid:13)(cid:13) ˆ G ( x, B ) (cid:13)(cid:13)(cid:13)o ≤ M ˆ G P ˆ g , ∀ B ⊆ B , причём норма k k для z − y и норма k k для ∇ x ˆ g ( x, B ) являются сопряжёнными друг к другу, но в данномслучае они совпадают в силу того, что они евклидовы. Предположение 6 (Ограниченность дисперсии значения ˆ g , b = 1 ) . Существует конечное σ > , длякоторого E q (cid:20)(cid:12)(cid:12)(cid:12) ˆ g ( x, B ) − ˆ f ( x ) (cid:12)(cid:12)(cid:12) (cid:21) ≤ σ для всех x ∈ E и B ⊆ B , | B | = 1 . Предположение 6 автоматически выполняется при выполнении предположения 5, поэтому оно в данномслучае внесено из соображений удобства для дальнейшего анализа.

Предположение 7 (Условие Поляка–Лоясиевича для матрицы Якоби ˆ G ′ ) . Существует конечное µ > ,для которого ˆ G ′ ( x, B ) ˆ G ′ ( x, B ) ∗ (cid:23) µI b для всех x ∈ E и B ⊆ B , | B | = b ≤ min { m, n } . Отношение порядка« (cid:23) » выполнено на конусе неотрицательно определённых матриц. Предположение 7 ограничивает снизу операторную норму матрицы Якоби ˆ G ′ ( x, B ) (лемма 7), однаковыполнение данного условия не всегда возможно в случае n < m , так как можно построить пример, в ко-тором сэмплированием без возвращения в один батч могли бы попасть векторы, совокупно формирующиелинейно зависимую систему векторов (например, используя одновременно диагонализуемые матрицы).При этом модельный пример с m > n, n = 2 , в котором любая пара векторов формирует базис, позволяетиз этих векторов строить матрицы n × b, b ≤ n с ненулевым минимальным сингулярным числом не меньшенекоторого √ µ > . Важно понимать, что ˆ G ′ ( x, B ) , ˆ g ( x, B ) и ˆ g ∗ ( B ) , будучи случайными величинами, по-строены на одном и том же батче B . Сама функция ˆ g может быть невыпуклой . Также нетрудно заметить,что для выполнения условия Поляка–Лоясиевича необходимо выбирать в батчи функции сэмплированиембез возвращения. Иначе у матрицы ˆ G ′ ( x, B ) ∗ была бы обязательно положительная вероятность наличиянулевого сингулярного числа. 17 .3 Схема процесса оптимизации Согласно введённой стохастической локальной модели, в работе рассматриваются три основные стра-тегии выбора нового приближения x k +1 по известному x k . x k +1 = x k − η k (cid:16) ˆ G ′ ( x k , B k ) ∗ ˆ G ′ ( x k , B k ) + τ k L k I n (cid:17) − ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) , η k ∈ R . (15)Правило вычисления x k +1 (15) выводится из прямой минимизации ˆ ψ x k ,L k ,τ k ( y, B k ) по y ∈ E и при η k = 1 значение y = x k +1 является точкой минимума для стохастической локальной модели. В следующей стра-тегии вычисления x k +1 уже используются два батча функций: x k +1 = x k − η k (cid:16) ˆ G ′ ( x k , ˜ B k ) ∗ ˆ G ′ ( x k , ˜ B k ) + ˜ τ k L k I n (cid:17) − ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) , η k ∈ R , ˜ B k ⊆ B и B k независимо сэмплированы , ˜ τ k > . (16)Значение x k +1 , оценённое с помощью (16), выводится из другого представления стохастической локальноймодели, в котором градиент и гессиан оценены на различных батчах, а x k +1 вычисляется через масшта-бированный в η k раз шаг метода Ньютона: ˆ ψ x k ,L k , ˜ τ k ( y, ˜ B k ) = ˜ τ k L k k y − x k k + 12˜ τ k (cid:13)(cid:13)(cid:13) ˆ G ( x k , ˜ B k ) + ˆ G ′ ( x k , ˜ B k )( y − x k ) (cid:13)(cid:13)(cid:13) = ˜ τ k g ( x k , ˜ B k )2˜ τ k ! ++ * ˆ G ′ ( x k , ˜ B k ) ∗ ˆ G ( x k , ˜ B k )˜ τ k , y − x k + ++ 12 * ˆ G ′ ( x k , ˜ B k ) ∗ ˆ G ′ ( x k , ˜ B k )˜ τ k + L k I n ! ( y − x k ) , y − x k + ⇒⇒ ˆ ψ x k ,L k , ˜ τ k ( y, ˜ B k ) ≈ ˜ τ k g ( x k , ˜ B k )2˜ τ k ! + * ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k )˜ τ k , y − x k + ++ 12 * ˆ G ′ ( x k , ˜ B k ) ∗ ˆ G ′ ( x k , ˜ B k )˜ τ k + L k I n ! ( y − x k ) , y − x k + . При этом оценка градиента ∇ y ˆ ψ x k ,L k , ˜ τ k ( y, ˜ B k ) в точке y = x k по батчу B k не смещена. Будем называтьтакой шаг метода в (16) дважды стохастическим . Стратегия (17) является наиболее общей и включаетв себя, как минимум, полностью стратегии вида (15): x k +1 ∈ E : 0 ≤ ˆ ψ x k ,L k ,τ k ( x k +1 , B k ) − ˆ ψ x k ,L k ,τ k ( ˆ T L k ,τ k ( x k , B k ) , B k ) ≤ ε k , ˆ g ( x k , B k ) − ˆ ψ x k ,L k ,τ k ( x k +1 , B k ) ≥ . (17)Как и в детерминированном случае, в способе (17) оракул представлен в виде «чёрного ящика» и напрактике может оказаться другим итерационным методом оптимизации, минимизирующим функционал ˆ ψ x k ,L k ,τ k ( · , B k ) .Предлагаемая в качестве стохастического метода оптимизации для решения задачи (5) схема стоха-стической аппроксимации 3 представляет собой прямую модификацию схемы 1, разработанной для де-терминированного случая. Стоит заметить, что в теории данная схема корректна при γ ≥ , однако напрактике сходимость оценивается при γ ≥ в силу особенности поиска локальной постоянной Липшица:если L k ∈ h L ˆ F , L ˆ F i , то для L k ∈ (cid:2) L ˆ F , L ˆ F (cid:3) локальная модель всегда корректно определена. Использование правила (15) с τ k = ˆ g ( x k , B k ) вместе с линейным поиском L k ∈ [ L, γL ˆ F ] , L ∈ (0 , γL ˆ F ] , γ ≥ позволяет добиться сходимости в терминах среднего, что формально изложено в теоремах 10 и 11ниже. 18 lgorithm 3: Общий метод трёх стохастических квадратов с неточным проксимальнымотображениемВход:  x ∈ E — начальное приближение , x − = x ; E ( · ) — функция погрешности проксимального отображения ; N ∈ N — количество итераций метода ; γ ≥ — фактор верхней границы поиска L ˆ F ; L — оценка локальной постоянной Липшица , L ∈ (0 , γL ˆ F ] , L = L ; T ( · ) — функция, определяющая значение τ ; B — выборка функций ; b ∈ , m — размер B k ⊆ B , k ∈ Z + . Повторять для k = 0 , , . . . , N − :

1. сэмплировать батч B k из B размера b ;2. определить τ k = T ( x k , L k , B k ) , ε k = E ( k, x k , x k − , B k ) ;3. вычислить x k +1 ∈ E согласно одному из выбранных изначально правил: (15) или (17);4. если ˆ g ( x k +1 , B k ) > ˆ ψ x k ,L k ,τ k ( x k +1 , B k ) , то положить L k := min (cid:8) L k , γL ˆ F (cid:9) ивернуться к пункту 2;5. L k +1 = max (cid:8) L k , L (cid:9) . Выход: x N . Теорема 10.

Пусть выполнены предположения 3, 4, 5, 6. Рассмотрим метод Гаусса–Ньютона со схемойреализации 3, в которой последовательность { x k } k ∈ Z + вычисляется по правилу (15) с τ k = ˆ g ( x k , B k ) , η k ∈ [ η, , η ∈ (0 , . Тогда: E (cid:20) min i ∈ ,k − (cid:13)(cid:13)(cid:13) ∇ ˆ f ( x i ) (cid:13)(cid:13)(cid:13) (cid:21) ≤ (cid:16) M G + γP ˆ g L ˆ F (cid:17) η (2 − η )  E h ˆ f ( x ) i k + 2 l ˆ F min (r P ˆ g L , M ˆ G L ) { b

1) min (cid:26)q P ˆ g L , M ˆ G L (cid:27) { b в среднем выражается в виде следующего неравенства: E (cid:20) min i ∈ ,k − (cid:26)(cid:13)(cid:13)(cid:13) ∇ ˆ f ( x i ) (cid:13)(cid:13)(cid:13) (cid:27)(cid:21) ≤ ǫ . (20)Неравенства (19) накладывают ограничения на минимальный размер батча b и минимальное количествоитераций k :  k = l M G + γP ˆ g L ˆ F ) E [ˆ g ( x ,B )] ǫ (1 − r ) η (2 − η ) m , r ∈ (0 , b = min  m,  M G + γP ˆ g L ˆ F )2 η − η )2 (cid:18) l ˆ F √ m ( m −

1) min (cid:26)q P ˆ g L , M ˆ GL (cid:27) +˜ σ (cid:19) ǫ r + M G + γP ˆ g L ˆ F )2 mη − η )2 (cid:18) l ˆ F √ m ( m −

1) min (cid:26)q P ˆ g L , M ˆ GL (cid:27) +˜ σ (cid:19)  . (21)Выражения в (21) означают следующие асимптотики для b и k : k = O (cid:18) ǫ (cid:19) , b = min (cid:26) m, O (cid:18) ǫ (cid:19)(cid:27) , что для подходящего условиям (19) размера батча b соответствует сублинейной сходимости в среднем к ǫ –стационарной точке x ∗ : (cid:13)(cid:13)(cid:13) ∇ ˆ f ( x ∗ ) (cid:13)(cid:13)(cid:13) ≤ ǫ. Следующее утверждение устанавливает уже линейную сходимость метода трёх стохастических квадратовв случае выполнения условия Поляка–Лоясиевича (предположение 7).

Теорема 11.

1) min (cid:26)q P ˆ g L , M ˆ G L (cid:27) { b

1) min (cid:26)q P ˆ g L , M ˆ GL (cid:27) +˜ σ (cid:19) (cid:18) γL ˆ F P ˆ g µη (2 − η ) µ (cid:19) ǫ r + M Gm (cid:18) l ˆ F √ m ( m −

1) min (cid:26)q P ˆ g L , M ˆ GL (cid:27) +˜ σ (cid:19) (cid:18) γL ˆ F P ˆ g µη (2 − η ) µ (cid:19)  . (25)Или в сокращённой асимптотической форме: k = O (cid:18) ln (cid:18) ǫ (cid:19)(cid:19) , b = min (cid:26) m, n, O (cid:18) ǫ (cid:19)(cid:27) . Для размера батча в (25) ситуация такая же, как и в (21), однако размер батча огранчен ещё и количествомпараметров n , что означает невозможность оптимизации с любой наперёд заданной точностью без заменылинейной скорости сходимости на сублинейную при n < m . Зато теперь есть возможность для некоторых ǫ > решить задачу с линейной скоростью сходимости по k . Также стоит обратить внимание на тот факт,что выполнение предположения 7 приводит, в среднем, к монотонному неувеличению квадрата нормыградиента в (22). В текущем подразделе представлены основные свойства метода Гаусса–Ньютона, основанном на пра-виле вычисления приближения решения (16). Для правила (16) разработан алгоритм решения задачи (5),описанный в схеме 4. Данная схема оптимизационного процесса заключается в минимизации на каждом

Algorithm 4: Общий метод трёх стохастических квадратов с дважды стохастическимшагомВход:  x ∈ E — начальное приближение ; N ∈ N — количество итераций метода ; γ ≥ — фактор верхней границы поиска l ˆ g ; l — оценка локальной постоянной Липшица , l ∈ (0 , γl ˆ g ] , l = l ; T ( · ) — функция, определяющая значение произведения τ L ; B — выборка функций ; b, ˜ b ∈ , m — размеры B k , ˜ B k ⊆ B соответственно , k ∈ Z + . Повторять для k = 0 , , . . . , N − :

1. сэмплировать батчи B k , ˜ B k из B размеров b, ˜ b соответственно;2. определить ˜ τ k L k = T ( x k , l k , ˜ B k ) ;3. вычислить x k +1 ∈ E согласно правилу (16);4. если γ = 1 и l = l ˆ g , то перейти к пункту 1;5. если ˆ g ( x k +1 , B k ) > ˆ ϕ x k ,l k ( x k +1 , B k ) , то положить l k := min { l k , γl ˆ g } и вернуться к пункту 2;6. l k +1 = max (cid:8) l k , l (cid:9) . Выход: x N .шаге отличной от использованной в схеме 3 локальной модели ˆ ϕ x,l , вывод которой описан в лемме 16: ˆ g ( y, B ) ≤ ˆ ϕ x,l ( y, B ) def = ˆ g ( x, B ) + h∇ x ˆ g ( x, B ) , y − x i + l k y − x k , l ≥ l ˆ g def = 2 (cid:0) M G + L ˆ F P ˆ g (cid:1)| {z } согласно лемме 15 , ( x, y ) ∈ E , B ⊆ B . ˆ ϕ x,l , значение ˜ τ L k уже не играет тойключевой роли, какую могло бы играть в схеме 3, и в схеме 4 производится бинарный поиск l k , а отзначения ˜ τ k L k требуется только положительность. При явном указании постоянной Липшица градиентафункции ˆ g в схеме 4 адаптивный поиск l k не производится, в отличие от схемы 3.Основное достоинство стратегии (16) по сравнению с правилом (15) состоит в более гибких получаемыхоценках сходимости, как указано в теоремах 12 и 13. Теорема 12.

Пусть выполнены предположения 3, 4, 5 и 6. Рассмотрим метод Гаусса–Ньютона, реали-зованный по схеме 4 со стратегией вычисления x k +1 (16) , в которой η k = 2 (cid:28) ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) , (cid:16) ˆ G ′ ( x k , ˜ B k ) ∗ ˆ G ′ ( x k , ˜ B k ) + ˜ τ k L k I n (cid:17) − ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) (cid:29) l k (cid:28) ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) , (cid:16) ˆ G ′ ( x k , ˜ B k ) ∗ ˆ G ′ ( x k , ˜ B k ) + ˜ τ k L k I n (cid:17) − ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) (cid:29) , ˜ T ≥ ˜ τ k ≥ ˜ τ > , L k ≥ L > , k ∈ Z + . Тогда при независимом сэмплировании B k и ˜ B k : E (cid:20) min i ∈ ,k − (cid:26)(cid:13)(cid:13)(cid:13) ∇ ˆ f ( x i ) (cid:13)(cid:13)(cid:13) (cid:27)(cid:21) ≤ γl ˆ g M G ˜ τ L + 1 !  E h ˆ f ( x ) i k ++ 4 l ˆ F M ˆ G P ˆ g l M G ˜ τ L + 1 ! + ˜ σ r b − m  , k ∈ N . (26) В случае сэмплирования одного батча на каждом шаге ( B k ≡ ˜ B k ) оценка сходимости следующая: E (cid:20) min i ∈ ,k − (cid:26)(cid:13)(cid:13)(cid:13) ∇ ˆ f ( x i ) (cid:13)(cid:13)(cid:13) (cid:27)(cid:21) ≤ γl ˆ g M G ˜ τ L + 1 !  E h ˆ f ( x ) i k ++2 l ˆ F min vuut L ˜ T + P g ˜ τ ! , M ˆ G P ˆ g l M G ˜ τ L + 1 !  { b кследующей системе неравенств:  γl ˆ g (cid:16) M G ˜ τL + 1 (cid:17) E [ˆ g ( x ,B )] k ≤ r ǫ , r ∈ (0 , γl ˆ g l ˆ F (cid:16) M G ˜ τL + 1 (cid:17) s L (cid:18) ˜ T + P g ˜ τ (cid:19) { b max (cid:26) M G ˜ τ ( √ c − , (cid:18) ˜ T + P g ˜ τ (cid:19) (cid:16) cγl ˆ g l ˆ F r ǫ (cid:17) (cid:27) , r ∈ (0 , b = min  m,  γl ˆ g M G ˜ τL +1 ! ˜ σ ! r ǫ + m γl ˆ g M G ˜ τL +1 ! ˜ σ !  , r ∈ (0 , r + r + r = 1; (28)в асимптотической форме это означает следующие оценки: k = O (cid:18) ǫ (cid:19) , b = min (cid:26) m, O (cid:18) ǫ (cid:19)(cid:27) . Оценка на L получена через введение вспомогательной переменной c > : M G ˜ τ L + 1 ! | {z } ≤ c γl ˆ g l ˆ F vuut L ˜ T + P g ˜ τ !| {z } ≤ r ǫ c { b

Пусть выполнены предположения 3, 4, 5, 6 и 7. Рассмотрим метод Гаусса–Ньютона,реализованный по схеме 4 со стратегией вычисления x k +1 (16) , в которой η k = 2 (cid:28) ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) , (cid:16) ˆ G ′ ( x k , ˜ B k ) ∗ ˆ G ′ ( x k , ˜ B k ) + ˜ τ k L k I n (cid:17) − ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) (cid:29) l k (cid:28) ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) , (cid:16) ˆ G ′ ( x k , ˜ B k ) ∗ ˆ G ′ ( x k , ˜ B k ) + ˜ τ k L k I n (cid:17) − ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) (cid:29) , ˜ T ≥ ˜ τ k ≥ ˜ τ > , L k ≥ L > , k ∈ Z + . Тогда:  E (cid:20)(cid:13)(cid:13)(cid:13) ∇ ˆ f ( x k ) (cid:13)(cid:13)(cid:13) (cid:21) ≤ M G ˆ∆ k,b ; E h ˆ f ( x k ) i ≤ ˆ f ∗ + ˆ∆ k,b ; где при k ∈ Z + и b ∈ , min { m, n } оценка ˆ∆ k,b определяется следующим образом: ˆ∆ k,b = E h ˆ f ( x ) i exp  − µkγl ˆ g ˜ τ LM G + ˜ τ L !  ++ γl ˆ g µ  ˜ σ r b − m + 2 l ˆ F M ˆ G P ˆ g l M G ˜ τ L + 1 ! { b задаётся следующей системой неравенств:  M G E [ˆ g ( x , B )] exp (cid:18) − µkγl ˆ g (cid:16) ˜ τLM G +˜ τL (cid:17) (cid:19) ≤ r ǫ , r ∈ (0 , γl ˆ g l ˆ F M G µ s L (cid:18) ˜ T + P g ˜ τ (cid:19) (cid:16) M G ˜ τL + 1 (cid:17) { b max (cid:26) M G ˜ τ ( √ c − , (cid:18) ˜ T + P g ˜ τ (cid:19) (cid:16) cγl ˆ g l ˆ F M G µr ǫ (cid:17) (cid:27) , r ∈ (0 , b = min  m, n,  γl ˆ g M Gµ M G ˜ τL +1 ! ˜ σ ! r ǫ + m γl ˆ g M Gµ M G ˜ τL +1 ! ˜ σ !  , r ∈ (0 , r + r + r = 1 . (31)Оценка на L так же получена через введение вспомогательной переменной c > , как и в случае теоремы12: M G ˜ τ L + 1 ! | {z } ≤ c γl ˆ g l ˆ F M G µ vuut L ˜ T + P g ˜ τ !| {z } ≤ r ǫ c { b соглас-но правилу (17). Ясно, что при ε k = 0 воспроизводится правило (15) с η k = 1 . Стратегия (17) можетбыть полезной в случае наличия практических трудностей с обращением матриц большого размера или вслучае использования неточной оптимизации в качестве аналога механизма регуляризации при настройкеробастных моделей с повышенной устойчивостью к переобучению в теории статистического обучения. Вы-числение x k +1 также может обладать стохастической природой относительно текущей итерации, однако вусловиях данного раздела ε k –оптимальность из (17) полагается выполненной в смысле почти наверно.Для вывода схемы, обладающей сходимостью в терминах среднего, рассмотрим переменный интервалпоиска приближения локальной постоянной Липшица: L k ∈ (cid:20) max (cid:26) L, Ls k (cid:27) , max (cid:26) ˜ γL ˆ F , γL ˆ F s k (cid:27)(cid:21) , γ ≥ ˜ γ ≥ , s k > , L ∈ (cid:0) , ˜ γL ˆ F (cid:3) , k ∈ Z + , причём на каждом шаге метода Гаусса–Ньютона количество итераций поиска наименьшего подходящего L k сверху ограничено величиной O (cid:18)(cid:24) log (cid:18) γL ˆ F L (cid:19)(cid:25) + 1 (cid:19) по лемме 19, данная оценка верна и для схемы 3. Этой же величиной ограничено количество итерацийлинейного поиска L k в схемах 1 и 2 при γ = 2 . В силу единообразия рассматриваемой стратегии бинарногопоиска локальной постоянной Липшица для схемы 4 количество итераций линейного поиска ограниченосверху величиной O (cid:18)(cid:24) log (cid:18) γl ˆ g l (cid:19)(cid:25) + 1 (cid:19) . Соответственно, для введённой стратегии подбора L k схема метода является модификацией схемы 3и представлена в листинге 5. Следующие утверждения устанавливают сохранение сходимости при ис-пользовании стратегии (17) с такой же асимптотикой, что и при использовании стратегии (15), если накаждой итерации метода трёх стохастических квадратов осуществлять поиск x k +1 с достаточно малойпогрешностью ε k > . Теорема 14.

Пусть выполнены предположения 3, 4, 5, 6. Рассмотрим метод Гаусса–Ньютона со схемойреализации 5, в котором последовательность { x k } k ∈ Z + вычисляется по правилу (17) с τ k = ˆ g ( x k , B k ) .Если в схеме 5 выбрать следующий отрезок погрешностей ε k : ≤ ε k ≤ ε ˆ g ( x k , B k ) , (32) то выполнено: E (cid:20) min i ∈ ,k − (cid:26)(cid:13)(cid:13)(cid:13) ∇ ˆ f ( x i ) (cid:13)(cid:13)(cid:13) (cid:27)(cid:21) ≤ (cid:0) M G + max (cid:8) ˜ γP ˆ g L ˆ F , γL ˆ F (cid:9)(cid:1)  E h ˆ f ( x ) i k + ε ++2 l ˆ F r εL + r P ˆ g L ! { b

1. сэмплировать батч B k из B размера b ;2. определить τ k = T ( x k , B k ) , ε k = E ( k, x k , x k − , B k ) , L = max n L, Lτ o ;3. вычислить x k +1 ∈ E согласно одному из выбранных изначально правил: (15) или (17);4. если ˆ g ( x k +1 , B k ) > ˆ ψ x k ,L k ,τ k ( x k +1 , B k ) , то положить L k := min n L k , max n ˜ γL ˆ F , γL ˆ F τ k oo ивернуться к пункту 3;5. L k +1 = max n L k , max n L, Lτ k oo . Выход: x N . Оператор математического ожидания E [ · ] усредняет по всей случайности процесса оптимизации. В теореме 14 представлены два режима неточного поиска x k +1 . В рамках первого режима при умень-шении значения сэмпла оптимизируемой функции точность поиска x k +1 может уменьшиться в силу увели-чения верхней границы допустимого значения ε k ( ≤ ε k ≤ ε ˆ g ( x k ,B k ) ), а условия оптимальности для оценки(33) в терминах средней минимальной нормы градиента на уровне ǫ выглядят следующим образом:  (cid:16) M G + max (cid:8) ˜ γP ˆ g L ˆ F , γL ˆ F (cid:9)(cid:17) E [ˆ g ( x ,B )] k ≤ r ǫ , r ∈ (0 , (cid:16) M G + max (cid:8) ˜ γP ˆ g L ˆ F , γL ˆ F (cid:9)(cid:17) (cid:16) ε + 2 l ˆ F q εL { b

28е же самые величины в асимптотической форме демонстрируют необходимость на каждой итерациирешать задачу поиска x k +1 асимптотически точнее, чем требуемый уровень нормы градиента функции ˆ f : k = O (cid:18) ǫ (cid:19) , ε = O (cid:0) ǫ (cid:1) , b = min (cid:26) m, O (cid:18) ǫ (cid:19)(cid:27) . Во втором режиме неточного поиска x k +1 точность вычисления на каждой итерации может быть потенци-ально сколь угодно малой в силу пропорциональности верхней грани квадрата нормы градиента значениюфункции: ≤ ε k ≤ δ k∇ x k ˆ g ( x k , B k ) k g ( x k , B k ) (cid:16) M G + ˆ g ( x k , B k ) L k (cid:17) ≤≤  k∇ x k ˆ g ( x k , B k ) k ≤ (cid:13)(cid:13)(cid:13) ˆ G ′ ( x k , B k ) (cid:13)(cid:13)(cid:13) | {z } ≤ M G (cid:13)(cid:13)(cid:13) ˆ G ( x k , B k ) (cid:13)(cid:13)(cid:13) | {z } =ˆ g ( x k ,B k )  ≤ δM G ˆ g ( x k , B k )2 (cid:16) M G + ˆ g ( x k , B k ) L k (cid:17) . Соответственно, в этом режиме нет необходимости отдельно вычислять максимальное значение ε k , однаковместо ε k требуется определить δ :  ( M G +max { ˜ γP ˆ g L ˆ F , γL ˆ F } ) E [ˆ g ( x ,B )](1 − δ ) k ≤ r ǫ , r ∈ (0 , l ˆ F ( M G +max { ˜ γP ˆ g L ˆ F , γL ˆ F } ) − δ q δP ˆ g L { b

Теорема 15.

Предположение 8 (Липшиц–непрерывность отображения F ′ ) . Существует конечная L ˆ F > , для ко-торой k∇ F i ( x ) − ∇ F i ( y ) k ≤ L ˆ F k x − y k , ∀ ( x, y ) ∈ E , ∀ i ∈ , m. В отличие от предположения 3, в данном случае рассмотрена липшицевость только производных от-дельных функций. 31 редположение 9 (Ограниченность отклонения) . Для любых γ ≥ ˜ γ ≥ существуют c i ≥ , i ∈ , ,при которых выполнено E h(cid:12)(cid:12)(cid:12) ˆ g ( x k +1 , B k ) − ˆ f ( x k +1 ) (cid:12)(cid:12)(cid:12)i ≤ r b − m c + c E [ˆ g ( x k , B k ) ε k ] ++ c E "(cid:13)(cid:13)(cid:13)(cid:13) ˆ T max n ˜ γL ˆ F , γL ˆ F ˆ g xk,Bk ) o , ˆ g ( x k ,B k ) ( x k , B k ) − x k (cid:13)(cid:13)(cid:13)(cid:13) для всех ε k ≥ , k ∈ Z + и b ∈ , m в рамках схемы 5 со стратегией (17) и схемы 6. Оператор матема-тического ожидания E [ · ] усредняет по всей случайности процесса оптимизации. Предположение 9 обобщает сразу несколько предположений, ограничивающих рост значения E h(cid:12)(cid:12)(cid:12) ˆ g ( x k +1 , B k ) − ˆ f ( x k +1 ) (cid:12)(cid:12)(cid:12)i , в частности, в класс оценок, который описывается данным предположением, входит результат леммы 12для ограниченных функционалов (71) при x k +1 = ˆ T max n ˜ γL ˆ F , γL ˆ F ˆ g xk,Bk ) o , ˆ g ( x k ,B k ) ( x k , B k ) : E h(cid:12)(cid:12)(cid:12) ˆ f ( x k +1 ) − ˆ g ( x k +1 , B k ) (cid:12)(cid:12)(cid:12)i ≤ r b − m (cid:16) l ˆ F p m ( m − { b , v ∈ E ⇒ E [ k v k ] ≤ a E (cid:2) k v k (cid:3) + a (cid:27) ≤≤ r b − m  l ˆ F p m ( m − { b , k ∈ Z + . (40)Что характерно, в данном примере c i , i ∈ , не зависят от значений ˜ γ и γ . Предположение 10 (Условие Поляка–Лоясиевича для проксимального градиента) . Для любых конечных γ ≥ ˜ γ ≥ существует ν > , при котором выполнено E "(cid:13)(cid:13)(cid:13)(cid:13) γL ˆ F (cid:18) ˆ T max n ˜ γL ˆ F , γL ˆ F ˆ g xk,Bk ) o , ˆ g ( x k ,B k ) ( x k , B k ) − x k (cid:19)(cid:13)(cid:13)(cid:13)(cid:13) ≥ ν (cid:16) E h ˆ f ( x k ) i − ˆ f ∗ (cid:17) для всех k ∈ Z + в рамках схемы 5 со стратегией (17) и схемы 6. Оператор математического ожидания E [ · ] усредняет по всей случайности процесса оптимизации. В предположении 10 для ограниченных по предположениям 4 и 5 функционалов возможно выразить ν > явно, согласно лемме 14 при η k = 1 , L k = max n ˜ γL ˆ F , γL ˆ F ˆ g ( x k ,B k ) o и x k +1 = ˆ T max n ˜ γL ˆ F , γL ˆ F ˆ g xk,Bk ) o , ˆ g ( x k ,B k ) ( x k , B k ) : E h(cid:13)(cid:13) γL ˆ F ( x k +1 − x k ) (cid:13)(cid:13) i ≥ E  γL ˆ F k∇ x ˆ g ( x k , B k ) k (cid:16) M G + ˆ g ( x k , B k ) max n ˜ γL ˆ F , γL ˆ F ˆ g ( x k ,B k ) o(cid:17)   ≥ { предположение 7 } ≥≥ γL ˆ F √ µM G + max (cid:8) ˜ γL ˆ F P ˆ g , γL ˆ F (cid:9) ! E h ˆ f ( x k ) i ≥≥ γL ˆ F √ µM G + max (cid:8) ˜ γL ˆ F P ˆ g , γL ˆ F (cid:9) ! | {z } = ν , может быть > (cid:16) E h ˆ f ( x k ) i − ˆ f ∗ (cid:17) ⇒ lim γ → + ∞ E h(cid:13)(cid:13) γL ˆ F ( x k +1 − x k ) (cid:13)(cid:13) i = 14 E h k∇ x k ˆ g ( x k , B k ) k i ≥ µ (cid:16) E h ˆ f ( x k ) i − ˆ f ∗ (cid:17) , (41)так как проксимальное отображение выглядит следующим образом: ˆ T max n ˜ γL ˆ F , γL ˆ F ˆ g xk,Bk ) o , ˆ g ( x k ,B k ) ( x k , B k ) = x k − (cid:16) ˆ G ′ ( x k , B k ) ∗ ˆ G ′ ( x k , B k )++ max (cid:8) ˜ γL ˆ F ˆ g ( x k , B k ) , γL ˆ F (cid:9) I n (cid:1) − ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) . То есть выполнение предположения 7 приводит к тому, что любая, в среднем, стационарная точка уста-навливает уровень глобального минимума ˆ f ∗ = 0 , а это эквивалентно совместности системы (4).В следующем утверждении установлена сходимость в терминах среднего к стационарной точке дляпоследовательности { x k } k ∈ Z + , построенной по схеме 5 с правилом (17). Теорема 16.

Предположим выполнение предположений 8 и 9. Рассмотрим метод Гаусса–Ньютона,реализованный по схеме 5 со стратегией обновления приближения решения (17) , τ k = ˆ g ( x k , B k ) , k ∈ Z + .Тогда выполнена следующая оценка: (cid:0) γL ˆ F (cid:1) L − c r b − m ! −  E h ˆ f ( x ) i k + 1 k k − X i =0 E [ ε i ˆ g ( x i , B i )] c r b − m ! + c r b − m  ≥≥ E " min i ∈ ,k − ((cid:13)(cid:13)(cid:13)(cid:13) γL ˆ F (cid:18) ˆ T max n ˜ γL ˆ F , γL ˆ F ˆ g xi,Bi ) o , ˆ g ( x i ,B i ) ( x i , B i ) − x i (cid:19)(cid:13)(cid:13)(cid:13)(cid:13) ) ,b ∈ min (cid:26) m, (cid:24) c mL m + 4 c (cid:25) + 1 (cid:27) , m, ˜ γL ˆ F ≥ L > c r b − m , ˜ γ > max ( , c L ˆ F r b − m ) , γ ≥ ˜ γ. Согласно теореме 16 условие сходимости для достижения уровня ǫ > минимальной нормы прокси-мального градиента в терминах среднего при ограничении значения погрешности вычисления x k +1 нера-венством ≤ ε k ≤ ε ˆ g ( x k ,B k ) задаётся следующей системой неравенств: (cid:0) γL ˆ F (cid:1) (cid:16) L − c q b − m (cid:17) − E [ˆ g ( x ,B )] k ≤ r ǫ , r ∈ (0 , (cid:0) γL ˆ F (cid:1) (cid:16) L − c q b − m (cid:17) − (cid:16) c q b − m (cid:17) ε ≤ r ǫ , r ∈ (0 , (cid:0) γL ˆ F (cid:1) (cid:16) L − c q b − m (cid:17) − c q b − m ≤ r ǫ , r ∈ (0 , r + r + r = 1; из которой выводятся минимальное количество итераций, максимальное значение величины ε и минималь-ный размер батча:  k = (cid:24)(cid:16) L − c q b − m (cid:17) − ( γL ˆ F ) E [ˆ g ( x ,B )] r ǫ (cid:25) , r ∈ (0 , ε = r ǫ ( γL ˆ F ) (cid:16) L − c q b − m (cid:17) (cid:16) c q b − m (cid:17) − , r ∈ (0 , b = min  m,  c m (cid:18) c c r (cid:16) γL ˆ Fǫ (cid:17) +1 (cid:19) L m +4 c (cid:18) c c r (cid:16) γL ˆ Fǫ (cid:17) +1 (cid:19)  , r ∈ (0 , r + r + r = 1 . (42)Неравенства из (42) задают ограничение на среднюю минимальную норму проксимального градиента: E " min i ∈ ,k − ((cid:13)(cid:13)(cid:13)(cid:13) γL ˆ F (cid:18) ˆ T max n ˜ γL ˆ F , γL ˆ F ˆ g xi,Bi ) o , ˆ g ( x i ,B i ) ( x i , B i ) − x i (cid:19)(cid:13)(cid:13)(cid:13)(cid:13) ) ≤ ǫ . (43)Среди гиперпараметров оценки сходимости в теореме 16 наиболее существенными на практике являютсяразмер батча b и нижняя оценка локальной постоянной Липшица L , так как их требуется явно задать при33ешении задачи (5) по схеме 5, в то время как значения гиперпараметров γ и ˜ γ можно более свободно ва-рьировать, чтобы все неравенства в условии теоремы выполнялись, однако всё равно остаётся зависимостьпостоянных c i ≥ , i ∈ , и ν > от значений ˜ γ и γ , и важность выбора значений b и L дополнительнообосновывается наличием этих зависимостей из предположений 9 и 10. В самом условии (42) возможноувеличенем отношения LγL ˆ F до добиться снижения нижней границы на размер батча, увеличения значе-ния ε и уменьшения k . Следующее утверждение уже демонстрирует, как выполнение предположения 10вдобавок к условиям теоремы 16 приводит к линейной сходимости. Теорема 17.

Предположим выполнение предположений 8, 9 и 10. Рассмотрим метод Гаусса–Ньютона,реализованный по схеме 5 со стратегией обновления приближения решения (17) , τ k = ˆ g ( x k , B k ) , k ∈ Z + .Тогда выполнена следующая оценка (cid:0) γL ˆ F (cid:1) ν L − c r b − m ! − c r b − m + c r b − m ! E (cid:20) max i ∈ ,k − { ε i ˆ g ( x i , B i ) } (cid:21)! ++ exp − kν (cid:0) γL ˆ F (cid:1) L − c r b − m !! E h ˆ f ( x ) − ˆ f ∗ i ≥ E h ˆ f ( x k ) − ˆ f ∗ i ,b ∈ min (cid:26) m, (cid:24) c mL m + 4 c (cid:25) + 1 (cid:27) , m, ˜ γL ˆ F ≥ L > c r b − m ,γ ≥ max  ˜ γ, L ˆ F vuut ν L − c r b − m ! , ˜ γ > max ( , c L ˆ F r b − m ) . В случае ≤ ε k ≤ ε ˆ g ( x k ,B k ) для теоремы 17 условие сходимости к уровню ǫ > функции ˆ f ( x ) − ˆ f ∗ втерминах среднего выглядит следующим образом:  exp (cid:18) − kν ( γL ˆ F ) (cid:16) L − c q b − m (cid:17)(cid:19) E [ˆ g ( x , B )] ≤ r ǫ , r ∈ (0 , γL ˆ F ) ν (cid:16) L − c q b − m (cid:17) − (cid:16) c q b − m (cid:17) ε ≤ r ǫ , r ∈ (0 , γL ˆ F ) ν (cid:16) L − c q b − m (cid:17) − c q b − m ≤ r ǫ , r ∈ (0 , r + r + r = 1 . Неравенства выше определяют минимальное количество итераций, максимальное значение ε , минималь-ный размер батча:  k = (cid:24) ( γL ˆ F ) ν (cid:16) L − c q b − m (cid:17) − ln (cid:16) E [ˆ g ( x ,B )] r ǫ (cid:17)(cid:25) , r ∈ (0 , ε = νr ǫ ( γL ˆ F ) (cid:16) L − c q b − m (cid:17) (cid:16) c q b − m (cid:17) − , r ∈ (0 , b = min  m,  c m (cid:18) c c νr (cid:16) γL ˆ Fǫ (cid:17) +1 (cid:19) L m +4 c (cid:18) c c νr (cid:16) γL ˆ Fǫ (cid:17) +1 (cid:19)  , r ∈ (0 , r + r + r = 1 . (44)Система неравенств (44) ограничивает среднее значение ˆ f ( x k ) : E h ˆ f ( x k ) − ˆ f ∗ i ≤ ǫ . (45)Как и в условии (42) увеличение соотношения LγL ˆ F ∈ (0 , в (44) приводит к ускорению сходимости,ослаблению требований на точность вычисления x k +1 и расширению отрезка значений размера батча.В полученной оценке особое место занимает случай b = m , в котором оценка стохастического методастановится следующей оценкой детерминированного метода: (cid:0) γL ˆ F (cid:1) νL (cid:18) max i ∈ ,k − n ε i ˆ f ( x i ) o(cid:19) + exp − kνL (cid:0) γL ˆ F (cid:1) ! (cid:16) ˆ f ( x ) − ˆ f ∗ (cid:17) + ˆ f ∗ ≥ ˆ f ( x k ) . x k +1 ( ε k = 0 ), в случае ограниченных по предположениям 4 и 5 функ-ционалов получаем явное выражение ν (41) (в рамках предположения 7) и уточнение оценки выше: exp  − kµL M G + max (cid:8) ˜ γL ˆ F P ˆ g , γL ˆ F (cid:9) !  (cid:16) ˆ f ( x ) − ˆ f ∗ (cid:17) + ˆ f ∗ ≥ ˆ f ( x k ) . А так как в (41) и в доказательстве оценки сходимости из теоремы 17 значение ˆ f ∗ возможно заменитьна произвольное неотрицательное число, то предположение 7 для ограниченных функционалов означаетразрешимость системы уравнений (4): exp  − kµL M G + max (cid:8) ˜ γL ˆ F P ˆ g , γL ˆ F (cid:9) !  ˆ f ( x ) ≥ ˆ f ( x k ) , которая обычно выполняется при m ≤ n, dim( E ) ≤ dim( E ) .Согласно выводам подраздела 5.3, схема 5 также может быть использована и для ограниченных попредположениям 4 и 5 функционалов. Более того, можно для данной схемы доказать соответствующиеварианты теорем 10, 11. В схемах доказательства нижняя оценка на значения L k не изменится, так как L ≤ max n L, L ˜ τ k o , зато изменится верхняя оценка на L k и в оценках сходимости произойдёт следующаязамена: ˆ g ( x k , B k ) L k ≤ max (cid:8) ˜ γP ˆ g L ˆ F , γL ˆ F (cid:9) вместо ˆ g ( x k , B k ) L k ≤ γP ˆ g L ˆ F . По аналогии с детерминированным случаем можно ввести адаптивную настройку τ k на каждой ите-рации, одна из возможных реализаций которой представлена на схеме 6. В данной схеме похожим на Algorithm 6: Общий метод трёх стохастических квадратов с неточным проксимальнымотображением и адаптивным поиском τ Вход:  x ∈ E — начальное приближение , x − = x ; E ( · ) — функция погрешности подбора τ ; N ∈ N — количество итераций метода ; γ ≥ ˜ γ ≥ — факторы верхней границы поиска L ˆ F ; L — оценка локальной постоянной Липшица , L ∈ (0 , ˜ γL ˆ F ]; B — выборка функций , b ∈ , m — размер B k ⊆ B , k ∈ Z + ;ˆ X ( · ) — отображение, аппроксимирующее ˆ T L k ,τ k ( x k , B k ) . Повторять для k = 0 , , . . . , N − :

1. сэмплировать батч B k из B размера b ;2. определить ε k = E ( k, x k , x k − , B k ) , L = max n L, L ˆ g ( x ,B ) o ;3. вычислить τ ∗ k > , для которого выполнено ˆ g ( x k , B k ) ≥ ˆ ψ x k ,L k ,τ ∗ k ( ˆ X ( x k , B k , L k , τ ∗ k ) , B k ) и ˆ ψ x k ,L k ,τ ∗ k ( ˆ X ( x k , B k , L k , τ ∗ k ) , B k ) − ˆ ψ x k ,L k , ˆ T Lk ( x k ,B k ) ( ˆ T L k , ˆ T Lk ( x k ,B k ) ( x k , B k ) , B k ) ≤ ε k ;4. вычислить x k +1 = ˆ X ( x k , B k , L k , τ ∗ k ) ;5. если ˆ g ( x k +1 , B k ) > ˆ ψ x k ,L k ,τ ∗ k ( x k +1 , B k ) , то положить L k := min n L k , max n ˜ γL ˆ F , γL ˆ F ˆ g ( x k ,B k ) oo ивернуться к пункту 3;6. L k +1 = max n L k , max n L, L ˆ g ( x k ,B k ) oo . Выход: x N . 35етерминированный случай способом введено оптимальное значение τ : ˆ T L ( x, B ) = argmin τ> n ˆ ψ x,L,τ ( ˆ T L,τ ( x, B ) , B ) o , x ∈ E , L > , B ⊆ B , которое вытекает из свойства строгой выпуклости по τ стохастической локальной модели и позволяетполучить представление точки минимума по y при L ≥ L ˆ F для негладкой локальной модели: ˆ g ( ˆ T L, ˆ T L ( x,B ) ( x, B ) , B ) ≤ min y ∈ E (cid:26) L k y − x k + (cid:13)(cid:13)(cid:13) ˆ G ( x, B ) + ˆ G ′ ( x, B )( y − x ) (cid:13)(cid:13)(cid:13)(cid:27) == min y ∈ E min τ> (cid:26) L k y − x k + τ τ (cid:13)(cid:13)(cid:13) ˆ G ( x, B ) + ˆ G ′ ( x, B )( y − x ) (cid:13)(cid:13)(cid:13) (cid:27) == min τ> (cid:26) τ y ∈ E (cid:26) L k y − x k + 12 τ (cid:13)(cid:13)(cid:13) ˆ G ( x, B ) + ˆ G ′ ( x, B )( y − x ) (cid:13)(cid:13)(cid:13) (cid:27)(cid:27) == min τ> n ˆ ψ x,L,τ ( ˆ T L,τ ( x, B ) , B ) o ⇒⇒ ˆ T L, ˆ T L ( x,B ) ( x, B ) ∈ Argmin y ∈ E (cid:26) L k y − x k + (cid:13)(cid:13)(cid:13) ˆ G ( x, B ) + ˆ G ′ ( x, B )( y − x ) (cid:13)(cid:13)(cid:13)(cid:27) . Как следствие, цепочка неравенств ниже позволяет утверждать справедливость теорем 10, 11, 14, 15, 16,17 при выборе τ k ≈ ˆ T L k ( x k , B k ) в условии и замене схем 3, 5 на схему 6, как и в детерминированном случаепо аналогии с неравенствами (11) и (12): ˆ g ( x k , B k ) − ˆ g ( ˆ T L k , ˆ T Lk ( x k ,B k ) ( x k , B k ) , B k ) ≥ ˆ g ( x k , B k ) − ˆ ψ x k ,L k , ˆ T Lk ( x k ,B k ) ( ˆ T L k , ˆ T Lk ( x k ,B k ) ( x k , B k ) , B k ) ≥≥ ˆ g ( x k , B k ) − ˆ ψ x k ,L k , ˆ g ( x k ,B k ) ( ˆ T L k , ˆ g ( x k ,B k ) ( x k , B k ) , B k ) ≥ . В этой цепочке неравенств последовательность { x k } k ∈ Z + порождена по схеме 6. В данной схеме процедураполучения x k +1 по известным ( x k , B k , L k , τ k ) на каждой итерации k ∈ Z + обозначена через отображение ˆ X : E × σ ( B ) × R → E , где σ ( B ) — сигма–алгебра конечного набора функций F i , i ∈ , m , а процесс оптимизации с адаптивнымподбором τ k на каждом шаге k заключается в следующем:1. Вычислить τ ∗ k — приближение оптимального значения ˆ T L k ( x k , B k ) , τ ∗ k может быть получено прибли-жённо из задачи поиска элемента множества Argmin τ> n ˆ ψ x k ,L k ,τ ( ˆ X ( x k , B k , L k , τ ) , B k ) o ;2. Получить значение x k +1 = ˆ X ( x k , B k , L k , τ ∗ k ) как приближение ˆ T L k ,τ ∗ k ( x k , B k ) .Как и в детерминированном случае, минимизация по τ k в схеме 6 может быть такой же трудоёмкойпроцедурой. И при использовании правила (15) в качестве представления ˆ X значение ˆ ψ x k ,L k ,τ ( ˆ X ( x k , B k , L k , τ ) , B k ) выражается явно: ˆ ψ x k ,L k ,τ ( ˆ X ( x k , B k , L k , τ ) , B k ) = τ g ( x k , B k )2 τ −− η k (2 − η k )2 τ (cid:28)(cid:16) ˆ G ′ ( x k , B k ) ∗ ˆ G ′ ( x k , B k ) + τ L k I n (cid:17) − ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) , ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) (cid:29) . Установка η k = 1 делает функцию ˆ ψ x k ,L k ,τ ( ˆ X ( x k , B k , L k , τ ) , B k ) выпуклой по τ по тем же причинам, что и вдетерминированном случае, позволяя эффективно вычислять приближение точки минимума τ ∗ k с помощьюстандартных методов выпуклой оптимизации. Специфика решаемой задачи (5) позволяет сверху оценить квадрат нормы градиента функции ˆ f спомощью значения функции ˆ f : (cid:13)(cid:13)(cid:13) ∇ ˆ f ( x ) (cid:13)(cid:13)(cid:13) = (cid:13)(cid:13)(cid:13) F ′ ( x ) ∗ ˆ F ( x ) (cid:13)(cid:13)(cid:13) ≤ (cid:13)(cid:13)(cid:13) ˆ F ′ ( x ) (cid:13)(cid:13)(cid:13) ˆ f ( x ) . ˆ g квадрат нормы градиента можно представить как O (ˆ g ( x, B )) : k∇ x ˆ g ( x, B ) k = (cid:13)(cid:13)(cid:13) G ′ ( x, B ) ∗ ˆ G ( x, B ) (cid:13)(cid:13)(cid:13) ≤ M G ˆ g ( x, B ) . Полученное неравенство называется условием слабого роста. В текущем разделе рассматривается соотно-шение размерностей задачи (4), типично возникающее в системах нелинейных уравнений: dim( E ) ≥ dim( E ) , n ≥ m, то есть когда параметров в задаче больше, чем условий, что в терминах теории статистического обучениясоответствует перепараметризованным моделям. Дополнительно к условию слабого роста предположимдоминирование квадрата нормы градиента над значением функции по предположению 7: k∇ x ˆ g ( x, B ) k = 4 (cid:13)(cid:13)(cid:13) ˆ G ′ ( x, B ) ∗ ˆ G ( x, B ) (cid:13)(cid:13)(cid:13) ≥ µ ˆ g ( x, B ) по свойству сингулярного спектра матрицы ˆ G ′ ( x, B ) ∗ . Таким образом, в текущих условиях квадрат нормыградиента ограничен значением функции с двух сторон: µ ˆ g ( x, B ) ≤ k∇ x ˆ g ( x, B ) k ≤ M G ˆ g ( x, B ) . При усреднении по B ⊆ B границы уже зависят от ˆ f : µ ˆ f ( x ) ≤ E B h k∇ x ˆ g ( x, B ) k i ≤ M G ˆ f ( x ) . (46)Это означает тождественное равенство нулю сэмплированных градиентов ∇ x ∗ ˆ g ( x ∗ , B ) = n , B ⊆ B вточке минимума x ∗ : F ( x ∗ ) = m . Более того, одновременное выполнение условия слабого роста и условияПоляка–Лоясиевича в случае m ≤ n приводит к выполнению условия сильного роста , заключающегосяв доминировании квадрата нормы градиента функции ˆ f над средним квадратом нормы стохастическойоценки градиента функции ˆ f : (cid:13)(cid:13)(cid:13) ∇ ˆ f ( x ) (cid:13)(cid:13)(cid:13) = (cid:13)(cid:13)(cid:13) F ′ ( x ) ∗ ˆ F ( x ) (cid:13)(cid:13)(cid:13) ≥ { предположение 7 } ≥ µ ˆ f ( x ) ⇒ { (46) } ⇒⇒ E B h k∇ x ˆ g ( x, B ) k i ≤ M G µ (cid:13)(cid:13)(cid:13) ∇ ˆ f ( x ) (cid:13)(cid:13)(cid:13) . Из такого условия сильного роста следует, что любая стационарная точка x ∗ ∈ E : (cid:13)(cid:13)(cid:13) ∇ ˆ f ( x ∗ ) (cid:13)(cid:13)(cid:13) = 0 является также точкой глобального минимума.В данной работе дополнительно установлено, что выполнение условия слабого роста вместе с условиемПоляка–Лоясиевича позволяет решить задачу (5) с любой наперёд заданной точностью и при любом раз-мере батча сэмплированных на каждой итерации функций, используя метод Гаусса–Ньютона по схеме 4 справилом (16). В самой схеме 4 значение l ˆ g заменяется на l ˆ f , а батчи B k и ˜ B k принципиально независимосэмплируются при оценке сходимости по теореме 18, при этом пункты 5 и 6 в схеме 4 пропускаются, таккак условие теоремы 18 означает выбор l = l ˆ g и γ = 1 . Теорема 18.

Пусть выполнены предположения 4, 5, 7, 8. Рассмотрим метод Гаусса–Ньютона со схемойреализации 4, в котором последовательность { x k } k ∈ Z + вычисляется по правилу (16) с ˜ τ k ≥ ˜ τ > , L k ≥ L > и l k ≡ l ˆ f = 2 (cid:16) L ˆ F P ˆ f + M F (cid:17) . Тогда для последовательности η k = µ (˜ τ k L k ) (cid:16) M G + ˜ τ k L k (cid:17) (cid:16) L ˆ F P ˆ f + M F (cid:17) M G , k ∈ Z + верна следующая оценка E h ˆ f ( x k ) i ≤ E h ˆ f ( x ) i exp  − k (cid:16) L ˆ F P ˆ f + M F (cid:17) M G µ ˜ τ LM G + ˜ τ L !  , k ∈ Z + . случае η k = 1 , k ∈ Z + оценка сходимости при использовании правила (16) в условиях данной теоремыне лучше  E h ˆ f ( x k ) i ≤ E h ˆ f ( x ) i exp (cid:18) − kµ M G (cid:18) µ + (cid:16) L ˆ F P ˆ f + M F (cid:17) c − (cid:16) L ˆ F P ˆ f + M F (cid:17) c (cid:19)(cid:19) ; c def = (cid:18) q √ + q √ (cid:19) , k ∈ Z + . Оператор математического ожидания E [ · ] усредняет по всей случайности процесса оптимизации. В теореме 18 установлена линейная скорость сходимости при выборе настраиваемого шага η k , и мини-мальное количество итераций, необходимое для достижения уровня ǫ > функции ˆ f в среднем асимпто-тически выражается как O (cid:0) ln (cid:0) ǫ (cid:1)(cid:1) : k =  M G (cid:16) L ˆ F P ˆ f + M F (cid:17) µ M G ˜ τ L + 1 ! ln (cid:18) E [ˆ g ( x , B )] ǫ (cid:19) . Как и в теореме 12, данная оценка демонстрирует оптимальность выбора ˜ τ L → + ∞ , приближая шагметода трёх стохастических квадратов к шагу метода стохастического градиентного спуска. Если же за-фиксировать η k = 1 , то в доказательстве теоремы 18 вычислено оптимальное значение ˜ τ k L k , при которомбудет линейная сходимость, но уже более медленная, чем в случае стохастического градиентного спуска,со следующим количеством необходимых итераций для достижения уровня ǫ > в среднем:  k = & M G µ (cid:18) µ + (cid:16) L ˆ F P ˆ f + M F (cid:17) c − (cid:16) L ˆ F P ˆ f + M F (cid:17) c (cid:19) − ln (cid:16) E [ˆ g ( x ,B )] ǫ (cid:17)' ; c = (cid:18) q √ + q √ (cid:19) . И в случае оптимального выбора η k и при η k = 1 в роли главного ограничителя в применении теоремы 18 напрактике выступает необходимость знать заранее постоянные M ˆ G , P ˆ f , L ˆ F или их верхние оценки. Если жерассматривать метод Гаусса–Ньютона с правилами обновления (15) и (17) в схеме 3, то при неограниченномуменьшении ǫ → в рамках предположений данной работы стохастический режим оптимизации перейдётв детерминированный, то есть условие слабого роста для этих стратегий не позволяет гарантированнорешить задачу с любой наперёд заданной точностью без использования всей генеральной совокупностифункций B .При использовании схем 5 и 6 в рамках предположений 8, 9 и 10 для решения задач (5), в которыхвыполнено структурное ограничение из предположения 9 c = 0 , гипотетически существует возможностьрешить систему (4) с помощью метода Гаусса–Ньютона с произвольной точностью полностью в режиместохастической аппроксимации, согласно следствиям 16.2 и 17.2. Эта гипотеза дополнительно мотивиру-ется примером (40), в котором значения постоянных из предположения 9 не зависят от гиперпараметров ˜ γ и γ . При решении задачи (5) с помощью процедуры неточного поиска приближения решения x k +1 на каж-дой итерации полезно достаточно быстро производить любой этап данной процедуры. В случае решениявспомогательной задачи argmin y ∈ E { ψ x k ,L k ,τ k ( y ) } градиентными методами оптимизации возможно затратить линейное от размерности задачи количествопамяти при вычислении производной локальной модели по параметрам. Ниже представлен один из воз-можных способов осуществления такого эффективного вычисления значений ψ x k ,L k ,τ k ( y ) и ∇ y ψ x k ,L k ,τ k ( y ) : ψ x k ,L k ,τ k ( y ) = τ k f ( x k )2 τ k ! + * ˆ F ′ ( x k ) ∗ ˆ F ( x k ) τ k , y − x k + + * ˆ F ′ ( x k ) ∗ ˆ F ′ ( x k ) τ k + L k I n ! ( y − x k ) , y − x k + = { введём ˜ x := x k , ˆ x := x k } == τ k f ( x k )2 τ k ! + 1 τ k D ∇ ˜ x D ˆ F ( x k ) , ˆ F (˜ x ) E , y − x k E ++ 12 τ k D ∇ ˆ x D ∇ ˜ x D ˆ F (ˆ x ) , ˆ F (˜ x ) E , y − x k E , y − x k E + L k k y − x k k ⇒⇒ ∇ y ψ x k ,L k ,τ k ( y ) = 1 τ k ∇ ˜ x D ˆ F ( x k ) , ˆ F (˜ x ) E + 1 τ k ∇ ˆ x D ∇ ˜ x D ˆ F (ˆ x ) , ˆ F (˜ x ) E , y − x k E + L ( y − x k ) . Сразу видно, в преобразованиях выше не требуется в явном виде хранить матрицу ˆ F ′ ( x k ) , что приводитк значительной экономии по памяти: O( m + n ) хранимых элементов вместо O( mn + m + n ) . Само вычис-ление ψ x k ,L k ,τ k ( y ) и его производной состоит из суперпозиции произведений матрицы Якоби на вектор,реализуемое за O( m + n ) операций вместо O( mn ) операций прямого вычисления матричного произведения.Дальнейшая экономия времени вычисления заключается в представлении ψ x k ,L k ,τ k ( y ) через ∇ y ψ x k ,L k ,τ k ( y ) : ψ x k ,L k ,τ k ( y ) = τ k f ( x k )2 τ k + 12 (cid:28) ∇ y ψ x k ,L k ,τ k ( y ) + 1 τ k ∇ ˜ x D ˆ F ( x k ) , ˆ F (˜ x ) E , y − x k (cid:29) . Такие условия эффективного вычисления обычно выполнены в вычислительных системах с автоматиче-ским дифференцированием, в которых при вычислении самого значения функции одновременно произво-дится вычисление производной функции без хранения избыточного количества переменных [28], примене-ние неточного поиска с автоматическим дифференцированием тем более является оправданным, если накаждом шаге метода Гаусса–Ньютона количество итераций поиска ( x k +1 , L k ) не превышает min { m, n } .Описанный выше способ эффективного вычисления производной локальной модели работает и в стоха-стическом случае, для локальной модели ˆ ψ x k ,L k ,τ k ( y, B k ) ; аппарат автоматического дифференцированиянепосредственно применим в схемах 1, 2, 6 и в схемах 3, 5 со стратегией поиска x k +1 (17). Если же решать задачу (5) по схеме 1, 3, 4, 5 или даже по схемам 2 и 6 с использованием стратегий (8),(15), (16), то возникает вопрос об эффективности вычисления каждой итерации поиска подходящей оценкилокальной постоянной Липшица. Наиболее дорогой операцией при вычислении x k +1 является обращениематрицы размера n × n . Для наиболее оптимальной организации итерации необходимо рассмотреть дваслучая соотношения размеров задачи dim( E ) = n и dim( E ) = m . В целях удобства выкладки представ-лены для детерминированного метода Гаусса–Ньютона, однако они непосредственно перекладываются настохастический случай при замене локальной модели ψ x k ,L k ,τ k ( y ) на ˆ ψ x k ,L k ,τ k ( y, B k ) и значения размерно-сти m на b .Первый случай соответствует ситуации, возникающей в задаче восстановления регрессии, когда данныхбольше, чем параметров в задаче: m > n . Для того, чтобы при обновлении L в задаче вычисления argmin y ∈ E { ψ x k ,L k ,τ k ( y ) } значение приближения точки минимума быстрее обновлялось, выполним спектральное разложение мат-рицы ˆ F ′ ( x k ) ∗ ˆ F ′ ( x k ) : ˆ F ′ ( x k ) ∗ ˆ F ′ ( x k ) = Q n Λ n Q ∗ n , Q ∗ n Q n = I n , Λ n — диагональная матрица ;ˆ F ′ ( x k ) ∗ ˆ F ′ ( x k ) + τ k L k I n = Q n Λ n Q ∗ n + τ k L k I n = Q n (Λ n + τ k L k I n ) Q ∗ n ⇒⇒ (cid:16) ˆ F ′ ( x k ) ∗ ˆ F ′ ( x k ) + τ k L k I n (cid:17) − = Q n (Λ n + τ k L k I n ) − Q ∗ n , m > n ⇒⇒ x k +1 = x k − η k Q n (Λ n + τ k L k I n ) − Q ∗ n ˆ F ′ ( x k ) ∗ ˆ F ( x k ) . Если выбрать η k = 1 , то x k +1 будет точкой минимума локальной модели ψ x k ,L k ,τ k ( y ) . В представлен-ном выражении для x k +1 обновление значения L k на каждой итерации за O( n ) операций записываетсяв обратную матрицу. Само спектральное разложение требует O( n ) операций и O( n + n ) дополнитель-но хранимых элементов в виде ортогональной матрицы Q n и диагональной матрицы Λ n . Неизменный на39аждой итерации вектор из n элементов Q ∗ n ˆ F ′ ( x k ) ∗ ˆ F ( x k ) можно вычислить за O( n + nm ) операций, накаждой итерации диагональная матрица (Λ n + τ k L k I n ) − обращается за O( n ) операций, а произведениематрицы Q n на вектор (Λ n + τ k L k I n ) − Q ∗ n ˆ F ′ ( x k ) ∗ ˆ F ( x k ) вычислимо за O( n ) операций. Таким образом,оценивая максимальное число итераций подбора L k сверху как (cid:24) log (cid:18) γL ˆ F L (cid:19)(cid:25) + 1 , получаем следующую стоимость каждого шага метода Гаусса–Ньютона: O (cid:18) n + n + mn + n ( n + 1) (cid:18)(cid:24) log (cid:18) γL ˆ F L (cid:19)(cid:25) + 1 (cid:19)(cid:19) . Количество итераций подбора L k оценивается из неравенства γL ˆ F ≥ i L , i ∈ Z + . Хотя на практике после ( k − –го шага с O (cid:18)(cid:24) log (cid:18) γL ˆ F L (cid:19)(cid:25) + 1 (cid:19) итерациями поиска локальной постоянной Липшица при γ = 2 и L ∈ (0 , L ˆ F ] получается L k : 2 L k ≥ L ˆ F ,что эффективно означает не больше двух итераций поиска L k .В случае m ≤ n , соответствующем ситуации, обычно возникающей при решении системы нелинейныхуравнений, воспользуемся тождеством Шермана–Моррисона–Вудбери для обращения матрицы меньшегоразмера и спектральным разложением матрицы ˆ F ′ ( x k ) ˆ F ′ ( x k ) ∗ для обращения диагональной матрицы Λ m на каждой итерации за O( m ) операций с предварительным вычислением матриц Λ m и Q m за O (cid:0) m (cid:1) операций, затратив дополнительную память для O (cid:0) m + m (cid:1) элементов: ˆ F ′ ( x k ) ˆ F ′ ( x k ) ∗ = Q m Λ m Q ∗ m , Q ∗ m Q m = I m , Λ m — диагональная матрица ; (cid:16) ˆ F ′ ( x k ) ∗ ˆ F ′ ( x k ) + τ k L k I n (cid:17) − = 1 τ k L k I n − τ k L k ˆ F ′ ( x k ) ∗ (cid:16) τ k L k I m + ˆ F ′ ( x k ) ˆ F ′ ( x k ) ∗ (cid:17) − ˆ F ′ ( x k ) == 1 τ k L k I n − τ k L k ˆ F ′ ( x k ) ∗ Q m ( τ k L k I m + Λ m ) − Q ∗ m ˆ F ′ ( x k ) , m ≤ n ⇒⇒ x k +1 = x k − η k (cid:18) τ k L k I n − τ k L k ˆ F ′ ( x k ) ∗ Q m ( τ k L k I m + Λ m ) − Q ∗ m ˆ F ′ ( x k ) (cid:19) ˆ F ′ ( x k ) ∗ ˆ F ( x k ) == x k − η k τ k L k (cid:16) ˆ F ′ ( x k ) ∗ ˆ F ( x k ) − ˆ F ′ ( x k ) ∗ Q m ( τ k L k I m + Λ m ) − Λ m Q ∗ m ˆ F ( x k ) (cid:17) == x k − η k τ k L k ˆ F ′ ( x k ) ∗ (cid:16) ˆ F ( x k ) − Q m ( τ k L k I m + Λ m ) − Λ m Q ∗ m ˆ F ( x k ) (cid:17) . Перед началом поиска подходящей L k производится вычисление m –мерного вектора Λ m Q ∗ m ˆ F ( x k ) за O (cid:0) m + m (cid:1) операций. На каждой итерации подбора L k диагональная матрица ( τ k L k I m + Λ m ) − обновля-ется за O ( m ) операций, сам вектор x k +1 вычисляется суммарно за O (cid:0) m + mn + m + n (cid:1) операций. Такимобразом, каждый шаг метода Гаусса–Ньютона использует следующее количество операций: O (cid:18) m + m + m + (cid:0) m + mn + m + n (cid:1) (cid:18)(cid:24) log (cid:18) γL ˆ F L (cid:19)(cid:25) + 1 (cid:19)(cid:19) . Для схемы 4 стоимость каждого шага будет такой же, только вместо отношения γL ˆ F L в асимптотическихоценках будет величина γl ˆ g l . В обоих случаях вместо спектрального разложения можно использоватьболее вычислительно устойчивую процедуру тридиагонализации с помощью преобразований Хаусхолдера,сохраняя прежнюю вычислительную асимптотику [29]. В схемах 1, 3 и 5 можно рассмотреть более удобный функционал контроля за точностью вычисле-ния x k +1 , основанный на норме градиента локальной модели. А так как структурно в детерминирован-ном и в стохастическом случае локальные модели строятся на похожих принципах, то достаточно рас-смотреть детерминированный случай в рамках предположений 1 и 4, потому что он обобщается на сто-хастический заменой локальной модели ψ x,L,τ ( y ) на стохастическую локальную модель ˆ ψ x,L,τ ( y, B ) . И40режде чем вывести критерий, основанный на норме градиента локальной модели, рассмотрим функцию ψ x k ,L k ,τ k ( · ) , k ∈ Z + и её производные: ∇ x ψ x k ,L k ,τ k ( x ) = L k ( x − x k ) + 1 τ k ˆ F ′ ( x k ) ∗ (cid:16) ˆ F ( x k ) + ˆ F ′ ( x k )( x − x k ) (cid:17) ; ∇ x ψ x k ,L k ,τ k ( x ) = L k + 1 τ k ˆ F ′ ( x k ) ∗ ˆ F ′ ( x k ) ⇒⇒ (cid:10) ∇ x ψ x k ,L k ,τ k ( x ) v, v (cid:11) ≤ L k + M F τ k ! k v k , ∀ v ∈ E , v = n ⇒⇒ L ψ def = L k + M F τ k — постоянная Липшица для ∇ x ψ x k ,L k ,τ k ( x ) . Поэтому для ψ x k ,L k ,τ k ( · ) верно выражение (48) из леммы 1: | ψ x k ,L k ,τ k ( y ) − ψ x k ,L k ,τ k ( x ) − h∇ x ψ x k ,L k ,τ k ( x ) , y − x i| ≤ L ψ k y − x k ⇒⇒ { оценка снизу на выражение под модулем } ⇒⇒ ψ x k ,L k ,τ k ( y ) ≥ ψ x k ,L k ,τ k ( x ) + h∇ x ψ x k ,L k ,τ k ( x ) , y − x i − L ψ k y − x k . Возьмём в качестве y ∈ E точку минимума ψ x k ,L k ,τ k ( · ) , а в качестве x ∈ E достаточно близкую к y точку: x def = y + β ∇ x ψ x k ,L k ,τ k ( x ) , для некоторого β ∈ (cid:20) , L ψ (cid:21) , где максимальное значение β соответствует максимальной длине шага в методе градиентного спуска дляфункции с липшицевым градиентом. Получается, квадрат нормы градиента функции оценивает сверхуразность значений функции: ψ x k ,L k ,τ k ( y ) ≥ ψ x k ,L k ,τ k ( x ) − (cid:18) β + β L ψ (cid:19) k∇ x ψ x k ,L k ,τ k ( x ) k ⇒⇒ k∇ x ψ x k ,L k ,τ k ( x ) k ≥ (cid:18) β + β L ψ (cid:19) − (cid:18) ψ x k ,L k ,τ k ( x ) − min y ∈ E ( ψ x k ,L k ,τ k ( y )) (cid:19) . То есть для ε k > стало удобнее контролировать точность вычисления x = x k +1 : k∇ x ψ x k ,L k ,τ k ( x ) k ≤ ε k (cid:18) β + β L ψ (cid:19) − ⇒ ≤ ψ x k ,L k ,τ k ( x ) − min y ∈ E ( ψ x k ,L k ,τ k ( y )) ≤ ε k . И если вывод выше позволяет взять наперёд заданное β , и, вообще говоря, ε k зависит от β в силуопределения x , то всё равно на практике необходимо оценить M ˆ F для вычисления L ψ , что не всегдапросто осуществить. То же верно и для других констант из предположений. Однако зависимость ε k от β не мешает на практике зафиксировать одно из значений ε k , чтобы найденная точка x k +1 была ε k –оптимальной по разности значений ψ x k ,L k ,τ k ( x ) − min y ∈ E ( ψ x k ,L k ,τ k ( y )) , обладая O (cid:0) √ ε k (cid:1) значением нормыградиента k∇ x ψ x k ,L k ,τ k ( x ) k . Метод нормализованных квадратов можно расширить на произвольные евклидовы нормы: k x k W = p h W x, x i , x ∈ E , W : E → E ∗ — линейный оператор , W ≻ dim( E ) × dim( E ) , W = W ∗ ; k u k W = p h W u, u i , u ∈ E , W : E → E ∗ — линейный оператор , W ≻ dim( E ) × dim( E ) , W = W ∗ . Для таких норм общая локальная модель выглядит следующим образом: ψ x,L,τ ( y ) = τ τ (cid:13)(cid:13)(cid:13) ˆ F ( x ) + ˆ F ′ ( x )( y − x ) (cid:13)(cid:13)(cid:13) W + L k y − x k W , ( x, y ) ∈ E , L = Ω( L ˆ F ) > , τ > . L связана с необходимостью выполнения всех предположений для вывода формулымодели ψ x,L,τ ( y ) . Соответственно, для данной модели точка минимума имеет явное выражение: y = x − (cid:16) ˆ F ′ ( x ) ∗ W ˆ F ′ ( x ) + τ LW (cid:17) − ˆ F ′ ( x ) ∗ W ˆ F ( x ) . Представленный в работе метод Гаусса–Ньютона применим также для невязок, основанных не на ев-клидовых нормах, и наиболее удобная форма локальной модели для неевклидовых норм соответствует τ = φ ( x, y ) [14]: ψ x,L ( y ) def = (cid:13)(cid:13)(cid:13) ˆ F ( x ) + ˆ F ′ ( x )( y − x ) (cid:13)(cid:13)(cid:13) κ | {z } неевклидова норма + L k y − x k | {z } евклидованорма , L = Ω ( L κ ) > . Стоит заметить, что в модели ψ x,L ( y ) необходима липшицевость матрицы Якоби в терминах κ –нормы иевклидовой нормы, чтобы установить по лемме 1 формулу модели ψ x,L ( y ) : ∃ L κ > (cid:13)(cid:13)(cid:13) ˆ F ′ ( y ) − ˆ F ′ ( x ) (cid:13)(cid:13)(cid:13) κ ≤ L κ k y − x k , ∀ ( x, y ) ∈ F . При этом нижняя граница значений L в модели ψ x,L ( y ) отмасштабирована относительно L κ , так кактребуется согласование κ –нормы и евклидовой нормы для выполнения свойства субмультипликативностинорм, использованного в доказательстве леммы 1. Для локальной модели ψ x,L ( y ) сам минимум и его точкаопределяются через решение следующей задачи оптимизации: min y ∈ E (cid:26)(cid:13)(cid:13)(cid:13) ˆ F ( x ) + ˆ F ′ ( x )( y − x ) (cid:13)(cid:13)(cid:13) κ + L k y − x k (cid:27) = min y ∈ E max u ∈ E ∗ k u k κ ∗ ≤ (cid:26)D u, ˆ F ( x ) + ˆ F ′ ( x )( y − x ) E + L k y − x k (cid:27) == { h := y − x } = max u ∈ E ∗ k u k κ ∗ ≤ min h ∈ E (cid:26)D u, ˆ F ( x ) + ˆ F ′ ( x ) h E + L k h k (cid:27) == max u ∈ E ∗ (cid:26)D u, ˆ F ( x ) E − L (cid:13)(cid:13)(cid:13) ˆ F ′ ( x ) ∗ u (cid:13)(cid:13)(cid:13) : k u k κ ∗ ≤ (cid:27) , где k · k κ ∗ — норма, сопряжённая к норме k · k κ , сама задача поиска u ∈ E ∗ является задачей максимизацииквадратичного функционала с простым ограничением, эффективно решаемой стандартными методамивыпуклой оптимизации. Точка минимума модели ψ x,L ( y ) явно выражается через решение задачи поиска u ∈ E ∗ :  y = x − L ˆ F ′ ( x ) ∗ u opt ; u opt = argmax u ∈ E ∗ (cid:26)D u, ˆ F ( x ) E − L (cid:13)(cid:13)(cid:13) ˆ F ′ ( x ) ∗ u (cid:13)(cid:13)(cid:13) : k u k κ ∗ ≤ (cid:27) . Локальная модель ψ x,L ( y ) имеет аналогичное стохастическое расширение, получаемое заменой отобра-жения ˆ F на ˆ G в приведённых выкладках, связанных с моделью ψ x,L ( y ) . Более того, представленные вданной работе утверждения можно переформулировать относительно неевклидовых норм согласно прин-ципам, изложенным в текущем подразделе. А сам грамотный подбор нормированных пространств позво-ляет улучшить коэффициенты в оценке сходимости для ускорения решения поставленной задачи (5) ужена этапе вывода структурных свойств задачи. Используя при решении задачи минимизации нормы невязки информацию о первых производных,представленный в этой работе метод Гаусса–Ньютона принадлежит классу квазиньютоновских методов,аппроксимирующих на каждом шаге метода шаг метода Ньютона, об этом нам явно говорят формы вы-числения приближений решения, использующие точное вычисление точки минимума общей локальноймодели: x k +1 = x k − (cid:16) ˆ F ′ ( x k ) ∗ ˆ F ′ ( x k ) + τ k L k I n (cid:17) − ˆ F ′ ( x k ) ∗ ˆ F ( x k ) | {z } = ∇ ˆ f ( x k ) , k ∈ Z + . ˆ F ′ ( x k ) ∗ ˆ F ′ ( x k ) + τ k L k I n можно рассматривать как приближение гессиана функции ˆ f ,однако лучше всего данная матрица приближает гессиан ˆ f в областях выпуклости функции ˆ f , возникно-вение которых типично около точки минимума. Для большей наглядности связи рассматриваемого методас методом Ньютона рассмотрим следующую верхнюю оценку локальной модели ψ x,L,τ ( y ) : ψ W x,L,τ ( y ) def = τ τ (cid:13)(cid:13)(cid:13) ˆ F ( x ) + ˆ F ′ ( x )( y − x ) (cid:13)(cid:13)(cid:13) + L k y − x k W , W (cid:23) I n , W = W ∗ . Для модели ψ W x,L,τ ( y ) точка минимума имеет следующее выражение: y = x − (cid:16) ˆ F ′ ( x ) ∗ ˆ F ′ ( x ) + τ LW (cid:17) − ˆ F ′ ( x ) ∗ ˆ F ( x ) . И если при решении задачи (5) использовать модель ψ W k x k ,L k ,τ k ( x k +1 ) , то для строго (сильно) выпуклойфункции ˆ f можно шаг модифицированного метода Гаусса–Ньютона свести к шагу метода Ньютона: x k +1 = x k − ˆ F ′ ( x k ) ∗ ˆ F ′ ( x k ) + m X i =1 ˆ F i ( x k ) ∇ ˆ F i ( x k ) ! − | {z } = ( ∇ ˆ f ( x k ) ) − ˆ F ′ ( x k ) ∗ ˆ F ( x k ) | {z } = ∇ ˆ f ( x k ) , k ∈ Z + ,τ k L k = λ min m X i =1 ˆ F i ( x k ) ∇ ˆ F i ( x k ) ! > , W k = 1 τ k L k m X i =1 ˆ F i ( x k ) ∇ ˆ F i ( x k ) (cid:23) I n . При этом выпуклость не обязательна для каждой функции ˆ F i , i ∈ , m , этот факт скорее интересен сточки зрения теории, так как свойство выпуклости для функции ˆ f является сильно ограничивающим, авычисление модели ψ W x,L,τ ( y ) более трудоёмкое, нежели чем ψ x,L,τ ( y ) . Приведённые рассуждения верны идля стохастической версии метода Гаусса–Ньютона с локальной моделью ˆ ψ x,L,τ ( y, B ) .Для предложенного нестохастического метода Гаусса–Ньютона с точным проксимальным отображе-нием в данной работе установлена локальная квадратичная сходимость, и в худшем случае по теореме 3для достижения области квадратичной сходимости необходимо затратить l L ˆ F µ ˆ f ( x ) m итераций. Введёмследующую характеристику близости к решению задачи (4) в случае разрешимости системы уравнений,называемую радиусом множества уровня ˆ f ( x ) : R = min x ∈ E n k x − x k : x ∈ L ( ˆ f ( x )) , F ( x ) = m o . По лемме 4 значение ˆ f ( x ) ограничено для метода в теореме 3: ˆ f ( x ) ≤ ˆ f ( x )2 + L k x − x ∗ k L F k x − x ∗ k f ( x ) ≤ ˆ f ( x )2 + L ˆ F R + L F R f ( x ) . Также есть другая оценка значения ˆ f ( x ) по лемме 6: ˆ f ( x ) ≤ ˆ f ( x ) ≤ M ˆ F k x − x ∗ k + L ˆ F k x − x ∗ k = M ˆ F R + L ˆ F R . Объединим обе оценки: ˆ f ( x ) ≤ min ( ˆ f ( x )2 + L ˆ F R + L F R f ( x ) , M ˆ F R + L ˆ F R ) . То есть необходимое количество итераций для достижения области квадратичной сходимости ограниченосверху: & L ˆ F µ min ( ˆ f ( x )2 + L ˆ F R + L F R f ( x ) , M ˆ F R + L ˆ F R )' . (47)43редставленная оценка для задач в рамках предположений 1 и 2 является улучшаемой и в следующемслучае на примере метода Ньютона с кубической регуляризацией [33] имеется улучшение. Рассмотримзадачу выпуклой оптимизации без ограничений: min x ∈ E f ( x ) ,f ( · ) — дважды дифференцируемая и строго выпуклая функция с липшицевым гессианом. А так как мож-но ввести ∇ f ( x ) ≡ ˆ F ( x ) по свойству эквивалентности решения системы уравнений через оптимизациюнормы невязки и решения задачи оптимизации без ограничений через решение системы уравнений, опи-сывающей условия оптимальности первого порядка, то формально липшицевость и сильную выпуклостьможно описать следующим образом [3]: (cid:13)(cid:13) ∇ f ( y ) − ∇ f ( x ) (cid:13)(cid:13) ≤ L ˆ F k y − x k , ∀ ( x, y ) ∈ E ; (cid:10) ∇ f ( x ) y, y (cid:11) ≥ √ µ k y k , ∀ ( x, y ) ∈ E . Тогда для метода Ньютона с кубической регуляризацией количество необходимых итераций для достиже-ния области квадратичной сходимости ограничено сверху величиной l . q L ˆ F R √ µ m [33, 3]. Данная оценкаулучшает представленную выше оценку для метода Гаусса–Ньютона (47), что как раз подтверждает частоприменимый на практике тезис: специализированный метод справляется не хуже общего. Однако пред-ставленные оценки являются верхними, а для метода Гаусса–Ньютона в классе задач (5), порождённомпредположениями 1 и 2, нижние оценки сложности решения ещё не получены. И, по сравнению с методомНьютона с кубической регуляризацей, представленные вариации метода Гаусса–Ньютона корректны дляпроизвольных нормированных пространств, а не только в случае евклидова пространства.Разработанные для евклидовых норм стратегии вычисления приближения решения (8), (15), (16) поформе напоминают обновление параметров в алгоритме Левенберга–Марквадрата [30, 31, 32]. Однако, вотличие от алгоритма Левенберга–Марквадрата, изложенный метод Гаусса–Ньютона автоматически обоб-щается на случай неевклидовых произвольных норм, и в этих условиях метод всё так же однозначно ин-терпретируется, позволяя устанавливать глобальные и локальные свойства процесса построения { x k } k ∈ Z + . Благодарности

Мы выражаем особую благодарность Юрию Евгеньевичу Нестерову за постановку проблемы, бла-годаря которой появилась на свет данная работа. Также выражаем огромную благодарность ДмитриюКамзолову и Павлу Двуреченскому за ценные замечания, сделанные на разных этапах написания статьи.Наша работа приурочена к 65–летнему юбилею Юрия Евгеньевича Нестерова.

Список литературы [1]

Samarskii A. A., Gulin A. V.

Numerical methods. — 1989.[2]

Nocedal J., Wright S.

Numerical optimization. — Springer Science & Business Media, 2006.[3]

Nesterov Yu.

Lectures on convex optimization. Vol. 137. Berlin, Germany: Springer, 2018.[4]

Gasnikov A.

Universal gradient descent //arXiv preprint arXiv:1711.00394. — 2017.[5]

Gratton S., Lawless A. S., Nichols N. K.

Approximate Gauss–Newton methods for nonlinear least squaresproblems //SIAM Journal on Optimization. — 2007. — Т. 18. — №. 1. — С. 106–132.[6]

Le H. et al.

Progressive Batching for Eﬃcient Non–linear Least Squares //Proceedings of the AsianConference on Computer Vision. — 2020.[7]

Botev A., Ritter H., Barber D.

Practical gauss-newton optimisation for deep learning //arXiv preprintarXiv:1706.03662. — 2017.[8]

Cai T. et al.

Gram–Gauss–Newton Method: Learning Overparameterized Neural Networks for RegressionProblems //arXiv preprint arXiv:1905.11675. — 2019.449]

Ren Y., Goldfarb D.

Eﬃcient subsampled gauss-newton and natural gradient methods for training neuralnetworks //arXiv preprint arXiv:1906.02353. — 2019.[10]

Thiele C., Araya–Polo M., Hohl D.

Deep Neural Network Learning with Second–Order Optimizers — aPractical Study with a Stochastic Quasi–Gauss–Newton Method //arXiv preprint arXiv:2004.03040. —2020.[11]

Gargiani M. et al.

On the Promise of the Stochastic Generalized Gauss-Newton Method for Training DNNs//arXiv preprint arXiv:2006.02409. — 2020.[12] ´Smieta´nski M. J.

On a Nonsmooth Gauss–Newton Algorithms for Solving Nonlinear ComplementarityProblems //Algorithms. — 2020. — Т. 13. — №. 8. — С. 190.[13]

Cartis C., Roberts L.

A derivative–free Gauss–Newton method //Mathematical Programming Computation.— 2019. — Т. 11. — №. 4. — С. 631-674.[14]

Nesterov Yu.

Modiﬁed Gauss–Newton scheme with worst case guarantees for global performance//Optimisation methods and software. — 2007. — Т. 22. — №. 3. — С. 469–483.[15]

Nesterov Yu.

Flexible Modiﬁcation of Gauss–Newton Method (To appear).[16]

Schmidt M., Roux N. L.

Fast convergence of stochastic gradient descent under a strong growth condition//arXiv preprint arXiv:1308.6370. — 2013.[17]

Taylor A., Bach F.

Stochastic ﬁrst–order methods: non–asymptotic and computer–aided analyses viapotential functions //arXiv preprint arXiv:1902.00947. — 2019.[18]

Ajalloeian A., Stich S. U.

Analysis of SGD with biased gradient estimators //arXiv preprintarXiv:2008.00051. — 2020.[19]

Moulines E., Bach F.

Non–asymptotic analysis of stochastic approximation algorithms for machine learning//Advances in neural information processing systems. — 2011. — Т. 24. — С. 451-459.[20]

Needell D., Ward R., Srebro N.

Stochastic gradient descent, weighted sampling, and the randomizedKaczmarz algorithm //Advances in neural information processing systems. — 2014. — С. 1017–1025.[21]

Gower R. M. et al.

SGD: General analysis and improved rates //arXiv preprint arXiv:1901.09401. — 2019.[22]

Gorbunov E., Hanzely F., Richt´arik P.

A uniﬁed theory of sgd: Variance reduction, sampling, quantizationand coordinate descent //International Conference on Artiﬁcial Intelligence and Statistics. — PMLR, 2020.— С. 680–690.[23]

Loizou N. et al.

Stochastic polyak step–size for SGD: An adaptive learning rate for fast convergence //arXivpreprint arXiv:2002.10542. — 2020.[24]

Ma S., Bassily R., Belkin M.

The power of interpolation: Understanding the eﬀectiveness of SGD in modernover–parametrized learning //International Conference on Machine Learning. — PMLR, 2018. — С. 3325–3334.[25]

Vaswani S., Bach F., Schmidt M.

Fast and faster convergence of sgd for over–parameterized models andan accelerated perceptron //The 22nd International Conference on Artiﬁcial Intelligence and Statistics. —PMLR, 2019. — С. 1195–1204.[26]

Liu C., Belkin M.

Mass: an accelerated stochastic method for over–parametrized learning //arXiv preprintarXiv:1810.13395. — 2018.[27]

Jordan M., Dimakis A. G.

Exactly Computing the Local Lipschitz Constant of ReLU Networks //arXivpreprint arXiv:2003.01219. — 2020.[28]

Baydin A. G. et al.

Automatic diﬀerentiation in machine learning: a survey //The Journal of MachineLearning Research. — 2017. — Т. 18. — №. 1. — С. 5595–5637.[29]

Householder A. S.

Unitary triangularization of a nonsymmetric matrix //Journal of the ACM (JACM). —1958. — Т. 5. — №. 4. — С. 339–342. 4530]

Levenberg K.

A method for the solution of certain non–linear problems in least squares //Quarterly ofapplied mathematics. — 1944. — Т. 2. — №. 2. — С. 164–168.[31]

Marquardt D. W.

An algorithm for least–squares estimation of nonlinear parameters //Journal of the societyfor Industrial and Applied Mathematics. — 1963. — Т. 11. — №. 2. — С. 431–441.[32]

Mor´e J. J.

The Levenberg–Marquardt algorithm: implementation and theory //Numerical analysis. —Springer, Berlin, Heidelberg, 1978. — С. 105–116.[33]

Nesterov Y., Polyak B. T.

Cubic regularization of Newton method and its global performance//Mathematical Programming. — 2006. — Т. 108. — №. 1. — С. 177–205.[34]

Polyak B. T.

Gradient methods for minimizing functionals //Zhurnal Vychislitel’noi Matematiki iMatematicheskoi Fiziki. — 1963. — Т. 3. — №. 4. — С. 643–653.[35]

Vaswani S. et al.

Painless stochastic gradient: Interpolation, line–search, and convergence rates //arXivpreprint arXiv:1905.09997. — 2019.

Приложение

Модифицированный метод Гаусса–Ньютона

Вспомогательные утверждения

В лемме 1 выводится формула локальной модели для оптимизируемого функционала в задаче (5).

Лемма 1.

Пусть ( x, y ) ∈ F , L ≥ L ˆ F , τ > и выполнено предположение 1. Тогда ˆ f ( y ) ≤ ψ x,L,τ ( y ) . Доказательство.

Выведем неравенство для (cid:13)(cid:13)(cid:13) ˆ F ( y ) − ˆ F ( x ) − ˆ F ′ ( x )( y − x ) (cid:13)(cid:13)(cid:13) : (cid:13)(cid:13)(cid:13) ˆ F ( y ) − ˆ F ( x ) − ˆ F ′ ( x )( y − x ) (cid:13)(cid:13)(cid:13) =  ˆ F ( y ) = ˆ F ( x ) + Z ˆ F ′ ( x + t ( y − x ))( y − x ) d t  == (cid:13)(cid:13)(cid:13)(cid:13)(cid:13)(cid:13) Z (cid:16) ˆ F ′ ( x + t ( y − x )) − ˆ F ′ ( x ) (cid:17) ( y − x ) d t (cid:13)(cid:13)(cid:13)(cid:13)(cid:13)(cid:13) ≤ (cid:8) k · k — выпукла, неравенство Йенсена (cid:9) ≤≤ Z (cid:13)(cid:13)(cid:13)(cid:16) ˆ F ′ ( x + t ( y − x )) − ˆ F ′ ( x ) (cid:17) ( y − x ) (cid:13)(cid:13)(cid:13) d t ≤ Z (cid:13)(cid:13)(cid:13) ˆ F ′ ( x + t ( y − x )) − ˆ F ′ ( x ) (cid:13)(cid:13)(cid:13) k y − x k d t ≤≤ { предположение 1 } ≤ Z L ˆ F k y − x k t d t = L ˆ F k y − x k . (48)Рассмотрим вспомогательное неравенство: (cid:18)r τ − √ τ (cid:13)(cid:13)(cid:13) ˆ F ( x ) + ˆ F ′ ( x )( y − x ) (cid:13)(cid:13)(cid:13)(cid:19) = τ τ (cid:13)(cid:13)(cid:13) ˆ F ( x ) + ˆ F ′ ( x )( y − x ) (cid:13)(cid:13)(cid:13) − (cid:13)(cid:13)(cid:13) ˆ F ( x ) + ˆ F ′ ( x )( y − x ) (cid:13)(cid:13)(cid:13) ≥ ⇒⇒ τ τ (cid:13)(cid:13)(cid:13) ˆ F ( x ) + ˆ F ′ ( x )( y − x ) (cid:13)(cid:13)(cid:13) ≥ (cid:13)(cid:13)(cid:13) ˆ F ( x ) + ˆ F ′ ( x )( y − x ) (cid:13)(cid:13)(cid:13) . (49)Тогда для ˆ f выполнено ˆ f ( y ) = (cid:13)(cid:13)(cid:13) ˆ F ( y ) (cid:13)(cid:13)(cid:13) = (cid:13)(cid:13)(cid:13) ˆ F ( y ) − ˆ F ( x ) − ˆ F ′ ( x )( y − x ) + ˆ F ( x ) + ˆ F ′ ( x )( y − x ) (cid:13)(cid:13)(cid:13) ≤ (cid:13)(cid:13)(cid:13) ˆ F ( y ) − ˆ F ( x ) − ˆ F ′ ( x )( y − x ) (cid:13)(cid:13)(cid:13) ++ (cid:13)(cid:13)(cid:13) ˆ F ( x ) + ˆ F ′ ( x )( y − x ) (cid:13)(cid:13)(cid:13) ≤ { неравенство из (48) } ≤ L ˆ F k y − x k + (cid:13)(cid:13)(cid:13) ˆ F ( x ) + ˆ F ′ ( x )( y − x ) (cid:13)(cid:13)(cid:13) ≤≤ { неравенство из (49) } ≤ τ L ˆ F k y − x k + 12 τ (cid:13)(cid:13)(cid:13) ˆ F ( x ) + ˆ F ′ ( x )( y − x ) (cid:13)(cid:13)(cid:13) = ψ x,L ˆ F ,τ ( y ) ≤ ψ x,L,τ ( y ) . ледствие 1.1. При τ = φ ( x, y ) зазор между ˆ f ( y ) и ψ x,L,τ ( y ) минимален, согласно неравенству из (49) . Следующая лемма задаёт общую формулу для измерения убывания значения оптимизируемого функ-ционала в (5) при минимизации локальной модели. Величина убывания оценивается с помощью нормыпроксимального градиента, в следствиях указаны основные свойства введённого проксимального отобра-жения.

Лемма 2.

Пусть выполнено предположение 1 и x ∈ F , T L,τ ( x ) ∈ F , τ > , L ≥ L ˆ F . Тогда выполняетсясоотношение τ f ( x )2 τ − ˆ f ( T L,τ ( x )) ≥ L k T L,τ ( x ) − x k . Доказательство.

Рассмотрим функцию h ( t ) = min y ∈ E (cid:26) τ τ (cid:13)(cid:13)(cid:13) ˆ F ( x ) + ˆ F ′ ( x )( y − x ) (cid:13)(cid:13)(cid:13) + 12 t k y − x k (cid:27) . Находящаяся под min локальная модель ψ x,t − ,τ ( y ) выпукла по ( τ, y, t ) на выпуклом множестве (cid:8) ( y, τ, t, α ) ∈ E × R : k y − x k ≤ αt (cid:9) . То есть у функции h ( t ) выпуклый надграфик, так как он получен с помощью проектирования выпуклогомножества, что влечёт выпуклость h ( t ) (Theorem 3.1.7, [3]). Для выпуклой функции верно следующеепредставление: h (0) ≥ h ( t ) + h ′ ( t )(0 − t ) = h ( t ) − h ′ ( t ) t ; h ′ ( t ) = * τ ˆ F ′ ( x ) ∗ (cid:16) ˆ F ( x ) + ˆ F ′ ( x ) (cid:0) T t − ,τ ( x ) − x (cid:1)(cid:17) + 1 t (cid:0) T t − ,τ ( x ) − x (cid:1)| {z } = ∇ y ψ x,t − ,τ ( y )= n из–за взятия минимума по y , ∂T t − ,τ ( x ) ∂t + − t (cid:13)(cid:13) T t − ,τ ( x ) − x (cid:13)(cid:13) == − t (cid:13)(cid:13) T t − ,τ ( x ) − x (cid:13)(cid:13) . По свойству проксимального отображения lim t → argmin y ∈ E (cid:8) ψ x,t − ,τ ( y ) (cid:9) = x ⇒ h (0) = τ + k ˆ F ( x ) k τ = τ + ˆ f ( x )2 τ .Значит, τ f ( x )2 τ ≥ ψ x,t − ,τ ( T t − ,τ ( x )) + 12 t (cid:13)(cid:13) T t − ,τ ( x ) − x (cid:13)(cid:13) ≥ { лемма 1 } ≥ ˆ f ( T t − ,τ ( x )) + 12 t (cid:13)(cid:13) T t − ,τ ( x ) − x (cid:13)(cid:13) ⇒⇒ (cid:8) t − = L (cid:9) ⇒ τ f ( x )2 τ − ˆ f ( T L,τ ( x )) ≥ L k T L,τ ( x ) − x k . Следствие 2.1.

Результаты утверждения содержат в себе неравенство τ f ( x )2 τ − ψ x,L,τ ( T L,τ ( x )) ≥ L k T L,τ ( x ) − x k , которое верно для L > и x ∈ E . Следствие 2.2. T L,τ ( x ) = argmin y ∈ E { ψ x,L,τ ( y ) } имеет явное выражение при L > : T L,τ ( x ) = x − (cid:16) ˆ F ′ ( x ) ∗ ˆ F ′ ( x ) + τ LI n (cid:17) − ˆ F ′ ( x ) ∗ ˆ F ( x ) . Поэтому lim L → + ∞ T L,τ ( x ) = x и τ f ( x )2 τ − ˆ f ( x ) ≥

12 lim L → + ∞ (cid:16) L k T L,τ ( x ) − x k (cid:17) = 12 lim L → + ∞ L (cid:13)(cid:13)(cid:13)(cid:13)(cid:16) ˆ F ′ ( x ) ∗ ˆ F ′ ( x ) + τ LI n (cid:17) − ˆ F ′ ( x ) ∗ ˆ F ( x ) (cid:13)(cid:13)(cid:13)(cid:13) ! == 12 lim L → + ∞ (cid:13)(cid:13)(cid:13)(cid:13)(cid:13)(cid:18) √ L ˆ F ′ ( x ) ∗ ˆ F ′ ( x ) + τ √ LI n (cid:19) − ˆ F ′ ( x ) ∗ ˆ F ( x ) (cid:13)(cid:13)(cid:13)(cid:13)(cid:13) = 0 . днако величина k L ( T L,τ ( x ) − x ) k сходится к норме градиента ψ x,L,τ ( y ) по y в точке y = x при L → + ∞ : lim L → + ∞ k L ( T L,τ ( x ) − x ) k = lim L → + ∞ (cid:13)(cid:13)(cid:13)(cid:13) L (cid:16) ˆ F ′ ( x ) ∗ ˆ F ′ ( x ) + τ LI n (cid:17) − ˆ F ′ ( x ) ∗ ˆ F ( x ) (cid:13)(cid:13)(cid:13)(cid:13) == lim L → + ∞ (cid:13)(cid:13)(cid:13)(cid:13)(cid:13)(cid:18) L ˆ F ′ ( x ) ∗ ˆ F ′ ( x ) + τ I n (cid:19) − ˆ F ′ ( x ) ∗ ˆ F ( x ) (cid:13)(cid:13)(cid:13)(cid:13)(cid:13) = (cid:13)(cid:13)(cid:13)(cid:13) τ ˆ F ′ ( x ) ∗ ˆ F ( x ) (cid:13)(cid:13)(cid:13)(cid:13) . Сама функция k T L,τ ( x ) − x k является монотонно убывающей по L и по τ . Следствие 2.3.

При выборе τ = ˆ f ( x ) > из полученной оценки следует, что если x ∈ L ( ˆ f ( x )) ⊆ F , тои T L, ˆ f ( x ) ( x ) ∈ L ( ˆ f ( x )) : τ f ( x )2 τ − ˆ f ( T L,τ ( x )) ≥ L k T L,τ ( x ) − x k ⇒ n τ = ˆ f ( x ) o ⇒ ˆ f ( x ) − ˆ f ( T L, ˆ f ( x ) ( x )) ≥≥ L (cid:13)(cid:13)(cid:13) T L, ˆ f ( x ) ( x ) − x (cid:13)(cid:13)(cid:13) ≥ ⇒ ˆ f ( x ) ≥ ˆ f ( T L, ˆ f ( x ) ( x )) ⇒⇒ T L, ˆ f ( x ) ( x ) ∈ L ( ˆ f ( T L, ˆ f ( x ) ( x ))) ⊆ L ( ˆ f ( x )) . В лемме ниже оценивается убывание оптимизируемого функционала ˆ f при решении задачи (5) ужес помощью приращения локальной модели ∆ r ( x ) , вводится полезная для дальнейшего анализа вспомога-тельная функция κ ( · ) . Лемма 3.

Пусть выполнено предположение 1 и x ∈ F , T L,τ ( x ) ∈ F , τ > , L ≥ L ˆ F . Тогда для любого r > выполняется соотношение τ f ( x )2 τ − ˆ f ( T L,τ ( x )) ≥ Lr κ (cid:18) ∆ r ( x )2 τ Lr (cid:19) , где  ∆ r ( x ) def = ˆ f ( x ) − min y ∈ E n ( φ ( x, y )) : k y − x k ≤ r o ; κ ( t ) def = " t , t ∈ [0 , t − , t > . Доказательство.

Введём h r = argmin h ∈ E n ( φ ( x, x + h )) : k h k ≤ r o . Распишем локальную модель в точке T L,τ ( x ) : ˆ f ( T L,τ ( x )) ≤ { лемма 1 } ≤ ψ x,L,τ ( T L,τ ( x )) ≤≤ min t ∈ [0 , (cid:26) τ τ (cid:13)(cid:13)(cid:13) ˆ F ( x ) + t ˆ F ′ ( x ) h r (cid:13)(cid:13)(cid:13) + L tr ) (cid:27) = τ t ∈ [0 , (cid:26) τ (cid:13)(cid:13)(cid:13) (1 − t ) ˆ F ( x ) + t (cid:16) ˆ F ( x ) + ˆ F ′ ( x ) h r (cid:17)(cid:13)(cid:13)(cid:13) + L tr ) (cid:27) ≤ (cid:8) k · k выпукла (cid:9) ≤ τ t ∈ [0 , (cid:26) (1 − t )2 τ ˆ f ( x ) + t τ ( φ ( x, x + h r )) + L tr ) (cid:27) = τ f ( x )2 τ + min t ∈ [0 , (cid:26) − t τ ∆ r ( x ) + L tr ) (cid:27) ⇒⇒ τ f ( x )2 τ − ˆ f ( T L,τ ( x )) ≥ Lr max t ∈ [0 , (cid:26) ∆ r ( x )2 τ Lr t − t (cid:27) . Выражение в правой части получившегося неравенства представляет собой полином второй степени с от-рицательным коэффициентом у старшей степени и с корнями t ∈ n , ∆ r ( x ) τLr o , что означает для выраженияточки условного максимума t ∗ необходимость рассмотреть два случая: ∆ r ( x )2 r τL ≤ и ∆ r ( x )2 r τL > . В первомслучае t ∗ = ∆ r ( x )2 τLr , во втором t ∗ = 1 . Полученная оценка имеет следующее представление: τ f ( x )2 τ − ˆ f ( T L,τ ( x )) ≥ Lr ·  (cid:16) ∆ r ( x )2 τLr (cid:17) , при t ∗ = ∆ r ( x )2 τLr ; ∆ r ( x )2 τLr − , при t ∗ = 1 . (50)48ведём функцию κ ( t ) = " t , t ∈ [0 , t − , t > . Перепишем с её помощью оценку (50): τ f ( x )2 τ − ˆ f ( T L,τ ( x )) ≥ Lr κ (cid:18) ∆ r ( x )2 τ Lr (cid:19) . В этой оценке ˆ f ( x ) ≥ ∆ ∞ ( x ) ≥ ∆ r ( x ) ≥ ∆ ( x ) = 0 и κ ( t ) ≥ по построению. Следствие 3.1.

Результаты утверждения содержат в себе неравенство τ f ( x )2 τ − ψ x,L,τ ( T L,τ ( x )) ≥ Lr κ (cid:18) ∆ r ( x )2 τ Lr (cid:19) , которое верно для L > и x ∈ E . Более того, для достаточно малых значений Lr , таких, что ∆ r ( x )2 τLr ≥ , оценка следующая: τ f ( x )2 τ − ψ x,L,τ ( T L,τ ( x )) ≥ ∆ r ( x )2 τ − Lr . Для больших значений Lr , при которых ∆ r ( x )2 τLr ≤ , эта оценка имеет другую форму: τ f ( x )2 τ − ψ x,L,τ ( T L,τ ( x )) ≥ (∆ r ( x )) τ Lr . Следствие 3.2.

Для достаточно больших значений Lr , таких, что ∆ r ( x )2 τLr ≤ , выведенная оценкаупрощается: τ f ( x )2 τ − ˆ f ( T L,τ ( x )) ≥ (∆ r ( x )) τ Lr . При достаточно малых значениях r , для которых ∆ r ( x )2 τLr ≥ , верно другое неравенство: τ f ( x )2 τ − ˆ f ( T L,τ ( x )) ≥ ∆ r ( x )2 τ − Lr . В полученных оценках функция Lr κ (cid:16) ∆ r ( x )2 τLr (cid:17) является монотонно убывающей по L и по τ . Следствие 3.3.

При выборе τ = ˆ f ( x ) > из полученной оценки следует, что если x ∈ L ( ˆ f ( x )) ⊆ F , тои T L, ˆ f ( x ) ( x ) ∈ L ( ˆ f ( x )) : τ f ( x )2 τ − ˆ f ( T L,τ ( x )) ≥ Lr κ (cid:18) ∆ r ( x )2 τ Lr (cid:19) ⇒ n τ = ˆ f ( x ) o ⇒ ˆ f ( x ) − ˆ f ( T L, ˆ f ( x ) ( x )) ≥≥ Lr κ ∆ r ( x )2 ˆ f ( x ) Lr ! ≥ ⇒ ˆ f ( x ) ≥ ˆ f ( T L, ˆ f ( x ) ( x )) ⇒⇒ T L, ˆ f ( x ) ( x ) ∈ L ( ˆ f ( T L, ˆ f ( x ) ( x ))) ⊆ L ( ˆ f ( x )) . В лемме 4 вводится верхняя оценка уже самой локальной модели, не только функции ˆ f , данная оценкапонадобится для установки в теореме 2 локальной квадратичной сходимости метода Гаусса–Ньютона,описанного схемой 1. Лемма 4.

Пусть x ∈ F , T L,τ ( x ) ∈ F , L > , τ > . Тогда ψ x,L,τ ( T L,τ ( x )) ≤ min y ∈F ( τ L k y − x k f ( y )2 τ + ˆ f ( y ) L ˆ F k y − x k τ + L F k y − x k τ ) . оказательство. По определению ψ x,L,τ ( · ) : ψ x,L,τ ( T L,τ ( x )) = min y ∈F (cid:26) τ τ (cid:13)(cid:13)(cid:13) ˆ F ( x ) + ˆ F ′ ( x )( y − x ) (cid:13)(cid:13)(cid:13) + L k y − x k (cid:27) = τ y ∈F (cid:26) τ (cid:16)(cid:13)(cid:13)(cid:13) ˆ F ( y ) − (cid:16) ˆ F ( y ) − ˆ F ( x ) − ˆ F ′ ( x )( y − x ) (cid:17)(cid:13)(cid:13)(cid:13)(cid:17) + L k y − x k (cid:27) ≤ τ y ∈F (cid:26) τ (cid:16) ˆ f ( y ) + (cid:13)(cid:13)(cid:13) ˆ F ( y ) − ˆ F ( x ) − ˆ F ′ ( x )( y − x ) (cid:13)(cid:13)(cid:13)(cid:17) + L k y − x k (cid:27) ≤ { неравенство (48) } ≤≤ τ y ∈F ( τ (cid:18) ˆ f ( y ) + L ˆ F k y − x k (cid:19) + L k y − x k ) ≤ τ y ∈F ( L k y − x k f ( y )2 τ + ˆ f ( y ) L ˆ F k y − x k τ + L F k y − x k τ ) . Следствие 4.1.

Пусть x ∗ ∈ F — решение задачи (4) : ˆ F ( x ∗ ) = m , L ( ˆ f ( x )) ⊆ F . Тогда ψ x,L,τ ( T L,τ ( x )) ≤ min y ∈F ( τ L k y − x k f ( y )2 τ + ˆ f ( y ) L ˆ F k y − x k τ + L F k y − x k τ ) ≤ τ L k y − x k f ( y )2 τ + ˆ f ( y ) L ˆ F k y − x k τ + L F k y − x k τ = { y = x ∗ } = τ L k x − x ∗ k L F k x − x ∗ k τ . Лемма 5 устанавливает важное матричное отношение частичного порядка для вывода линейной схо-димости в условии Поляка–Лоясиевича.

Лемма 5 ([15]) . Пусть линейный оператор A : E → E , с dim( E ) = n , dim( E ) = m , m ≤ n обладаетматрицей, не вырожденной по строкам: AA ∗ (cid:23) µI m для определённого µ > . Тогда для любого ξ > выполнено A ( ξI n + A ∗ A ) − t A ∗ (cid:23) µ t ξ + µ I m , t > . Отношение порядка « (cid:23) » выполнено на конусе неотрицательно определённых матриц.

Доказательство.

Рассмотрим сингулярное разложение матрицы оператора A : A = U Λ V ∗ , U ∗ U = I m , V ∗ V = I m , где Λ — диагональная матрица, Λ (cid:23) √ µI m (по условию). Введём матрицу W со столбцами, ортогональнодополняющими столбцы из V до полного базиса в E : V V ∗ + W W ∗ = I n , W ∗ V = ( n − m ) × m . Пользуясь блочной структурой из-за W ∗ V = ( n − m ) × m , получаем: A ( ξI n + A ∗ A ) − t A ∗ = U Λ V ∗ (cid:0) ξ ( V V ∗ + W W ∗ ) + V Λ V ∗ (cid:1) − t V Λ U ∗ == U Λ V ∗ (cid:0) V (cid:0) ξI m + Λ (cid:1) V ∗ + ξW W ∗ (cid:1) − t V Λ U ∗ == U Λ V ∗ (cid:18) V (cid:0) ξI m + Λ (cid:1) − t V ∗ + 1 ξ t W W ∗ (cid:19) V Λ U ∗ = U Λ (cid:0) ξI m + Λ (cid:1) − t Λ U ∗ == U (cid:16) ξ Λ − t + Λ − t (cid:17) − t U ∗ (cid:23) ξµ − t + µ − t I m = µ t ξ + µ I m . сновные утверждения В теореме 1 выведена сходимость к стационарной точке в терминах нормы проксимального градиентаи приращения локальной модели.

Теорема 1.

Согласно леммам 2, 3 и следствиям 2.3, 3.3 для τ = ˆ f ( x k ) , L = L k , x = x k имеемследующее:  ˆ f ( x k ) − ψ x k ,L k , ˆ f ( x k ) ( T L k , ˆ f ( x k ) ( x k )) ≥ L k (cid:13)(cid:13)(cid:13) T L k , ˆ f ( x k ) ( x k ) − x k (cid:13)(cid:13)(cid:13) ;ˆ f ( x k ) − ψ x k ,L k , ˆ f ( x k ) ( T L k , ˆ f ( x k ) ( x k )) ≥ L k r κ (cid:16) ∆ r ( x k )2 ˆ f ( x k ) L k r (cid:17) . Добавим и вычтем ψ x k ,L k , ˆ f ( x k ) ( x k +1 ) :  ˆ f ( x k ) + (cid:16) ψ x k ,L k , ˆ f ( x k ) ( x k +1 ) − ψ x k ,L k , ˆ f ( x k ) ( T L k , ˆ f ( x k ) ( x k )) (cid:17) − ψ x k ,L k , ˆ f ( x k ) ( x k +1 ) ≥≥ L k (cid:13)(cid:13)(cid:13) T L k , ˆ f ( x k ) ( x k ) − x k (cid:13)(cid:13)(cid:13) ;ˆ f ( x k ) + (cid:16) ψ x k ,L k , ˆ f ( x k ) ( x k +1 ) − ψ x k ,L k , ˆ f ( x k ) ( T L k , ˆ f ( x k ) ( x k )) (cid:17) − ψ x k ,L k , ˆ f ( x k ) ( x k +1 ) ≥≥ L k r κ ∆ r ( x k )2 ˆ f ( x k ) L k r ! . Используем условия ψ x k ,L k ,τ k ( x k +1 ) − ψ x k ,L k ,τ k ( T L k ,τ k ( x k )) ≤ ε k = ε и − ψ x k ,L k , ˆ f ( x k ) ( x k +1 ) ≤ − ˆ f ( x k +1 ) :  ˆ f ( x k ) + ε − ˆ f ( x k +1 ) ≥ L k (cid:13)(cid:13)(cid:13) T L k , ˆ f ( x k ) ( x k ) − x k (cid:13)(cid:13)(cid:13) ;ˆ f ( x k ) + ε − ˆ f ( x k +1 ) ≥ L k r κ ∆ r ( x k )2 ˆ f ( x k ) L k r ! . Усредним обе части неравенств по первым k итерациям:  ε + ˆ f ( x ) − ˆ f ( x k ) k ≥ k k − X i =0 L i (cid:13)(cid:13)(cid:13) T L i , ˆ f ( x i ) ( x i ) − x i (cid:13)(cid:13)(cid:13) ; ε + ˆ f ( x ) − ˆ f ( x k ) k ≥ k k − X i =0 L i r κ ∆ r ( x i )2 ˆ f ( x i ) L i r ! . (51)Воспользуемся тем, что в схеме 1 L k ≥ L , функции (cid:13)(cid:13)(cid:13) T L i , ˆ f ( x i ) ( x i ) − x i (cid:13)(cid:13)(cid:13) и L i r κ (cid:16) ∆ r ( x i )2 ˆ f ( x i ) L i r (cid:17) монотонно51бывают по L i (следствия 2.2 и 3.2):  ε + ˆ f ( x ) − ˆ f ( x k ) k ≥ k k − X i =0 L i (cid:13)(cid:13)(cid:13) T L i , ˆ f ( x i ) ( x i ) − x i (cid:13)(cid:13)(cid:13) ≥≥ k k − X i =0 L (cid:13)(cid:13)(cid:13) T L ˆ F , ˆ f ( x i ) ( x i ) − x i (cid:13)(cid:13)(cid:13) ≥ min i ∈ ,k − (cid:26) L (cid:13)(cid:13)(cid:13) T L ˆ F , ˆ f ( x i ) ( x i ) − x i (cid:13)(cid:13)(cid:13) (cid:27) ; ε + ˆ f ( x ) − ˆ f ( x k ) k ≥ k k − X i =0 L i r κ ∆ r ( x i )2 ˆ f ( x i ) L i r ! ≥≥ k k − X i =0 L ˆ F r κ ∆ r ( x i )4 ˆ f ( x i ) L ˆ F r ! ≥ min i ∈ ,k − ( L ˆ F r κ ∆ r ( x i )4 ˆ f ( x i ) L ˆ F r !) . Приведём домножением на константы правые части к формату обобщённых проксимальных градиентов :  L F L (cid:18) ε + ( ˆ f ( x ) − ˆ f ( x k ) ) k (cid:19) ≥ min i ∈ ,k − (cid:26)(cid:13)(cid:13)(cid:13) L ˆ F (cid:16) T L ˆ F , ˆ f ( x i ) ( x i ) − x i (cid:17)(cid:13)(cid:13)(cid:13) (cid:27) ; L ˆ F (cid:18) ε + ( ˆ f ( x ) − ˆ f ( x k ) ) k (cid:19) ≥ min i ∈ ,k − n (cid:0) L ˆ F r (cid:1) κ (cid:16) ∆ r ( x i )4 ˆ f ( x i ) L ˆ F r (cid:17)o . Следствие 1.1.

В случае такой адаптивной стратегии подбора точности вычисления x k +1 , как ε = ε ˆ f ( x ) , ε k = ε (cid:16) ˆ f ( x k − ) − ˆ f ( x k ) (cid:17) , k ∈ N , ε ≥ , возможно получить приближение решениязадачи (4) с любой наперёд заданной точностью при условии неограниченного количества итераций.Для доказательства этого факта рассмотрим (51) и применим обозначенное правило вычисления ε k :  ε (cid:16) f ( x ) − ˆ f ( x k − ) (cid:17) k + ˆ f ( x ) − ˆ f ( x k ) k ≥ k k − X i =0 L i (cid:13)(cid:13)(cid:13) T L i , ˆ f ( x i ) ( x i ) − x i (cid:13)(cid:13)(cid:13) ; ε (cid:16) f ( x ) − ˆ f ( x k − ) (cid:17) k + ˆ f ( x ) − ˆ f ( x k ) k ≥ k k − X i =0 L i r κ ∆ r ( x i )2 ˆ f ( x i ) L i r ! . Применяя весь дальнейший ход доказательства теоремы получаем:  L F kL (cid:16) (1 + 2 ε ) ˆ f ( x ) − ε ˆ f ( x k − ) − ˆ f ( x k ) (cid:17) ≥ min i ∈ ,k − (cid:26)(cid:13)(cid:13)(cid:13) L ˆ F (cid:16) T L ˆ F , ˆ f ( x i ) ( x i ) − x i (cid:17)(cid:13)(cid:13)(cid:13) (cid:27) ; L ˆ F k (cid:16) (1 + 2 ε ) ˆ f ( x ) − ε ˆ f ( x k − ) − ˆ f ( x k ) (cid:17) ≥ min i ∈ ,k − ( (cid:0) L ˆ F r (cid:1) κ ∆ r ( x i )4 ˆ f ( x i ) L ˆ F r !) . Следствие 1.2.

Из оценок в предыдущем следствии заменим нулевую итерацию на k –ую, а k –ую ите-рацию сдвинем на ( N + 1) ∈ N итерацию вперёд, получим оценку на хвост суммы неравенств, k ∈ Z + :  L F ( N + 1) L (cid:16) ε (cid:16) ˆ f ( x k − ) − ˆ f ( x k + N ) (cid:17) + ˆ f ( x k ) − ˆ f ( x k + N +1 ) (cid:17) ≥ min i ∈ k,k + N (cid:26)(cid:13)(cid:13)(cid:13) L ˆ F (cid:16) T L ˆ F , ˆ f ( x i ) ( x i ) − x i (cid:17)(cid:13)(cid:13)(cid:13) (cid:27) ; L ˆ F N + 1 (cid:16) ε (cid:16) ˆ f ( x k − ) − ˆ f ( x k + N ) (cid:17) + ˆ f ( x k ) − ˆ f ( x k + N +1 ) (cid:17) ≥ min i ∈ k,k + N ( (cid:0) L ˆ F r (cid:1) κ ∆ r ( x i )4 ˆ f ( x i ) L ˆ F r !) . Разворачивая заново цепочку доказательства теоремы для начальной итерации k > и финальной ите- ации k + N получаем следующую оценку на суммы неравенств в (51) :  ˆ f ( x k ) − ˆ f ( x k + N +1 ) + ε (cid:16) ˆ f ( x k − ) − ˆ f ( x k + N ) (cid:17) ≥ L k + N X i = k (cid:13)(cid:13)(cid:13) T L ˆ F , ˆ f ( x i ) ( x i ) − x i (cid:13)(cid:13)(cid:13) ≥≥ L (cid:13)(cid:13)(cid:13) T L ˆ F , ˆ f ( x k ) ( x k ) − x k (cid:13)(cid:13)(cid:13) ;ˆ f ( x k ) − ˆ f ( x k + N +1 ) + ε (cid:16) ˆ f ( x k − ) − ˆ f ( x k + N ) (cid:17) ≥ k + N X i = k L ˆ F r κ ∆ r ( x i )4 ˆ f ( x i ) L ˆ F r ! ≥≥ L ˆ F r κ ∆ r ( x k )4 ˆ f ( x k ) L ˆ F r ! . В пределе при устремлении N → + ∞ получаем следующее:  ˆ f ( x k ) − ˆ f ∗ + ε (cid:16) ˆ f ( x k − ) − ˆ f ∗ (cid:17) ≥ L (cid:13)(cid:13)(cid:13) T L ˆ F , ˆ f ( x k ) ( x k ) − x k (cid:13)(cid:13)(cid:13) ;ˆ f ( x k ) − ˆ f ∗ + ε (cid:16) ˆ f ( x k − ) − ˆ f ∗ (cid:17) ≥ L ˆ F r κ (cid:16) ∆ r ( x k )4 ˆ f ( x k ) L ˆ F r (cid:17) . (52) Неравенства в (52) при условии lim k → + ∞ ε k = lim k → + ∞ ε (cid:16) ˆ f ( x k − ) − ˆ f ( x k ) (cid:17) = 0 означают lim k → + ∞ x k +1 = lim k → + ∞ T L ˆ F , ˆ f ( x k ) ( x k ) = x ∗ и  lim k → + ∞ k x k +1 − x k k = 0;lim k → + ∞ ∆ r ( x k )ˆ f ( x k ) = 0 . (53) Пределы в (53) получены как следствие рассмотрения предельных значений неравенств в (52) при k → + ∞ , они наглядно демонстрируют ограниченность вариации последовательности { x k } k ∈ Z + и связ-ность множества стационарных точек { x ∗ : x ∗ ∈ E , ∆ r ( x ∗ ) = 0 } для данной последовательности. В теореме 2 устанавливается локальная квадратичная сходимость и определяются условия размерностизадачи (5), при которых обычно возможна квадратичная сходимость метода Гаусса–Ньютона со схемой 1.

Теорема 2.

Согласно лемме 4 (следствие 4.1) ψ x k ,L k ,τ k ( T L k ,τ k ( x k )) имеет оценку сверху: ψ x k ,L k ,τ k ( T L k ,τ k ( x k )) ≤ τ k L k k x k − x ∗ k L F k x k − x ∗ k τ k ⇒⇒ { прибавим ψ x k ,L k ,τ k ( x k +1 ) − ψ x k ,L k ,τ k ( T L k ,τ k ( x k )) ≤ ε k } ⇒⇒ ψ x k ,L k ,τ k ( x k +1 ) ≤ τ k L k k x k − x ∗ k L F k x k − x ∗ k τ k + ε k ⇒⇒ ψ x k ,L k ,τ k ( x k +1 ) = τ k φ ( x k , x k +1 )) τ k + L k k x k +1 − x k k ≤≤ τ k L k k x k − x ∗ k L F k x k − x ∗ k τ k + ε k ⇒⇒ ( φ ( x k , x k +1 )) τ k ≤ L k k x k − x ∗ k L F k x k − x ∗ k τ k + ε k ⇒ s τ k L k k x k − x ∗ k + L F k x k − x ∗ k τ k ε k ≥≥ φ ( x k , x k +1 ) ⇒ vuut k x k − x ∗ k τ k L k + L F k x k − x ∗ k ! + 2 τ k ε k ≥≥ (cid:13)(cid:13)(cid:13) ˆ F ( x k ) + ˆ F ′ ( x k )( x k +1 − x k ) (cid:13)(cid:13)(cid:13) . Перепишем φ ( x k , x k +1 ) по–другому: (cid:13)(cid:13)(cid:13) ˆ F ( x k ) + ˆ F ′ ( x k )( x k +1 − x k ) (cid:13)(cid:13)(cid:13) = (cid:13)(cid:13)(cid:13)(cid:13)(cid:13)(cid:13)(cid:13)(cid:13)(cid:13) ˆ F ′ ( x ∗ ) ( x k +1 − x ∗ ) | {z } def = A + (cid:16) ˆ F ( x k ) − ˆ F ( x ∗ ) − ˆ F ′ ( x ∗ )( x k − x ∗ ) (cid:17)| {z } def = B ++ (cid:16) ˆ F ′ ( x k ) − ˆ F ′ ( x ∗ ) (cid:17) ( x k +1 − x k ) | {z } def = C (cid:13)(cid:13)(cid:13)(cid:13)(cid:13)(cid:13)(cid:13)(cid:13)(cid:13) . По неравенству треугольника для нормы k · k : k A k = k A + B + C − B − C k ≤ k A + B + C k + k− B k + k− C k ⇒ k A + B + C k ≥ k A k − k B k − k C k ; k A k ≥ { из определения минимального сингулярного числа } ≥ ς k x k +1 − x ∗ k ; k B k ≤ { неравенство (48) } ≤ L ˆ F k x k − x ∗ k ; k C k ≤ { субмультипликативность нормы } ≤ (cid:13)(cid:13)(cid:13) ˆ F ′ ( x k ) − ˆ F ′ ( x ∗ ) (cid:13)(cid:13)(cid:13) k x k +1 − x k k ≤ { предположение 1 } ≤≤ L ˆ F k x k − x ∗ kk x k +1 − x ∗ + x ∗ − x k k ≤ L ˆ F k x k − x ∗ k + L ˆ F k x k − x ∗ kk x k +1 − x ∗ k . Собрав вместе неравенства, получаем оценку снизу на φ ( x k , x k +1 ) : φ ( x k , x k +1 ) ≥ (cid:0) ς − L ˆ F k x k − x ∗ k (cid:1) k x k +1 − x ∗ k − L ˆ F k x k − x ∗ k . Свяжем нижнюю и верхнюю оценку на φ ( x k , x k +1 ) в единое неравенство: vuut k x k − x ∗ k τ k L k + L F k x k − x ∗ k ! + 2 τ k ε k ≥ (cid:0) ς − L ˆ F k x k − x ∗ k (cid:1) k x k +1 − x ∗ k − L ˆ F k x k − x ∗ k ⇒ r k x k − x ∗ k (cid:16) τ k L k + L F k x k − x ∗ k (cid:17) + 2 τ k ε k + L ˆ F k x k − x ∗ k ς − L ˆ F k x k − x ∗ k ≥ k x k +1 − x ∗ k . Предположим существование α из условия. Оценим получившееся неравенство сверху выражением α k x k − x ∗ k и выведем условия на τ k и k x k − x ∗ k , при которых данная оценка выполняется всегда.Найдём допустимые значения τ k : α (cid:0) ς − L ˆ F k x k − x ∗ k (cid:1) k x k − x ∗ k ≥ L ˆ F k x k − x ∗ k vuut k x k − x ∗ k τ k L k + L F k x k − x ∗ k ! + 2 τ k ε k ⇒⇒  α (cid:0) ς − L ˆ F k x k − x ∗ k (cid:1) − L ˆ F | {z } ≥ по условию на ς  k x k − x ∗ k ≥ τ k (cid:0) k x k − x ∗ k L k + 2 ε k (cid:1) + L F k x k − x ∗ k ⇒⇒ < τ k ≤ (cid:18)(cid:16) α (cid:0) ς − L ˆ F k x k − x ∗ k (cid:1) − L ˆ F (cid:17) − L F (cid:19) k x k − x ∗ k k x k − x ∗ k L k + 2 ε k . Выведем ограничения на k x k − x ∗ k , чтобы выполнялось τ k > : (cid:18) α (cid:0) ς − L ˆ F k x k − x ∗ k (cid:1) − L ˆ F (cid:19) − L F > по условию на ς ⇒ k x k − x ∗ k < ςL ˆ F − α . Докажем оставшуюся часть теоремы. Введём переменную t k = k x k − x ∗ k , перепишем оценку на t k +1 сподстановкой τ k и ε k : t k +1 ≤  t k r t k (cid:16) c t k L k + L F t k (cid:17) + 2 c c t k + L ˆ F t k ς − L ˆ F t k  t k ≤ (cid:8) L k ≤ L ˆ F (cid:9) ≤≤  q c L ˆ F + L F + 2 c c + L ˆ F ς − L ˆ F t k t k | {z } ∈ [0 , — необходимое условие t k ⇒ t k = k x k − x ∗ k ≤ ς L ˆ F + q c L ˆ F + L F + 2 c c . Следствие 2.1.

Условия теоремы неявно задают ограничения на размерность задачи: • невырожденность системы уравнений (4) в точке минимума σ min (cid:16) ˆ F ′ ( x ∗ ) (cid:17) ≥ ς > означает dim( E ) ≥ dim( E ) ; • совместность системы (4) ˆ F ( x ∗ ) = m обычно выполняется в системах при доминировании коли-чества параметров над количеством условий: dim( E ) ≤ dim( E ) .Таким образом, локальная квадратичная сходимость в условии теоремы обычно возможна на системахс dim( E ) = dim( E ) . В теореме 3 выводятся оценки сходимости для метода нормализованных квадратов с выбором τ k = ˆ f ( x k ) , в оценках содержится явное разделение на область сублинейной сходимости и область линей-ной сходимости. Теорема 3.

Рассмотрим систему линейных уравнений ˆ F ( x ) + ˆ F ′ ( x ) h = 0 , x ∈ F . В условиях даннойтеоремы существует h ∈ E : ˆ F ( x ) + ˆ F ′ ( x ) h = 0 , x ∈ F в силу выполнения условия Поляка–Лоясиевича,при этом h = − ˆ F ′ ( x ) ∗ (cid:16) ˆ F ′ ( x ) ˆ F ′ ( x ) ∗ (cid:17) − ˆ F ( x ) . Тогда, согласно предположению 2, k h k = (cid:13)(cid:13)(cid:13)(cid:13) ˆ F ′ ( x ) ∗ (cid:16) ˆ F ′ ( x ) ˆ F ′ ( x ) ∗ (cid:17) − ˆ F ( x ) (cid:13)(cid:13)(cid:13)(cid:13) = s(cid:28)(cid:16) ˆ F ′ ( x ) ˆ F ′ ( x ) ∗ (cid:17) − ˆ F ( x ) , ˆ F ( x ) (cid:29) ≤ (cid:13)(cid:13)(cid:13) ˆ F ( x ) (cid:13)(cid:13)(cid:13) √ µ = ˆ f ( x ) √ µ . (54)По определению локальной модели для x k +1 , k ∈ Z + : ˆ f ( x k +1 ) ≤ ψ x k ,L k , ˆ f ( x k ) ( x k +1 ) = ψ x k ,L k , ˆ f ( x k ) ( T L k , ˆ f ( x k ) ( x k )) + (cid:16) ψ x k ,L k , ˆ f ( x k ) ( x k +1 ) −− ψ x k ,L k , ˆ f ( x k ) ( T L k , ˆ f ( x k ) ( x k )) (cid:17) ≤ ε k + ψ x k ,L k , ˆ f ( x k ) ( T L k , ˆ f ( x k ) ( x k )) = ε k ++ min y ∈ E ( ˆ f ( x k )2 + ( φ ( x k , x k + y )) f ( x k ) + L k k y k ) ≤≤ (cid:26) вместо y подставим th k = − t ˆ F ′ ( x k ) ∗ (cid:16) ˆ F ′ ( x k ) ˆ F ′ ( x k ) ∗ (cid:17) − ˆ F ( x k ) , t ∈ [0 , (cid:27) ≤ ε k + ˆ f ( x k )2 ++ min t ∈ [0 , (

12 ˆ f ( x k ) (cid:13)(cid:13)(cid:13) ˆ F ( x k ) + t ˆ F ′ ( x k ) h k (cid:13)(cid:13)(cid:13) + t L k k h k k ) ≤ { неравенство (54) } ≤ ε k + ˆ f ( x k )2 ++ min t ∈ [0 ,  (cid:13)(cid:13)(cid:13) (1 − t ) ˆ F ( x k ) (cid:13)(cid:13)(cid:13) f ( x k ) + t L k µ ˆ f ( x k )  ≤ (cid:8) k · k — выпуклая (cid:9) ≤ ε k + ˆ f ( x k )2 ++ min t ∈ [0 , (cid:26) − t f ( x k ) + t L k µ ˆ f ( x k ) (cid:27) = ε k + ˆ f ( x k ) + ˆ f ( x k ) L k µ min t ∈ [0 , ( − tµ f ( x k ) L k + t ) = ε k ++ ˆ f ( x k ) − ˆ f ( x k ) L k µ max t ∈ [0 , ( tµ f ( x k ) L k − t ) = { (50), лемма 3 } = ε k + ˆ f ( x k ) −− ˆ f ( x k ) L k µ κ µ f ( x k ) L k ! ≤ { монотонное убывание по L k } ≤ ε k + ˆ f ( x k ) −− f ( x k ) L ˆ F µ κ µ f ( x k ) L ˆ F ! . Явно запишем получившееся неравенство в зависимости от κ ( · ) , учитывая монотонное убывание ˆ f ( x k ) L k µ κ (cid:16) µ f ( x k ) L k (cid:17) по L k (следствие 3.2): ˆ f ( x k +1 ) ≤ ε k +  ˆ f ( x k ) − µ L ˆ F , если ˆ f ( x k ) ≥ µ L ˆ F ; ˆ f ( x k )2 + ˆ f ( x k ) L ˆ F µ ≤ ˆ f ( x k ) , если ˆ f ( x k ) ≤ µ L ˆ F . Для ограничения на ˆ f ( x k +1 ) при L k ≡ L ˆ F представление в зависимости от κ ( · ) задаётся иначе: ˆ f ( x k +1 ) ≤ ε k + ˆ f ( x k ) − ˆ f ( x k ) L ˆ F µ κ µ f ( x k ) L ˆ F ! .

56 явном виде это означает следующее: ˆ f ( x k +1 ) ≤ ε k +  ˆ f ( x k ) − µ L ˆ F , если ˆ f ( x k ) ≥ µ L ˆ F ; ˆ f ( x k )2 + ˆ f ( x k ) L ˆ F µ ≤ ˆ f ( x k ) , если ˆ f ( x k ) ≤ µ L ˆ F . Следствие 3.1.

Адаптивный подбор ε k ≥ позволяет точно решить задачу (5) . Для этого введём опре-деляющую погрешности последовательность величин { δ k } k ∈ Z + : δ k > δ k +1 > , δ − = δ , lim k → + ∞ δ k = 0 .Дополнительно определим:  . ˆ f ( x − ) def = µ L ˆ F , d = 16 , для L k ∈ [ L, L ˆ F ];2 . ˆ f ( x − ) def = µ L ˆ F , d = 8 , для L k ≡ L ˆ F . Обозначим за N ∈ Z + ∪ {− } минимальный номер итерации, на которой выполнена одна из двух цепочекнеравенств (положим N = − в случае отсутствия такой итерации):  . ˆ f ( x N ) ≥ µ L ˆ F ≥ ˆ f ( x N +1 ) , для L k ∈ [ L, L ˆ F ];2 . ˆ f ( x N ) ≥ µ L ˆ F ≥ ˆ f ( x N +1 ) , для L k ≡ L ˆ F . Следующая стратегия выбора ε k позволяет получить сколь угодно точное приближение решения (4) : ε k =  δ : δ < µdL ˆ F , при k = 0; δ k − − δ k , если < k ≤ N + 1; δ k − − δ k , если k > N + 1 . То есть с увеличением номера итерации погрешность поиска x k +1 убывает:  ˆ f ( x k ) ≤ δ − δ k − + ˆ f ( x ) − kµdL ˆ F , если < k ≤ N + 1;ˆ f ( x k ) ≤ (cid:0) (cid:1) k − N − ˆ f ( x N +1 ) + δ N (cid:0) (cid:1) k − N − − δ k − , если k > N + 1 . Данные оценки выведены с помощью сложения соответствующих неравенств друг с другом из усло-вия теоремы для k ∈ , N + 1 и раскрытия рекуррентной зависимости для k > N + 1 , к полученнымвыражениям применены значения ε k . Следствие 3.2.

В случае постоянной погрешности ε k = ε > для достижения уровня функции ˆ f ( x k ) ≤ ǫ количество необходимых в худшем случае итераций и максимальное значение погрешностизависят от стратегии поиска L k . Для L k ∈ [ L, L ˆ F ] условия следующие: • если ǫ ≥ µ L ˆ F , то k ≥ (cid:24)(cid:16) µ L ˆ F − ε (cid:17) − (cid:16) ˆ f ( x ) − ǫ (cid:17) { ˆ f ( x ) >ǫ } (cid:25) , ε < µ L ˆ F ; • если ǫ < µ L ˆ F , то k ≥ &(cid:16) µ L ˆ F − ε (cid:17) − (cid:16) ˆ f ( x ) − µ L ˆ F (cid:17) (cid:26) ˆ f ( x ) > µ L ˆ F (cid:27) + log (cid:16) µ rǫL ˆ F (cid:17)' , ε ≤ (1 − r ) ǫ , r ∈ (0 , .Для точно известного значения L k = L ˆ F количество необходимых итераций меньше и допустимаяпогрешность больше: • если ǫ ≥ µ L ˆ F , то k ≥ (cid:24)(cid:16) µ L ˆ F − ε (cid:17) − (cid:16) ˆ f ( x ) − ǫ (cid:17) { ˆ f ( x ) >ǫ } (cid:25) , ε < µ L ˆ F ; • если ǫ < µ L ˆ F , то k ≥ &(cid:16) µ L ˆ F − ε (cid:17) − (cid:16) ˆ f ( x ) − µ L ˆ F (cid:17) (cid:26) ˆ f ( x ) > µ L ˆ F (cid:27) + log (cid:16) µ rǫL ˆ F (cid:17)' , ε ≤ (1 − r ) ǫ , r ∈ (0 , .

57 теореме 4 рассматривается точный оракул, выдающий при каждом вызове x k +1 с нулевой погрешно-стью, для которого установлена оценка на радиус множества уровня ˆ f ( x k ) в случае решения совместнойсистемы уравнений (4). Теорема 4.

Предположим, что ˆ f ( x ) > µ L ˆ F . Это означает, что ˆ f ( x k +1 ) ≤ ˆ f ( x k ) − µ L ˆ F , ровно дотой итерации, на которой ˆ f ( x k ) ≤ µ L ˆ F . Обозначим наименьшую по номеру такую итерацию как N ∈ Z + : ˆ f ( x N ) ≥ µ L ˆ F ≥ ˆ f ( x N +1 ) . По теореме 3: ˆ f ( x ) − ˆ f ( x N +1 ) ≥ ( N + 1) µ L ˆ F ⇒ L ˆ F µ (cid:16) ˆ f ( x ) − ˆ f ( x N +1 ) (cid:17) ≥ N + 1 . (55)По лемме 2 (следствие 2.3): ˆ f ( x k ) − ˆ f ( x k +1 ) ≥ L k k x k +1 − x k k ≥ L k x k +1 − x k k ⇒ ˆ f ( x ) − ˆ f ( x N +1 ) ≥ L N X k =0 k x k +1 − x k k ≥≥ (cid:8) неравенство Йенсена (cid:9) ≥ L N + 1) N X k =0 k x k +1 − x k k ! ≥ L N + 1) k x − x N +1 k ⇒⇒ k x − x N +1 k ≤ r N + 1) L (cid:16) ˆ f ( x ) − ˆ f ( x N +1 ) (cid:17) ≤ { (55) } ≤≤ s L ˆ F µL (cid:16) ˆ f ( x ) − ˆ f ( x N +1 ) (cid:17) . (56)Соответственно, для N + 1 и более поздних итераций выполняется неравенство: ˆ f ( x N + k +2 ) ≤ ˆ f ( x N + k +1 )2 + L ˆ F ˆ f ( x N + k +1 ) µ ≤ (cid:18) (cid:19) k +1 ˆ f ( x N +1 ) , k ∈ Z + . (57)Рассмотрим локальную модель для точки x k +1 = T L k , ˆ f ( x k ) ( x k ) , k ∈ Z + : ˆ f ( x k )2 + L k x k +1 − x k k ≤ ˆ f ( x k )2 + L k k x k +1 − x k k ≤ ψ x k ,L k , ˆ f ( x k ) ( x k +1 ) ≤≤ (cid:26) заменим T L k , ˆ f ( x k ) ( x k ) − x k на h = − ˆ F ′ ( x k ) ∗ (cid:16) ˆ F ′ ( x k ) ˆ F ′ ( x k ) ∗ (cid:17) − ˆ F ( x k ) (cid:27) ≤≤ ˆ f ( x k )2 + L k k h k ≤ (cid:8) неравенство (54) , L k ≤ L ˆ F (cid:9) ≤ ˆ f ( x k )2 + L ˆ F ˆ f ( x k ) µ ⇒⇒ { (57) , k := N + k + 1 } ⇒ k x N + k +2 − x N + k +1 k ≤ ˆ f ( x N + k +1 ) s L ˆ F µL ≤≤ (cid:18) (cid:19) k ˆ f ( x N +1 ) s L ˆ F µL . (58)Объединим результаты в (56) и (58): k x − x ∗ k ≤ k x − x N +1 k + + ∞ X k =0 k x N + k +1 − x N + k +2 k ≤≤ s L ˆ F µL ˆ f ( x ) − ˆ f ( x N +1 ) + ˆ f ( x N +1 )4 + ∞ X k =0 (cid:18) (cid:19) k ! = 4 ˆ f ( x ) s L ˆ F µL . ˆ f ( x ) ≤ µ L ˆ F , то положим N = − и оценим сверху k x − x ∗ k : k x − x ∗ k ≤ + ∞ X k =0 k x k − x k +1 k ≤ { (58) } ≤ ˆ f ( x ) s L ˆ F µL + ∞ X k =0 (cid:18) (cid:19) k = 4 ˆ f ( x ) s L ˆ F µL . Следствие 4.1.

В условии теоремы начальную итерацию можно заменить на k –ую, что позволяетустановить единственность x ∗ для данной { x k } k ∈ Z + : пусть существуют x ∗ и x ∗ , такие, что ˆ F ( x ∗ ) = m и ˆ F ( x ∗ ) = m , но x ∗ = x ∗ . Имеем для { x k } k ∈ Z + в силу доказанной сходимости (теоремы 1 и3)  lim k → + ∞ k x k − x ∗ k ≤ lim k → + ∞ f ( x k ) q L ˆ F µL = 0;lim k → + ∞ k x k − x ∗ k ≤ lim k → + ∞ f ( x k ) q L ˆ F µL = 0 . Однако выражения выше устанавливают равномерную ограниченность расстояния до x ∗ и x ∗ от x k смонотонно невозрастающим значением расстояния, в пределе равном , что означает x ∗ = x ∗ . Болеетого, в силу произвольности последовательности { x k } k ∈ Z + для любого x ∈ F в пределе будет един-ственное решение при использовании метода Гаусса–Ньютона по схеме 1 с τ k = ˆ f ( x k ) , ε k = 0 , но длякаждого x это решение x ∗ своё. Следующая лемма предлагает алгоритм подбора значения τ k в области квадратичной сходимости, нетребующий явно знание расстояния до решения, согласно теореме 2. Лемма 6.

Пусть выполнены условия теоремы 2, дополнительно предположим ограниченность нормыматрицы Якоби: существует M ˆ F > , для которого выполнено (cid:13)(cid:13)(cid:13) ˆ F ′ ( x ) (cid:13)(cid:13)(cid:13) ≤ M ˆ F при всех x ∈ F . Тогда для ε k = 0 , τ k = ˆ f ( x k ) , k ∈ Z + в области k x k − x ∗ k ≤ min (cid:26) ς L ˆ F , L ˆ F (cid:18)(cid:0) M ˆ F + 5 ς (cid:1) − q(cid:0) M ˆ F + 5 ς (cid:1) − ς (cid:19)(cid:27) выполнена оценка: k x k +1 − x ∗ k ≤ L ˆ F k x k − x ∗ k + k x k − x ∗ k q τ k L k + L F k x k − x ∗ k ς − L ˆ F k x k − x ∗ k < k x k − x ∗ k . Доказательство.

Для начала выведем оценку сверху у значения функции ˆ f ( x k ) с помощью локальноймодели ψ x ∗ ,L ˆ F ,φ ( x ∗ ,x k ) ( x k ) : ˆ f ( x k ) ≤ { лемма 1 } ≤ (cid:13)(cid:13)(cid:13)(cid:13)(cid:13)(cid:13) ˆ F ( x ∗ ) | {z } =0 + ˆ F ′ ( x ∗ )( x k − x ∗ ) (cid:13)(cid:13)(cid:13)(cid:13)(cid:13)(cid:13) + L ˆ F k x k − x ∗ k ≤ (cid:13)(cid:13)(cid:13) ˆ F ′ ( x ∗ )( x k − x ∗ ) (cid:13)(cid:13)(cid:13)| {z } ≤ M ˆ F k x k − x ∗ k + L ˆ F k x k − x ∗ k ≤≤ M ˆ F k x k − x ∗ k + L ˆ F k x k − x ∗ k < (cid:26) верхняя граница областиквадратичной сходимости: k x k − x ∗ k < ςL ˆ F (cid:27) << (cid:16) M ˆ F + ς (cid:17) k x k − x ∗ k ≤ n ς ≤ σ min ( ˆ F ′ ( x ∗ )) ≤ σ max ( ˆ F ′ ( x ∗ )) ≤ M ˆ F o ≤ M ˆ F k x k − x ∗ k . (59)Подставим значения τ k и ε k в оценку сходимости, положив t k = k x k − x ∗ k : t k +1 ≤ L ˆ F t k + t k q ˆ f ( x k ) L k + L F t k ς − L ˆ F k x k − x ∗ k < (cid:8) L k ≤ L ˆ F , оценка (59) (cid:9) << t k  L ˆ F t k + q M ˆ F L ˆ F t k + L F t k ς − L ˆ F t k | {z } ∈ [0 , — по условию леммы ≤ t k . t k из ограничения на дробь выше: ≤ L ˆ F t k s M ˆ F L ˆ F t k + L F t k ≤ ς − L ˆ F t k ⇒ ≤ s M ˆ F L ˆ F t k + L F t k ≤ ς − L ˆ F t k ⇒ t k ≤ ς L ˆ F , получено первое ограничение. Для вывода оставшихся ограничений возведём в квадрат неравенство выше: M ˆ F L ˆ F t k + L F t k ≤ (cid:18) ς − L ˆ F t (cid:19) ⇒ − L ˆ F t k + (cid:0) M ˆ F L ˆ F + 5 L ˆ F ς (cid:1) t k − ς ≤ . Из квадратного уравнения выводится необходимый отрезок значений t k ≥ , согласованный с полученнымвыше первым ограничением: ≤ t k ≤ L ˆ F (cid:18)(cid:0) M ˆ F + 5 ς (cid:1) − q(cid:0) M ˆ F + 5 ς (cid:1) − ς (cid:19) ⇒⇒ k x k − x ∗ k ≤ min (cid:26) ς L ˆ F , L ˆ F (cid:18)(cid:0) M ˆ F + 5 ς (cid:1) − q(cid:0) M ˆ F + 5 ς (cid:1) − ς (cid:19)(cid:27) . Таким образом, получена нижняя оценка на радиус сходимости, при котором будет квадратичная сходи-мость с обозначенным выбором ε k , τ k , k ∈ Z + .Теорема 5 использует явную формулу проксимального отображения для вывода оценки на убываниеоптимизируемого функционала в процессе, организованном по схеме 1. Теорема 5.

По определению ψ x,L,τ ( y ) (лемма 1): ˆ f ( x k ) − ˆ f ( x k +1 ) ≥ ˆ f ( x k ) − ψ x k ,L k ,τ k ( x k +1 ) = ˆ f ( x k ) − τ k − L k k x k +1 − x k k −− τ k (cid:13)(cid:13)(cid:13) ˆ F ( x k ) + ˆ F ′ ( x k )( x k +1 − x k ) (cid:13)(cid:13)(cid:13) . (62)Подставим выражение x k +1 в (62): ˆ f ( x k ) − ˆ f ( x k +1 ) ≥ ˆ f ( x k ) − τ k − τ k (cid:13)(cid:13)(cid:13) ˆ F ( x k ) + ˆ F ′ ( x k )( x k +1 − x k ) (cid:13)(cid:13)(cid:13) − L k k x k +1 − x k k = ˆ f ( x k ) − τ k −− τ k (cid:13)(cid:13)(cid:13)(cid:13) ˆ F ( x k ) − η k ˆ F ′ ( x k ) (cid:16) L k τ k I n + ˆ F ′ ( x k ) ∗ ˆ F ′ ( x k ) (cid:17) − ˆ F ′ ( x k ) ∗ ˆ F ( x k ) (cid:13)(cid:13)(cid:13)(cid:13) −− L k (cid:13)(cid:13)(cid:13)(cid:13) η k (cid:16) L k τ k I n + ˆ F ′ ( x k ) ∗ ˆ F ′ ( x k ) (cid:17) − ˆ F ′ ( x k ) ∗ ˆ F ( x k ) (cid:13)(cid:13)(cid:13)(cid:13) = ˆ f ( x k ) − τ k − ˆ f ( x k )2 τ k ++ 12 τ k (cid:18) (cid:28) η k (cid:16) L k τ k I n + ˆ F ′ ( x k ) ∗ ˆ F ′ ( x k ) (cid:17) − ˆ F ′ ( x k ) ∗ ˆ F ( x k ) , ˆ F ′ ( x k ) ∗ ˆ F ( x k ) (cid:29) −− (cid:28) η k (cid:16) L k τ k I n + ˆ F ′ ( x k ) ∗ ˆ F ′ ( x k ) (cid:17) − ˆ F ′ ( x k ) ∗ ˆ F ( x k ) , ˆ F ′ ( x k ) ∗ ˆ F ′ ( x k ) η k (cid:16) L k τ k I n + ˆ F ′ ( x k ) ∗ ˆ F ′ ( x k ) (cid:17) − ˆ F ′ ( x k ) ∗ ˆ F ( x k ) (cid:29) − L k τ k (cid:28) η k (cid:16) L k τ k I n + ˆ F ′ ( x k ) ∗ ˆ F ′ ( x k ) (cid:17) − ˆ F ′ ( x k ) ∗ ˆ F ( x k ) , η k (cid:16) L k τ k I n + ˆ F ′ ( x k ) ∗ ˆ F ′ ( x k ) (cid:17) − ˆ F ′ ( x k ) ∗ ˆ F ( x k ) (cid:29)(cid:19) == ˆ f ( x k ) − τ k − ˆ f ( x k )2 τ k + η k (2 − η k )2 τ k (cid:28)(cid:16) L k τ k I n + ˆ F ′ ( x k ) ∗ ˆ F ′ ( x k ) (cid:17) − ˆ F ′ ( x k ) ∗ ˆ F ( x k ) , ˆ F ′ ( x k ) ∗ ˆ F ( x k ) (cid:29) == ˆ f ( x k ) − τ k − ˆ f ( x k )2 τ k + η k (2 − η k )2 τ k (cid:28) ˆ F ′ ( x k ) (cid:16) L k τ k I n + ˆ F ′ ( x k ) ∗ ˆ F ′ ( x k ) (cid:17) − ˆ F ′ ( x k ) ∗ ˆ F ( x k ) , ˆ F ( x k ) (cid:29) . (63)Тогда ˆ f ( x k +1 ) имеет верхнюю оценку по (63): ˆ f ( x k +1 ) ≤ τ k f ( x k )2 τ k − η k (2 − η k )2 τ k (cid:28) ˆ F ′ ( x k ) (cid:16) L k τ k I n + ˆ F ′ ( x k ) ∗ ˆ F ′ ( x k ) (cid:17) − ˆ F ′ ( x k ) ∗ ˆ F ( x k ) , ˆ F ( x k ) (cid:29) ≤≤ { лемма 5 } ≤ τ k f ( x k )2 τ k − η k (2 − η k )2 τ k k ˆ F ( x k ) k µL k τ k + µ ! = τ k f ( x k )2 τ k (cid:18) − η k (2 − η k ) µL k τ k + µ (cid:19) . Первая часть (60) выведена, рассмотрим τ k < µL k : ˆ f ( x k +1 ) ≤ τ k f ( x k )2 τ k (cid:18) − η k (2 − η k ) µL k τ k + µ (cid:19) = τ k f ( x k )2 τ k − η k (2 − η k ) (cid:18) L k τ k µ (cid:19) − ! == (cid:26) (1 + y ) − = 1 − y + y (1 + ξ ) , | y | < , для некоторого ξ ∈ ( − , (cid:27) = τ k f ( x k )(1 − η k ) τ k ++ η k (2 − η k ) L k ˆ f ( x k )2 µ − η k (2 − η k ) L k ˆ f ( x k ) τ k µ (1 + ξ ) , вторая часть (60) по формуле Тейлора с остаточным членом в форме Лагранжа выведена. Докажем (61),согласно доказанному неравенству (60): ˆ f ( x k +1 ) ≤ τ k  ˆ f ( x k )2 τ k (cid:18) − η k (2 − η k ) µL k τ k + µ (cid:19)| {z } ∈ (0 , ≤ ˆ f ( x k )2 τ k ≤ ˆ f ( x k ) L k µ ≤ (cid:8) L k ≤ L ˆ F (cid:9) ≤ ˆ f ( x k ) L ˆ F µ , τ k ≥ µL k ;ˆ f ( x k )(1 − η k ) τ k + η k (2 − η k ) L k ˆ f ( x k )2 µ − η k (2 − η k ) L k ˆ f ( x k ) τ k µ (1 + ξ ) | {z } ≥ ≤ (cid:8) η k = 1 , L k L ˆ F (cid:9) ≤≤ ˆ f ( x k ) L ˆ F µ , иначе.Теорема 6 использует явную формулу проксимального отображения для вывода условий сходимости кстационарной точке. Теорема 6.

Пусть выполнено предположение 1. Рассмотрим последовательность { x k } k ∈ Z + , вычисляе-мую по схеме 1 c правилом (8) , в котором τ k > и η k > , η k (2 − η k ) ≥ c > , k ∈ Z + . Дополнительнопредположим ограниченность нормы матрицы Якоби: существует M ˆ F > , для которого выполнено (cid:13)(cid:13)(cid:13) ˆ F ′ ( x ) (cid:13)(cid:13)(cid:13) ≤ M ˆ F при всех x ∈ F . Тогда при k ∈ N : min i ∈ ,k − (cid:26)(cid:13)(cid:13)(cid:13) ∇ ˆ f ( x i ) (cid:13)(cid:13)(cid:13) (cid:27) ≤ (cid:18) L ˆ F max i ∈ ,k − { τ i } + M F (cid:19) η (2 − η ) k k − X i =0 (cid:18) (cid:16) τ i − ˆ f ( x i ) (cid:17) + τ i (cid:16) ˆ f ( x i ) − ˆ f ( x i +1 ) (cid:17)(cid:19) ,η ∈ Argmin k ∈ Z + { η k (2 − η k ) } . оказательство. Используя рассуждения из теоремы 5 получаем следующее: ˆ f ( x k ) − ˆ f ( x k +1 ) ≥ ˆ f ( x k ) − τ k − ˆ f ( x k )2 τ k ++ η k (2 − η k )2 τ k (cid:28)(cid:16) L k τ k I n + ˆ F ′ ( x k ) ∗ ˆ F ′ ( x k ) (cid:17) − ˆ F ′ ( x k ) ∗ ˆ F ( x k ) , ˆ F ′ ( x k ) ∗ ˆ F ( x k ) (cid:29) ≥≥ n ограничение спектра матрицы снизу , ∇ ˆ f ( x k ) = 2 ˆ F ′ ( x k ) ∗ ˆ F ( x x ) o ≥≥ ˆ f ( x k ) − τ k − ˆ f ( x k )2 τ k + η k (2 − η k )2 τ k  (cid:13)(cid:13)(cid:13) ∇ ˆ f ( x k ) (cid:13)(cid:13)(cid:13) L k τ k + M F )  . (64)Из (64) следует: ˆ f ( x k +1 ) ≤ τ k f ( x k )2 τ k − η k (2 − η k ) (cid:13)(cid:13)(cid:13) ∇ ˆ f ( x k ) (cid:13)(cid:13)(cid:13) τ k ( L k τ k + M F ) ≤ τ k f ( x k )2 τ k − η (2 − η ) (cid:13)(cid:13)(cid:13) ∇ ˆ f ( x k ) (cid:13)(cid:13)(cid:13) τ k (cid:16) L ˆ F τ k + M F (cid:17) . Тогда, оценивая сверху минимальное значение квадрата нормы градиента ∇ ˆ f ( x k ) для k ∈ N , выведемсоотношение: η (2 − η ) (cid:13)(cid:13)(cid:13) ∇ ˆ f ( x k ) (cid:13)(cid:13)(cid:13) τ k (cid:18) L ˆ F max i ∈ ,k − { τ i } + M F (cid:19) ≤ η (2 − η ) (cid:13)(cid:13)(cid:13) ∇ ˆ f ( x k ) (cid:13)(cid:13)(cid:13) τ k (cid:16) L ˆ F τ k + M F (cid:17) ≤ τ k f ( x k )2 τ k − ˆ f ( x k +1 ) ⇒⇒ η (2 − η ) (cid:13)(cid:13)(cid:13) ∇ ˆ f ( x k ) (cid:13)(cid:13)(cid:13) (cid:18) L ˆ F max i ∈ ,k − { τ i } + M F (cid:19) ≤ τ k f ( x k )2 − τ k ˆ f ( x k +1 ) ⇒⇒ η (2 − η ) k (cid:18) L ˆ F max i ∈ ,k − { τ i } + M F (cid:19) min i ∈ ,k − (cid:26)(cid:13)(cid:13)(cid:13) ∇ ˆ f ( x i ) (cid:13)(cid:13)(cid:13) (cid:27) ≤≤ η (2 − η )8 (cid:18) L ˆ F max i ∈ ,k − { τ i } + M F (cid:19) k − X i =0 (cid:13)(cid:13)(cid:13) ∇ ˆ f ( x i ) (cid:13)(cid:13)(cid:13) ≤ k − X i =0 τ i f ( x i )2 − τ i ˆ f ( x i +1 ) ! == k − X i =0 (cid:18) (cid:16) τ i − ˆ f ( x i ) (cid:17) + τ i (cid:16) ˆ f ( x i ) − ˆ f ( x i +1 ) (cid:17)(cid:19) ⇒ min i ∈ ,k − (cid:26)(cid:13)(cid:13)(cid:13) ∇ ˆ f ( x i ) (cid:13)(cid:13)(cid:13) (cid:27) ≤≤ (cid:18) L ˆ F max i ∈ ,k − { τ i } + M F (cid:19) η (2 − η ) k k − X i =0 (cid:18) (cid:16) τ i − ˆ f ( x i ) (cid:17) + τ i (cid:16) ˆ f ( x i ) − ˆ f ( x i +1 ) (cid:17)(cid:19) . В теореме 7 используется стратегия выбора τ k = O (cid:16) ˆ f ( x k ) (cid:17) для вывода линейной сходимости к реше-нию системы (4) при выполнении условия Поляка–Лоясиевича. Теорема 7.

12 + L k ˆ f ( x k ) + (1 − η k ) µ (cid:16) L k ˆ f ( x k ) + µ (cid:17) ,  , k ∈ Z + . ополнительно предположим, что на каждой итерации τ k = c k ˆ f ( x k ) , k ∈ Z + : c k ∈ " L k ˆ f ( x k ) + (1 − η k ) µ (2 α k − L k ˆ f ( x k ) + µ ) , α k − − µ L k ˆ f ( x k ) ++ vuut α k + α k µL k ˆ f ( x k ) − ! + 14 µL k ˆ f ( x k ) + 1 ! − (1 − η k ) µL k ˆ f ( x k )  . (65) Тогда метод нормализованных квадратов с вычислением x k +1 по правилу (8) глобально сходится не хуже,чем линейно к решению задачи (5) lim k → + ∞ x k = x ∗ : ˆ F ( x ∗ ) = m со следующей оценкой: ˆ f ( x k ) ≤ ˆ f ( x ) k − Y i =0 α i , k ∈ Z + , − Y i =0 α i def = 1 . Доказательство.

Для удобства рассмотрим следующую декомпозицию задачи поиска области определе-ния c k , k ∈ Z + :  . τ k ∈ h ˆ f ( x k ) c − k , ˆ f ( x k ) i , c − k ≥ . τ k ∈ h ˆ f ( x k ) , c k ˆ f ( x k ) i , c k ≥ . Выведем границы значений c k для первого случая. Воспользуемся результатом теоремы 5: ˆ f ( x k +1 ) ≤ τ k f ( x k )2 τ k (cid:18) − η k (2 − η k ) µL k τ k + µ (cid:19) ≤ ˆ f ( x k )2 + c − k ˆ f ( x k )2 − η k (2 − η k ) µL k ˆ f ( x k ) + µ ! == ˆ f ( x k )  c − k + 12 − η k (2 − η k ) c − k µ (cid:16) L k ˆ f ( x k ) + µ (cid:17)  По определению линейной сходимости:  c − k + 12 − η k (2 − η k ) c − k µ (cid:16) L k ˆ f ( x k ) + µ (cid:17)  ∈ [0 , α k ] , α k ∈ (0 , . Тогда: ≤ c − k + 12 − η k (2 − η k ) c − k µ (cid:16) L k ˆ f ( x k ) + µ (cid:17) ≤ α k < ⇒ − ≤ c − k − η k (2 − η k ) c − k µL k ˆ f ( x k ) + µ ≤ α k − ⇒⇒ − ≤ c − k − η k (2 − η k ) µL k ˆ f ( x k ) + µ ! ≤ α k − ⇒⇒ − − η k (2 − η k ) µL k ˆ f ( x k ) + µ ! − ≤ c − k ≤ (2 α k − − η k (2 − η k ) µL k ˆ f ( x k ) + µ ! − ⇒⇒ ≤ c − k ≤ (2 α k − − η k (2 − η k ) µL k ˆ f ( x k ) + µ ! − = (2 α k − L k ˆ f ( x k ) + µL k ˆ f ( x k ) + (1 − η k (2 − η k )) µ ! . Применим ограничения на c − k из условия: ≤ c − k ≤ (2 α k − L k ˆ f ( x k ) + µL k ˆ f ( x k ) + (1 − η k ) µ ! . Следовательно, c k ∈ " L k ˆ f ( x k ) + (1 − η k ) µ (2 α k − L k ˆ f ( x k ) + µ ) , . c k допустимые значения α k : c − k = (2 α k − L k ˆ f ( x k ) + µL k ˆ f ( x k ) + (1 − η k ) µ ! ≥ ⇒ α k ∈ 

12 + L k ˆ f ( x k ) + (1 − η k ) µ (cid:16) L k ˆ f ( x k ) + µ (cid:17) ,  . (66)Теперь рассмотрим второй случай: τ k ∈ h ˆ f ( x k ) , c k ˆ f ( x k ) i , c k ≥ . По теореме 5: ˆ f ( x k +1 ) ≤ τ k f ( x k )2 τ k (cid:18) − η k (2 − η k ) µL k τ k + µ (cid:19) ≤ c k ˆ f ( x k )2 + ˆ f ( x k )2 − η k (2 − η k ) µL k c k ˆ f ( x k ) + µ ! == ˆ f ( x k )  c k + 12 − η k (2 − η k ) µ (cid:16) L k ˆ f ( x k ) c k + µ (cid:17)  . По определению линейной сходимости:  c k + 12 − η k (2 − η k ) µ (cid:16) L k ˆ f ( x k ) c k + µ (cid:17)  ∈ [0 , α k ] , α k ∈ (0 , . Распишем подробнее данные неравенства: ≤ c k + 12 − η k (2 − η k ) µ (cid:16) L k ˆ f ( x k ) c k + µ (cid:17) ≤ α k < ⇒ − ≤ c k − η k (2 − η k ) µL k ˆ f ( x k ) c k + µ ≤ α k − ⇒⇒ − µ − L k ˆ f ( x k ) c k ≤ ( c k ) L k ˆ f ( x k ) + c k µ − η k (2 − η k ) µ ≤ (2 α k − (cid:16) L k ˆ f ( x k ) c k + µ (cid:17) ⇒⇒ ≤ ( c k ) L k ˆ f ( x k ) + c k (cid:16) µ + L k ˆ f ( x k ) (cid:17) + (1 − η k ) µ ≤ α k (cid:16) L k ˆ f ( x k ) c k + µ (cid:17) . Рассмотрим левое неравенство: ≤ ( c k ) L k ˆ f ( x k ) + c k (cid:16) µ + L k ˆ f ( x k ) (cid:17) + (1 − η k ) µ. Введём замену переменных b k = L k ˆ f ( x k ) µ , подставим в неравенства: ≤ b k ( c k ) + c k (1 + b k ) + (1 − η k ) ≤ α k ( b k c k + 1) . Рассмотрим дискриминант полинома второй степени, записанного в центральном неравенстве выше: (1 + b k ) − b k (1 − η k ) = b k + b k (2 − − η k ) ) + 1 . При тех η k , при которых дискриминант отрицателен, новые ограничения на c k в левом неравенстве невозникают. При остальных η k получаются следующие корни: c k = − − b k ± s

14 + 12 b k − (1 − η k ) b k + 14 b k . Левый корень не накладывает дополнительные ограничения, так как он отрицателен. Правый корень ненакладывает ограничений, потому что он левее c k = 1 : − − b k + s

14 + 12 b k − (1 − η k ) b k + 14 b k ∨ ⇒ s

14 + 12 b k − (1 − η k ) b k + 14 b k ∨

32 + 12 b k ⇒⇒

14 + 12 b k − (1 − η k ) b k + 14 b k ∨

94 + 32 b k + 14 b k ⇒ − (1 − η k ) b k ≤ b k ;

64о есть дополнительные ограничения не накладываются: c k ≥ max ( , − − b k + s

14 + 12 b k − (1 − η k ) b k + 14 b k ) = 1 . Перейдём к правому неравенству сразу с подстановкой b k = L k ˆ f ( x k ) µ : b k ( c k ) + c k (1 + b k ) + (1 − η k ) ≤ α k ( b k c k + 1) ⇒ b k ( c k ) + c k (1 + b k − α k b k ) + (1 − η k ) − α k ≤ . Ограничения задаются полиномом второй степени, дискриминант которого равен: (1 + b k − α k b k ) − b k ((1 − η k ) − α k ) = α k (4 b k ) + α k (4 b k (1 − b k )) + (( b k + 1) − b k (1 − η k ) ) . Дискриминант полинома является параболой по α k с положительным коэффициентом при старшем члене.Рассмотрим значение данной параболы в точке вершины α k = b k − b k : b k (cid:18) b k − b k (cid:19) + 4 b k (cid:18) b k − b k (cid:19) (1 − b k ) + ( b k + 1) − b k (1 − η k ) = 4 b k η k (2 − η k ) ≥ , η k ∈ (0 , . То есть множество допустимых значений c k непусто. Тогда граничные точки c k равны: c k = α k − b k + 12 b k ± s α k + α k (1 − b k ) b k + (cid:18) b k b k (cid:19) − (1 − η k ) b k . У параболы свободный член неположителен и равен (1 − η k ) − α k , так как по (66) α k ≥ и η k ∈ (0 , .Поэтому по теореме Виета некратные ненулевые корни многочлена второй степени обладают разнымизнаками, сама парабола имеет положительный коэффициент при старшем члене, что по ограничению c k ≥ для множества допустимых значений составляет отрезок: c k ∈  , α k − b k + 12 b k + s α k + α k (1 − b k ) b k + (cid:18) b k b k (cid:19) − (1 − η k ) b k  ==  , α k − − µ L k ˆ f ( x k ) + vuut α k + α k µL k ˆ f ( x k ) − ! + 14 µL k ˆ f ( x k ) + 1 ! − (1 − η k ) µL k ˆ f ( x k )  . Определим для таких c k допустимые значения α k : c k = α k − b k + 12 b k + s α k + α k (1 − b k ) b k + (cid:18) b k b k (cid:19) − (1 − η k ) b k ≥ ⇒⇒ α k + α k (1 − b k ) b k + (cid:18) b k b k (cid:19) − (1 − η k ) b k ≥ (cid:18) b k b k − α k (cid:19) ⇒⇒ α k (1 − b k ) − (1 − η k ) ≥ b k − α k (1 + b k ) − α k b k ⇒ α k ( b k + 1) ≥ b k + 1 + (1 − η k ) ⇒⇒ α k ≥ b k + 1 + (1 − η k ) b k + 1) = 12 + b k + (1 − η k ) b k + 1) ⇒ α k ∈ 

12 + L k ˆ f ( x k ) + (1 − η k ) µ (cid:16) L k ˆ f ( x k ) + µ (cid:17) ,  . Объединяя рассмотренные случаи, получаем искомое (65):  c k ∈ " L k ˆ f ( x k ) + (1 − η k ) µ (2 α k − L k ˆ f ( x k ) + µ ) , α k − − µ L k ˆ f ( x k ) ++ vuut α k + α k µL k ˆ f ( x k ) − ! + 14 µL k ˆ f ( x k ) + 1 ! − (1 − η k ) µL k ˆ f ( x k )  .α k ∈ (cid:20) + L k ˆ f ( x k )+(1 − η k ) µ ( L k ˆ f ( x k )+ µ ) , (cid:19) . lim k → + ∞ x k = x ∗ : ˆ F ( x ∗ ) = m . Данная сходимость носит глобальныйхарактер, так как для x ∈ F : L ( ˆ f ( x )) ⊆ F , верно вложение x k ∈ L ( ˆ f ( x k )) ⊆ L ( ˆ f ( x )) ⊆ F , k ∈ Z + . Из доказательства непосредственно выводится оценка сходимости: ˆ f ( x k ) ≤ ˆ f ( x ) k − Y i =0 α i , k ∈ N . В теореме 8 представлены условия сходимости к стационарной точке в случае адаптивного подборазначения τ k на каждой итерации. Теорема 8.

Пусть выполнено предположение 1, k ∈ N , r > . Рассмотрим функции κ ( t ) = t { t ∈ [0 , } + (cid:18) t − (cid:19) { t> } и ˜∆ r ( x ) def = ˆ f ( x ) − min y ∈ E { φ ( x, y ) : k y − x k ≤ r } . Тогда для метода Гаусса–Ньютона, реализованного по схеме 2 с ε k = ε ≥ , верны следующие оценки:  L F L (cid:18) ε + ( ˆ f ( x ) − ˆ f ( x k ) ) k (cid:19) ≥ min i ∈ ,k − (cid:26)(cid:13)(cid:13)(cid:13) L ˆ F (cid:16) T L ˆ F , T L ˆ F ( x i ) ( x i ) − x i (cid:17)(cid:13)(cid:13)(cid:13) (cid:27) ; L ˆ F (cid:18) ε + ( ˆ f ( x ) − ˆ f ( x k ) ) k (cid:19) ≥ min i ∈ ,k − n (cid:0) L ˆ F r (cid:1) κ (cid:16) ˜∆ r ( x i )2 L ˆ F r (cid:17)o . Доказательство.

Согласно Lemma 2.4 [14] выполнено следующее соотношение: ˆ f ( x k ) − ψ x k ,L k , T Lk ( x k ) ( T L k , T Lk ( x k ) ( x k )) ≥ L k r κ ˜∆ r ( x k ) L k r ! , k ∈ Z + , r > . Lemma 2.3 [14] устанавливает другое соотношение: ˆ f ( x k ) − ψ x k ,L k , T Lk ( x k ) ( T L k , T Lk ( x k ) ( x k )) ≥ L k (cid:13)(cid:13)(cid:13) T L k , T Lk ( x k ) ( x k ) − x k (cid:13)(cid:13)(cid:13) , k ∈ Z + . Используя аргументацию из теоремы 1, добавим и вычтем значение ψ x k ,L k ,τ ∗ k ( x k +1 ) :  ˆ f ( x k ) − ˆ f ( x k +1 ) + ε ≥ ˆ f ( x k ) + (cid:16) ψ x k ,L k ,τ ∗ k ( x k +1 ) − ψ x k ,L k , T Lk ( x k ) ( T L k , T Lk ( x k ) ( x k )) (cid:17) − ψ x k ,L k ,τ ∗ k ( x k +1 ) ≥≥ L k (cid:13)(cid:13)(cid:13) T L k , T Lk ( x k ) ( x k ) − x k (cid:13)(cid:13)(cid:13) ;ˆ f ( x k ) − ˆ f ( x k +1 ) + ε ≥ ˆ f ( x k ) + (cid:16) ψ x k ,L k ,τ ∗ k ( x k +1 ) − ψ x k ,L k , T Lk ( x k ) ( T L k , T Lk ( x k ) ( x k )) (cid:17) − ψ x k ,L k ,τ ∗ k ( x k +1 ) ≥≥ L k r κ ˜∆ r ( x k ) L k r ! . Усредним данные соотношения для , . . . , k − итераций и воспользуемся тем, что L k ≥ L , функции (cid:13)(cid:13)(cid:13) T L i , T Li ( x i ) ( x i ) − x i (cid:13)(cid:13)(cid:13) и L i r κ (cid:16) ˜∆ r ( x i ) L i r (cid:17) монотонно убывают по L i [14]:  ε + ˆ f ( x ) − ˆ f ( x k ) k ≥ k k − X i =0 L i (cid:13)(cid:13)(cid:13) T L i , T Li ( x i ) ( x i ) − x i (cid:13)(cid:13)(cid:13) ≥ k k − X i =0 L (cid:13)(cid:13)(cid:13) T L ˆ F , T L ˆ F ( x i ) ( x i ) − x i (cid:13)(cid:13)(cid:13) ≥≥ min i ∈ ,k − (cid:26) L (cid:13)(cid:13)(cid:13) T L ˆ F , T L ˆ F ( x i ) ( x i ) − x i (cid:13)(cid:13)(cid:13) (cid:27) ; ε + ˆ f ( x ) − ˆ f ( x k ) k ≥ k k − X i =0 L i r κ ˜∆ r ( x i ) L i r ! ≥ k k − X i =0 L ˆ F r κ ˜∆ r ( x i )2 L ˆ F r ! ≥ min i ∈ ,k − ( L ˆ F r κ ˜∆ r ( x i )2 L ˆ F r !) . Домножением приводим оценки к искомому виду. 66 ледствие 8.1.

По аналогии со следствием 1.1 существует возможность найти стационарную точкус произвольной точностью при монотонном увеличении точности вычисления ( τ ∗ k , x k +1 ) :  L F kL (cid:16) (1 + 2 ε ) ˆ f ( x ) − ε ˆ f ( x k − ) − ˆ f ( x k ) (cid:17) ≥ min i ∈ ,k − (cid:26)(cid:13)(cid:13)(cid:13) L ˆ F (cid:16) T L ˆ F , T L ˆ F ( x i ) ( x i ) − x i (cid:17)(cid:13)(cid:13)(cid:13) (cid:27) ; L ˆ F k (cid:16) (1 + 2 ε ) ˆ f ( x ) − ε ˆ f ( x k − ) − ˆ f ( x k ) (cid:17) ≥ min i ∈ ,k − ( (cid:0) L ˆ F r (cid:1) κ ˜∆ r ( x i )2 L ˆ F r !) . Следствие 8.2.

Воспользовавшись аргументацией из следствия 1.2, получаем оценки на вариацию по-следовательности { x k } k ∈ Z + :  ˆ f ( x k ) − ˆ f ∗ + ε (cid:16) ˆ f ( x k − ) − ˆ f ∗ (cid:17) ≥ L (cid:13)(cid:13)(cid:13) T L ˆ F , T L ˆ F ( x k ) ( x k ) − x k (cid:13)(cid:13)(cid:13) ;ˆ f ( x k ) − ˆ f ∗ + ε (cid:16) ˆ f ( x k − ) − ˆ f ∗ (cid:17) ≥ L ˆ F r κ (cid:16) ˜∆ r ( x k )2 L ˆ F r (cid:17) . Неравенства выше означают lim k → + ∞ x k +1 = lim k → + ∞ T L ˆ F , T Lk ( x k ) ( x k ) = x ∗ и  lim k → + ∞ k x k +1 − x k k = 0;lim k → + ∞ ˜∆ r ( x k ) = 0; указывая на связность множества стационарных точек n x ∗ : x ∗ ∈ E , ˜∆ r ( x ∗ ) = 0 o для последователь-ности { x k } k ∈ Z + . В теореме 9 представлены улучшенные оценки сходимости для областей сублинейной и линейной схо-димости в случае адаптивного подбора τ k по сравнению с фиксацией τ k = ˆ f ( x k ) . Теорема 9.

Воспользуемся цепочкой рассуждений из теоремы 3: ˆ f ( x k +1 ) ≤ ψ x k ,L k ,τ ∗ k ( x k +1 ) = ψ x k ,L k , T Lk ( x k ) ( T L k , T Lk ( x k ) ( x k )) + (cid:0) ψ x k ,L k ,τ ∗ k ( x k +1 ) −− ψ x k ,L k , T Lk ( x k ) ( T L k , T Lk ( x k ) ( x k )) (cid:17) ≤ ε k ++ ψ x k ,L k , T Lk ( x k ) ( T L k , T Lk ( x k ) ( x k )) = ε k + min y ∈ E (cid:26) φ ( x k , x k + y ) + L k k y k (cid:27) ≤≤ (cid:26) вместо y подставим th k = − t ˆ F ′ ( x k ) ∗ (cid:16) ˆ F ′ ( x k ) ˆ F ′ ( x k ) ∗ (cid:17) − ˆ F ( x k ) , t ∈ [0 , (cid:27) ≤ ε k ++ min t ∈ [0 , (cid:26)(cid:13)(cid:13)(cid:13) ˆ F ( x k ) + t ˆ F ′ ( x k ) h k (cid:13)(cid:13)(cid:13) + t L k k h k k (cid:27) ≤ { неравенство (54) } ≤ ε k ++ min t ∈ [0 , (cid:26)(cid:13)(cid:13)(cid:13) (1 − t ) ˆ F ( x k ) (cid:13)(cid:13)(cid:13) + t L k µ ˆ f ( x k ) (cid:27) ≤ {k · k — выпуклая } ≤ ε k ++ min t ∈ [0 , (cid:26) (1 − t ) ˆ f ( x k ) + t L k µ ˆ f ( x k ) (cid:27) = ε k + ˆ f ( x k ) + ˆ f ( x k ) L k µ min t ∈ [0 , ( − tµ ˆ f ( x k ) L k + t ) = ε k + ˆ f ( x k ) − ˆ f ( x k ) L k µ max t ∈ [0 , ( tµ ˆ f ( x k ) L k − t ) == { (50), лемма 3 } = ε k + ˆ f ( x k ) − ˆ f ( x k ) L k µ κ µ ˆ f ( x k ) L k ! ≤ { монотонное убывание по L k } ≤≤ ε k + ˆ f ( x k ) − f ( x k ) L ˆ F µ κ µ f ( x k ) L ˆ F ! . Явно запишем получившееся неравенство в зависимости от κ ( · ) : ˆ f ( x k +1 ) ≤ ε k +  ˆ f ( x k ) − µ L ˆ F , если ˆ f ( x k ) ≥ µ L ˆ F ; ˆ f ( x k ) L ˆ F µ ≤ ˆ f ( x k ) , если ˆ f ( x k ) ≤ µ L ˆ F . Для ограничения на ˆ f ( x k +1 ) при L k ≡ L ˆ F представление в зависимости от κ ( · ) задаётся иначе: ˆ f ( x k +1 ) ≤ ε k + ˆ f ( x k ) − ˆ f ( x k ) L ˆ F µ κ µ ˆ f ( x k ) L ˆ F ! . В явном виде это означает следующее: ˆ f ( x k +1 ) ≤ ε k +  ˆ f ( x k ) − µ L ˆ F , если ˆ f ( x k ) ≥ µL ˆ F ; ˆ f ( x k ) L ˆ F µ ≤ ˆ f ( x k ) , если ˆ f ( x k ) ≤ µL ˆ F . Следствие 9.1.

По аналогии со следствием 3.1 выбор ε k ≥ позволяет сколь угодно точно решитьзадачу (5) с помощью подбора последовательности величин { δ k } k ∈ Z + : δ k > δ k +1 > , δ − = 4 δ , lim k → + ∞ δ k = 0 . Введём:  . ˆ f ( x − ) def = µ L ˆ F , d = 4 , для L k ∈ [ L, L ˆ F ];2 . ˆ f ( x − ) def = µL ˆ F , d = 2 , для L k = L ˆ F ; Обозначив за N ∈ Z + ∪ {− } минимальный номер итерации, на которой выполнена одна из двух цепочекнеравенств (положим N = − в случае отсутствия такой итерации):  . ˆ f ( x N ) ≥ µ L ˆ F ≥ ˆ f ( x N +1 ) , для L k ∈ [ L, L ˆ F ];2 . ˆ f ( x N ) ≥ µL ˆ F ≥ ˆ f ( x N +1 ) , для L k = L ˆ F ; зададим ε k : ε k =  δ : δ < µdL ˆ F , при k = 0; δ k − − δ k , если < k ≤ N + 1; δ k − − δ k , если k > N + 1 . Получаем с увеличением номера итерации убывание погрешности поиска ( τ ∗ k , x k +1 ) :  ˆ f ( x k ) ≤ δ − δ k − + ˆ f ( x ) − kµdL ˆ F , если < k ≤ N + 1;ˆ f ( x k ) ≤ (cid:0) (cid:1) k − N − ˆ f ( x N +1 ) + δ N (cid:0) (cid:1) k − N − − δ k − , если k > N + 1 . Следствие 9.2.

Применяя рассуждения из следствия 3.2, устанавливаются необходимое количествоитераций и максимальное значение погрешности поиска ( τ ∗ k , x k +1 ) в случае постоянной погрешности ε k = ε > для достижения уровня функции ˆ f ( x k ) ≤ ǫ . Для L k ∈ [ L, L ˆ F ] условия следующие: • если ǫ ≥ µ L ˆ F , то k ≥ (cid:24)(cid:16) µ L ˆ F − ε (cid:17) − (cid:16) ˆ f ( x ) − ǫ (cid:17) { ˆ f ( x ) >ǫ } (cid:25) , ε < µ L ˆ F ; если ǫ < µ L ˆ F , то k ≥ &(cid:16) µ L ˆ F − ε (cid:17) − (cid:16) ˆ f ( x ) − µ L ˆ F (cid:17) (cid:26) ˆ f ( x ) > µ L ˆ F (cid:27) + log (cid:16) µ rǫL ˆ F (cid:17)' , ε ≤ (1 − r ) ǫ , r ∈ (0 , .Для точно известного значения L k = L ˆ F количество необходимых итераций меньше и допустимаяпогрешность больше: • если ǫ ≥ µL ˆ F , то k ≥ (cid:24)(cid:16) µ L ˆ F − ε (cid:17) − (cid:16) ˆ f ( x ) − ǫ (cid:17) { ˆ f ( x ) >ǫ } (cid:25) , ε < µ L ˆ F ; • если ǫ < µL ˆ F , то k ≥ &(cid:16) µ L ˆ F − ε (cid:17) − (cid:16) ˆ f ( x ) − µL ˆ F (cid:17) (cid:26) ˆ f ( x ) > µL ˆ F (cid:27) + log (cid:16) µrǫL ˆ F (cid:17)' , ε ≤ (1 − r ) ǫ , r ∈ (0 , . Стохастическая модификация метода Гаусса–Ньютона

Вспомогательные утверждения

В лемме ниже выводятся основные и часто используемые в данной работе отношения частичного по-рядка, связанные со спектром симметричных матриц.

Лемма 7.

Предположим выполнение предположений 4 и 7. Тогда для любых t ≥ , x ∈ E , B ⊆ B , | B | = b ∈ , min { m, n } выполнены следующие соотношения:  τ t I n (cid:22) (cid:16) ˆ G ′ ( x, B ) ∗ ˆ G ′ ( x, B ) + τ I n (cid:17) t (cid:22) (cid:16) M G + τ (cid:17) t I n , τ ≥ ( M G + τ ) t I n (cid:22) (cid:16) ˆ G ′ ( x, B ) ∗ ˆ G ′ ( x, B ) + τ I n (cid:17) − t (cid:22) τ t I n , τ > µ + τ ) t I b (cid:22) (cid:16) ˆ G ′ ( x, B ) ˆ G ′ ( x, B ) ∗ + τ I b (cid:17) t (cid:22) (cid:16) M G + τ (cid:17) t I b , τ ≥ ( M G + τ ) t I b (cid:22) (cid:16) ˆ G ′ ( x, B ) ˆ G ′ ( x, B ) ∗ + τ I b (cid:17) − t (cid:22) µ + τ ) t I b , τ ≥ . Отношение порядка « (cid:22) » выполнено на конусе неотрицательно определённых матриц.Доказательство.

Предположение 4 сверху ограничивает максимальное сингулярное число матрицы ˆ G ′ ( x, B ) : (cid:13)(cid:13)(cid:13) ˆ G ′ ( x, B ) (cid:13)(cid:13)(cid:13) = σ max ( ˆ G ′ ( x, B )) ≤ M ˆ G ⇔ ˆ G ′ ( x, B ) ∗ ˆ G ′ ( x, B ) (cid:22) M G I n , ˆ G ′ ( x, B ) ˆ G ′ ( x, B ) ∗ (cid:22) M G I b . Предположение 7 ограничивает снизу минимальное сингулярное число матрицы ˆ G ′ ( x, B ) ∗ : ˆ G ′ ( x, B ) ˆ G ′ ( x, B ) ∗ (cid:23) µI b ⇔ σ min ( ˆ G ′ ( x, B ) ∗ ) ≥ √ µ. Симметричные матрицы (cid:16) ˆ G ′ ( x, B ) ∗ ˆ G ′ ( x, B ) + τ I n (cid:17) t и (cid:16) ˆ G ′ ( x, B ) ˆ G ′ ( x, B ) ∗ + τ I b (cid:17) t обладают спектральнымразложением с соответствующими диагональными матрицами собственных значений Λ t и Λ t , соответству-ющими ортогональными матрицами собственных векторов Q и Q . Для произвольного v ∈ E : (cid:28)(cid:16) ˆ G ′ ( x, B ) ∗ ˆ G ′ ( x, B ) + τ I n (cid:17) t v, v (cid:29) = * Q (Λ + τ I n ) t Q ∗ v |{z} def = v , v + == * (Λ + τ I n ) t | {z } σ max (Λ ) ≤ M G v , v + ≤ (cid:0) M G + τ (cid:1) t k v k , ∀ v ∈ E | {z } ограничение соотношений Релея ; * (Λ + τ I n ) t | {z } σ min (Λ ) ≥ v , v + ≥ τ t k v k , ∀ v ∈ E | {z } ограничениесоотношенийРелея . w ∈ E ∗ , dim( E ∗ ) = b : (cid:28) w, (cid:16) ˆ G ′ ( x, B ) ˆ G ′ ( x, B ) ∗ + τ I b (cid:17) t w (cid:29) = * w, Q (Λ + τ I b ) t Q ∗ w | {z } def = w + == * w , (Λ + τ I b ) t | {z } σ max (Λ ) ≤ M G w + ≤ (cid:0) M G + τ (cid:1) t k w k , ∀ w ∈ E ∗ | {z } ограничение соотношений Релея ; * w , (Λ + τ I b ) t | {z } σ min (Λ ) ≥ µ w + ≥ ( µ + τ ) t k w k , ∀ w ∈ E ∗ | {z } ограничение соотношенийРелея . В обоих случаях по принципу минимакса Куранта–Фишера–Вейля при замене t на − t происходит обраще-ние спектра, оценка сверху становится оценкой снизу и наоборот. Это означает выполнение следующегоотношения частичного порядка для матриц со сдвинутым на τ спектром при µ = 0 (с учётом обращенияспектра собственных значений при обращении матриц и возведения в степень собственных значений привозведении в степень матриц):  τ t I n (cid:22) (cid:16) ˆ G ′ ( x, B ) ∗ ˆ G ′ ( x, B ) + τ I n (cid:17) t (cid:22) (cid:16) M G + τ (cid:17) t I n , τ ≥ ( M G + τ ) t I n (cid:22) (cid:16) ˆ G ′ ( x, B ) ∗ ˆ G ′ ( x, B ) + τ I n (cid:17) − t (cid:22) τ t I n , τ > τ t I b (cid:22) (cid:16) ˆ G ′ ( x, B ) ˆ G ′ ( x, B ) ∗ + τ I b (cid:17) t (cid:22) (cid:16) M G + τ (cid:17) t I b , τ ≥ ( M G + τ ) t I b (cid:22) (cid:16) ˆ G ′ ( x, B ) ˆ G ′ ( x, B ) ∗ + τ I b (cid:17) − t (cid:22) τ t I b , τ > . (67)В следующем утверждении выводится липшицевость матриц Якоби ˆ G ′ и ˆ F ′ . Лемма 8.

Пусть выполнено предположение 3. Тогда ˆ F ′ и ˆ G ′ почти наверно липшиц–непрерывны: (cid:13)(cid:13)(cid:13) ˆ F ′ ( x ) − ˆ F ′ ( y ) (cid:13)(cid:13)(cid:13) ≤ L ˆ F k x − y k , ∀ ( x, y ) ∈ E ; (cid:13)(cid:13)(cid:13) ˆ G ′ ( x, B ) − ˆ G ′ ( y, B ) (cid:13)(cid:13)(cid:13) ≤ L ˆ F k x − y k , ∀ ( x, y ) ∈ E , ∀ B ⊆ B , | B | = b. Аналогично функции ˆ f и ˆ g почти наверно липшиц–непрерывны: ((cid:12)(cid:12)(cid:12) ˆ f ( x ) − ˆ f ( y ) (cid:12)(cid:12)(cid:12) ≤ l ˆ F k x − y k , ∀ ( x, y ) ∈ E ; | ˆ g ( x, B ) − ˆ g ( y, B ) | ≤ l ˆ F k x − y k , ∀ ( x, y ) ∈ E , ∀ B ⊆ B , | B | = b. Доказательство.

Рассмотрим батч из функций ˆ G , для произвольных ( x, y ) ∈ E выпишем: (cid:13)(cid:13)(cid:13) ˆ G ′ ( x, B ) − ˆ G ′ ( y, B ) (cid:13)(cid:13)(cid:13) = vuut b b X j =1 (cid:13)(cid:13) ∇ F i j ( x ) − ∇ F i j ( y ) (cid:13)(cid:13) ≤ { предположение 3 } ≤ vuut b b X j =1 L F k x − y k == L ˆ F k x − y k ; (cid:13)(cid:13)(cid:13) ˆ F ′ ( x ) − ˆ F ′ ( y ) (cid:13)(cid:13)(cid:13) = r E q h k∇ F ξ ( x ) − ∇ F ξ ( y ) k i ≤ { предположение 3 } ≤ r E q h L F k x − y k i == L ˆ F k x − y k . Аналогичным образом поступим с ˆ g и ˆ f , для произвольных ( x, y ) ∈ E выпишем: | ˆ g ( x, B ) − ˆ g ( y, B ) | = (cid:12)(cid:12)(cid:12)(cid:12)(cid:12)(cid:12) b b X j =1 (cid:0) F i j ( x ) (cid:1) − b b X j =1 (cid:0) F i j ( y ) (cid:1) (cid:12)(cid:12)(cid:12)(cid:12)(cid:12)(cid:12) ≤ b b X j =1 (cid:12)(cid:12)(cid:12)(cid:0) F i j ( x ) (cid:1) − (cid:0) F i j ( y ) (cid:1) (cid:12)(cid:12)(cid:12) ≤≤ { предположение 3 } ≤ b b X j =1 l ˆ F k x − y k = l ˆ F k x − y k ; (cid:12)(cid:12) ˆ f ( x ) − ˆ f ( y ) (cid:12)(cid:12)(cid:12) = (cid:12)(cid:12)(cid:12) E q h ( F ξ ( x )) − ( F ξ ( y )) i(cid:12)(cid:12)(cid:12) ≤ E q h(cid:12)(cid:12)(cid:12) ( F ξ ( x )) − ( F ξ ( y )) (cid:12)(cid:12)(cid:12)i ≤ { предположение 3 } ≤≤ E q (cid:2) l ˆ F k x − y k (cid:3) = l ˆ F k x − y k . Следствие 8.1.

Утверждение верно и в случае бесконечной генеральной совокупности B . Выведем модель верхней оценки для функции ˆ g ( x, B ) . Лемма 9.

Пусть ( x, y ) ∈ E , B ⊆ B , L ≥ L ˆ F , τ > , ˆ g ( x, B ) > почти наверно и выполнено предполо-жение 3. Тогда  ˆ g ( y, B ) ≤ ˆ ψ x,L,τ ( y, B ) = τ + L k y − x k + τ (cid:13)(cid:13)(cid:13) ˆ G ( x, B ) + ˆ G ′ ( x, B )( y − x ) (cid:13)(cid:13)(cid:13) ;ˆ f ( y ) ≤ ψ x,L,τ ( y ) def = ˆ ψ x,L,τ ( y, B ) = τ + L k y − x k + τ (cid:13)(cid:13)(cid:13) ˆ F ( x ) + ˆ F ′ ( x )( y − x ) (cid:13)(cid:13)(cid:13) . (68) Доказательство.

Доказательство структурно повторяет лемму 1 с ˆ F := ˆ G в рамках одного батча B ⊆ B для произвольных ( x, y ) ∈ E , L ≥ L ˆ F , τ > .Для того, чтобы определить метод трёх стохастических квадратов, необходимо задать правило обнов-ления искомого параметра x k +1 . В отличие от [15], где это правило имеет вид x k +1 = x k − v k , v k ∈ E ∗ , вданном случае рассматривается масштабированное обновление: x k +1 = x k − η k v k , η k > , v k ∈ E ∗ . Подобное масштабирование может быть полезным в случае, когда на каждой итерации метода оптимиза-ции вспомогательная задача поиска x k +1 должна решаться не слишком точно, чтобы, например, умень-шить переобучение настраиваемой модели в задаче машинного обучения. Также такого вида обновлениеможет быть использовано в задаче мета–обучения, в которой η k будет играть роль гиперпараметра, настра-иваемого на отдельной валидационной выборке. Ниже определим основные свойства данного обновления x k . Лемма 10.

Пусть выполнено предположение 3, x k ∈ E , τ k > , L k ≥ L ˆ F , B k ⊆ B , η k > , начальноеприближение x выбирается случайно и независимо от B k , k ∈ Z + . Тогда  x k +1 = x k − η k (cid:16) ˆ G ′ ( x k , B k ) ∗ ˆ G ′ ( x k , B k ) + τ k L k I n (cid:17) − ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k );ˆ g ( x k , B k ) − ˆ g ( x k +1 , B k ) ≥ ˆ g ( x k , B k ) − τ k − ˆ g ( x k , B k )2 τ k ++ η k (2 − η k )2 τ k (cid:28)(cid:16) ˆ G ′ ( x k , B k ) ∗ ˆ G ′ ( x k , B k ) + τ k L k I n (cid:17) − ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) , ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) (cid:29) . (69) Доказательство.

Доказательство заключается в использовании цепочки утверждений из теоремы 5, вчастности, выражения (63) с подстановкой ˆ F := ˆ G в рамках одного батча B k ⊆ B для произвольных x k ∈ E , τ k > , L k ≥ L ˆ F , η k > . Следствие 10.1.

Если взять η k ∈ (0 , , τ k = ˆ g ( x k , B k ) , вычисленную на том же батче, формирующем ˆ G , то получится ˆ g ( x k ,B k ) − ˆ g ( x k +1 , B k ) ≥ η k (2 − η k )2ˆ g ( x k , B k ) (cid:28)(cid:16) ˆ G ′ ( x k , B k ) ∗ ˆ G ′ ( x k , B k ) + ˆ g ( x k , B k ) L k I n (cid:17) − ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) , ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) E ≥ , так как матрица (cid:16) ˆ G ′ ( x k , B k ) ∗ ˆ G ′ ( x k , B k ) + ˆ g ( x k , B k ) L k I n (cid:17) − положительно определённая. ледствие 10.2. Из следствия 10.1 выводится уменьшение значения ˆ g в среднем: ˆ g ( x k , B k ) − ˆ g ( x k +1 , B k ) ≥ η k (2 − η k )2ˆ g ( x k , B k ) (cid:28)(cid:16) ˆ G ′ ( x k , B k ) ∗ ˆ G ′ ( x k , B k ) + ˆ g ( x k , B k ) L k I n (cid:17) − ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) , ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) E ≥ ⇒ ˆ g ( x k , B k ) − ˆ g ( x k +1 , B k ) ≥ ˆ g ( x k , B k ) − ˆ g ( x k , B k )ˆ g ( x k +1 , B k ) ≥≥ η k (2 − η k )2 (cid:28)(cid:16) ˆ G ′ ( x k , B k ) ∗ ˆ G ′ ( x k , B k ) + ˆ g ( x k , B k ) L k I n (cid:17) − ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) , ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) E ≥ . Усреднив по всей случайности при оптимизации (выбор батча на каждой итерации и выбор начальногоприближения), получаем: E [ˆ g ( x k , B k ) − ˆ g ( x k +1 , B k )] = E h ˆ f ( x k ) − ˆ g ( x k +1 , B k ) i = E h ˆ f ( x k ) i − E [ˆ g ( x k +1 , B k )] ≥≥ E (cid:20) η k (2 − η k )2 (cid:28)(cid:16) ˆ G ′ ( x k , B k ) ∗ ˆ G ′ ( x k , B k ) + ˆ g ( x k , B k ) L k I n (cid:17) − ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) , ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) Ei ≥ . Если же провести усреднение только по батчам на итерации получения x k +1 , по которым вычисляется x k +1 (обозначим соответствующий оператор как E B k [ · ] ), не усредняя по стохастичности с предыдущихитераций, то получатся следующие неравенства между зависимыми случайными величинами: p E B k [ˆ g ( x k , B k )] = q ˆ f ( x k ) = ˆ f ( x k ) ≥ p E B k [ˆ g ( x k +1 , B k )] ≥ (cid:8) неравенство Йенсена (cid:9) ≥≥ E B k hp ˆ g ( x k +1 , B k ) i ⇒ ˆ f ( x k ) ≥ E B k [ˆ g ( x k +1 , B k )] , так как значение x k +1 зависит от B k . Следствие 10.3.

При замене в условии леммы ˆ G на ˆ F и ˆ g на ˆ f получается  x k +1 = x k − η k (cid:16) ˆ F ′ ( x k ) ∗ ˆ F ′ ( x k ) + τ k L k I n (cid:17) − ˆ F ′ ( x k ) ∗ ˆ F ( x k );ˆ f ( x k ) − ˆ f ( x k +1 ) ≥ ˆ f ( x k ) − τ k − ˆ f ( x k )2 τ k ++ η k (2 − η k )2 τ k (cid:28)(cid:16) ˆ F ′ ( x k ) ∗ ˆ F ′ ( x k ) + τ k L k I n (cid:17) − ˆ F ′ ( x k ) ∗ ˆ F ( x k ) , ˆ F ′ ( x k ) ∗ ˆ F ( x k ) (cid:29) . При η k ∈ (0 , , τ k = ˆ f ( x k ) : ˆ f ( x k ) − ˆ f ( x k +1 ) ≥ η k (2 − η k )2 ˆ f ( x k ) (cid:28)(cid:16) ˆ F ′ ( x k ) ∗ ˆ F ′ ( x k ) + ˆ f ( x k ) L k I n (cid:17) − ˆ F ′ ( x k ) ∗ ˆ F ( x k ) , ˆ F ′ ( x k ) ∗ ˆ F ( x k ) (cid:29) ≥ , так как матрица (cid:16) ˆ F ′ ( x k ) ∗ ˆ F ′ ( x k ) + ˆ f ( x k ) L k I n (cid:17) − так же положительно определённая. Лемма 10 по сути в своём условии содержит описание метода трёх стохастических квадратов. Дляанализа влияния оценки ˆ f по батчу из функций B важно понять, насколько из–за введённой стохастики g неточно оценивает оптимизируемый функционал ˆ f в зависимости от итерации метода оптимизации,что как раз рассмотрено в леммах 11 и 12. Лемма 11.

Пусть выполнено предположение 6. При сэмплировании без возвращения батчей B ⊆ B , | B | = b из равномерного распределения q на подмножества B имеет место следующее неравенство: E q (cid:20)(cid:12)(cid:12)(cid:12) ˆ g ( x, B ) − ˆ f ( x ) (cid:12)(cid:12)(cid:12) (cid:21) ≤ ˜ σ b (cid:18) − bm (cid:19) , ∀ x ∈ E , для некоторого конечного ˜ σ ≥ σ . оказательство. Математическое ожидание ˆ g ( x, B ) по q от сэмпла батча B можно представить с помо-щью зависимых Бернулли случайных величин Z i ∈ { , } , у которых значение 0 обозначает отсутствие F i в батче B , а значение 1 — наличие F i в батче B : E q [ˆ g ( x, B )] = E q  b b X j =1 (cid:0) F i j ( x ) (cid:1)  = 1 b E q " m X i =1 ( F i ( x )) Z i = 1 b m X i =1 ( F i ( x )) E q [ Z i ] = 1 m m X i =1 ( F i ( x )) = ˆ f ( x ) , так как вероятность для F i оказаться в сэмпле B согласно определению q составляет P ( Z i = 1) = C b − m − C bm = ( m − m − b )!( b − m − b )! b ! m ! = bm , i ∈ , m. По определению дисперсии случайной величины, заданной на конечной генеральной совокупности: V q h ( F ξ ( x )) i = 1 m m X i =1 (cid:16) ( F i ( x )) − ˆ f ( x ) (cid:17) = m − m ( σ ( x )) ≤ σ ,σ ( x ) — квази–дисперсия для сэмпла B с | B | = 1 при фиксированном x ∈ E . По предположению 6: σ ( x ) ≤ σ q mm − . Дисперсия значения функции g при фиксированном x равна: V q [ˆ g ( x, B )] = E q (cid:20)(cid:12)(cid:12)(cid:12) ˆ g ( x, B ) − ˆ f ( x ) (cid:12)(cid:12)(cid:12) (cid:21) = V q " b m X i =1 ( F i ( x )) Z i == 1 b  m X i =1 ( F i ( x )) V q [ Z i ] + 2 m X i =1 m X j = i +1 ( F i ( x ) F j ( x )) Cov( Z i , Z j )  , а суммирование по пустому множеству индексов приравнено к нулю. Z i , i ∈ , m распределены по Бер-нулли, поэтому V q и Cov определены следующим образом: ( V q [ Z i ] = bm (cid:0) − bm (cid:1) ;Cov( Z i , Z j ) = E q [ Z i Z j ] − E q [ Z i ] E q [ Z j ] = C b − m − C bm − (cid:0) bm (cid:1) = b ( b − m ( m − − (cid:0) bm (cid:1) . Подставим полученные значения в выражение V q [ˆ g ( x, B )] : V q [ˆ g ( x, B )] = 1 b  m X i =1 ( F i ( x )) V q [ Z i ] + 2 m X i =1 m X j = i +1 ( F i ( x ) F j ( x )) Cov( Z i , Z j )  == 1 b  m X i =1 ( F i ( x )) bm (cid:18) − bm (cid:19) + 2 m X i =1 m X j = i +1 ( F i ( x ) F j ( x )) b ( b − m ( m − − (cid:18) bm (cid:19) ! == ( m − b ) mb  m m X i =1 ( F i ( x )) − m ( m − m X i =1 m X j = i +1 ( F i ( x ) F j ( x ))  == 1 b (cid:18) − bm (cid:19)  m − m X i =1 ( F i ( x )) − ˆ f ( x ) !  = ( σ ( x )) b (cid:18) − bm (cid:19) . Введём ˜ σ def = σ q mm − , тогда получается E q (cid:20)(cid:12)(cid:12)(cid:12) ˆ g ( x, B ) − ˆ f ( x ) (cid:12)(cid:12)(cid:12) (cid:21) = ( σ ( x )) b (cid:18) − bm (cid:19) ≤ mσ b ( m − (cid:18) − bm (cid:19) = ˜ σ b (cid:18) − bm (cid:19) , ∀ x ∈ E . ледствие 11.1. Выведенная оценка также обобщается на случай бесконечной генеральной совокупно-сти, соответствующая этому случаю оценка совпадает с оценкой, получаемой при независимом сэм-плировании с возвращением из генеральной совокупности произвольного размера: E q (cid:20)(cid:12)(cid:12)(cid:12) ˆ g ( x, B ) − ˆ f ( x ) (cid:12)(cid:12)(cid:12) (cid:21) ≤ lim m → + ∞ (cid:20) ˜ σ b (cid:18) − bm (cid:19)(cid:21) = ˜ σ b , ∀ x ∈ E . Эту оценку можно вывести непосредственно: V q [ˆ g ( x, B )] = V q  b b X j =1 (cid:0) F i j ( x ) (cid:1)  = 1 b b X j =1 V q h(cid:0) F i j ( x ) (cid:1) i ≤ σ b ≤ ˜ σ b , при этом lim m → + ∞ [˜ σ ] = σ . Следствие 11.2.

Из условий леммы следует ограниченность математического ожидания модуля (cid:12)(cid:12)(cid:12) ˆ g ( x, B ) − ˆ f ( x ) (cid:12)(cid:12)(cid:12) при всех x ∈ E : E q h(cid:12)(cid:12)(cid:12) ˆ g ( x, B ) − ˆ f ( x ) (cid:12)(cid:12)(cid:12)i = E q "r(cid:12)(cid:12)(cid:12) ˆ g ( x, B ) − ˆ f ( x ) (cid:12)(cid:12)(cid:12) ≤ s E q (cid:20)(cid:12)(cid:12)(cid:12) ˆ g ( x, B ) − ˆ f ( x ) (cid:12)(cid:12)(cid:12) (cid:21) ≤ ˜ σ r b − m . Лемма 12.

Пусть выполнены предположения 3 и 6 и дана последовательность { x k − } k ∈ N , x k − ∈ E ,вычисляемая по одному из правил: (15) , (16) , (17) . При независимом сэмплировании без возвращениябатчей B k − ⊆ B , | B k − | = b из равномерного распределения q на подмножества B k − для каждого k ∈ N имеет место следующее неравенство: E h(cid:12)(cid:12)(cid:12) ˆ f ( x k ) − ˆ g ( x k , B k − ) (cid:12)(cid:12)(cid:12)i ≤ l ˆ F E [ k x k − x k − k ] { b

При | B k − | = m, k ∈ N или при полностью детерминированном вычислении x k отно-сительно (при условии) ( x k − , B k − ) значение E h(cid:12)(cid:12)(cid:12) ˆ f ( x k ) − ˆ g ( x k , B k − ) (cid:12)(cid:12)(cid:12)i = 0 Стоит также заметить, что согласно леммам 12 и 11 оценка ˆ f ( x k ) , полученная на ( k − –ой итерациив виде ˆ g ( x k , B k − ) менее точна, чем ˆ g ( x k , B k ) , и явно зависит от расстояния между x k и x k − . Этонаблюдение перекликается с оценками неопределённости в теории случайных процессов, что наводит нанеобходимость проверки гипотезы о пользе масштабирования шага на каждой итерации с помощью η k дляполучения более точного и быстрого решения задачи (5).В следующей лемме выведено представление ˆ ψ x k ,L k ,τ k ( y, B k ) относительно точки x k +1 , которая при η k = 1 является точкой глобального минимума функции ˆ ψ x k ,L k ,τ k ( · , B k ) , это представление непосредствен-но можно использовать для анализа сходимости метода трёх квадратов в случае поиска x k +1 не просто врамках стохастической оптимизации, но ещё и при использовании неточного проксимального отображе-ния (следствие 13.1). Лемма 13.

Пусть выполнено предположение 3 и дана последовательность { x k } k ∈ Z + , x k ∈ E , вычисля-емая по правилу (15) с τ k > , L k > , B k ⊆ B , η k ∈ (0 , . Тогда для произвольного y ∈ E верно ˆ ψ x k ,L k ,τ k ( y, B k ) = ˆ ψ x k ,L k ,τ k ( x k +1 , B k ) + L k k y − x k +1 k ++ 12 τ k (cid:13)(cid:13)(cid:13) ˆ G ′ ( x k , B k )( y − x k +1 ) (cid:13)(cid:13)(cid:13) + 1 − η k τ k h y − x k +1 , ∇ x k ˆ g ( x k , B k ) i . Доказательство.

Перепишем ˆ ψ x k ,L k ,τ k ( y, B k ) : ˆ ψ x k ,L k ,τ k ( y, B k ) = τ k L k k y − x k k + 12 τ k (cid:13)(cid:13)(cid:13) ˆ G ( x k , B k ) + ˆ G ′ ( x k , B k )( y − x k ) (cid:13)(cid:13)(cid:13) = τ k L k k ( y − x k +1 ) + ( x k +1 − x k ) k + 12 τ k (cid:13)(cid:13)(cid:13) ˆ G ( x k , B k ) + ˆ G ′ ( x k , B k )(( y − x k +1 ) + ( x k +1 − x k )) (cid:13)(cid:13)(cid:13) == τ k L k k y − x k +1 k + L k h y − x k +1 , x k +1 − x k i + L k k x k +1 − x k k ++ 12 τ k (cid:13)(cid:13)(cid:13)(cid:16) ˆ G ( x k , B k ) + ˆ G ′ ( x k , B k )( x k +1 − x k ) (cid:17) + ˆ G ′ ( x k , B k )( y − x k +1 ) (cid:13)(cid:13)(cid:13) == (cid:18) τ k L k k x k +1 − x k k + 12 τ k (cid:13)(cid:13)(cid:13) ˆ G ( x k , B k ) + ˆ G ′ ( x k , B k )( x k +1 − x k ) (cid:13)(cid:13)(cid:13) (cid:19) + L k k y − x k +1 k ++ h y − x k +1 , L k ( x k +1 − x k ) i + 1 τ k D ˆ G ′ ( x k , B k )( y − x k +1 ) , ˆ G ( x k , B k ) + ˆ G ′ ( x k , B k )( x k +1 − x k ) E ++ 12 τ k (cid:13)(cid:13)(cid:13) ˆ G ′ ( x k , B k )( y − x k +1 ) (cid:13)(cid:13)(cid:13) = ˆ ψ x k ,L k ,τ k ( x k +1 , B k ) + L k k y − x k +1 k + 12 τ k (cid:13)(cid:13)(cid:13) ˆ G ′ ( x k , B k )( y − x k +1 ) (cid:13)(cid:13)(cid:13) + * y − x k +1 , L k ( x k +1 − x k ) + 1 τ k ˆ G ′ ( x k , B k ) ∗ (cid:16) ˆ G ( x k , B k ) + ˆ G ′ ( x k , B k )( x k +1 − x k ) (cid:17)| {z } = ∇ xk +1 ˆ ψ xk,Lk,τk ( x k +1 ,B k ) + = ˆ ψ x k ,L k ,τ k ( x k +1 , B k )++ L k k y − x k +1 k + 12 τ k (cid:13)(cid:13)(cid:13) ˆ G ′ ( x k , B k )( y − x k +1 ) (cid:13)(cid:13)(cid:13) ++ 12 τ k D y − x k +1 , (cid:16)(cid:16) τ k L k I n + ˆ G ′ ( x k , B k ) ∗ ˆ G ′ ( x k , B k ) (cid:17) ( x k +1 − x k ) + ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) (cid:17)E == (cid:26) x k +1 − x k = − η k (cid:16) ˆ G ′ ( x k , B k ) ∗ ˆ G ′ ( x k , B k ) + τ k L k I n (cid:17) − ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) (cid:27) = ˆ ψ x k ,L k ,τ k ( x k +1 , B k )++ L k k y − x k +1 k + 12 τ k (cid:13)(cid:13)(cid:13) ˆ G ′ ( x k , B k )( y − x k +1 ) (cid:13)(cid:13)(cid:13) + 12 τ k D y − x k +1 , (1 − η k ) (cid:16) G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) (cid:17)E == ˆ ψ x k ,L k ,τ k ( x k +1 , B k ) + L k k y − x k +1 k + 12 τ k (cid:13)(cid:13)(cid:13) ˆ G ′ ( x k , B k )( y − x k +1 ) (cid:13)(cid:13)(cid:13) + 1 − η k τ k h y − x k +1 , ∇ x k ˆ g ( x k , B k ) i . Следствие 13.1.

При η k = 1 полученное представление ˆ ψ x k ,L k ,τ k ( y, B k ) относительно точки глобальногоминимума x k +1 позволяет оценить, насколько y ∈ E близок к глобальному минимуму (достигается на x k +1 при η k = 1 ). А разность ˆ ψ x k ,L k ,τ k ( y, B k ) − ˆ ψ x k ,L k ,τ k ( x k +1 , B k ) позволяет оценить точность прибли-жённого поиска глобального минимума на k –ой итерации, если ˆ x k +1 ∈ E обозначить за приближённоезначение x k +1 , полученное с погрешностью ε k > по значению локальной модели: ≤ ˆ ψ x k ,L k ,τ k (ˆ x k +1 , B k ) − ˆ ψ x k ,L k ,τ k ( x k +1 , B k ) = L k k ˆ x k +1 − x k +1 k + 12 τ k (cid:13)(cid:13)(cid:13) ˆ G ′ ( x k , B k )(ˆ x k +1 − x k +1 ) (cid:13)(cid:13)(cid:13) ≤ ε k ,x k +1 = ˆ T L k ,τ k ( x k , B k ) . Следствие 13.2.

В детерминированном случае при выполнении условий леммы ( ˆ G ( x, B ) = ˆ F ( x ) , x ∈ E )представление ψ x k ,L k ,τ k ( y ) , y ∈ E выглядит аналогично: ψ x k ,L k ,τ k ( y ) = ψ x k ,L k ,τ k ( x k +1 ) + L k k y − x k +1 k + 12 τ k (cid:13)(cid:13)(cid:13) ˆ F ′ ( x k )( y − x k +1 ) (cid:13)(cid:13)(cid:13) + 1 − η k τ k D y − x k +1 , ∇ ˆ f ( x k ) E . В оценках из лемм 12 и 13 явно фигурируют выражения вида норма разности значений x k , взятых насоседних итерациях. Для понимания процесса оптимизации в классе методов Гаусса–Ньютона важно иметьпредставление о множестве значений этого выражения, и следующая лемма предоставляет необходимуюинформацию об отрезке значений данного выражения. Лемма 14.

При выполнении предположений 3 и 4 для последовательности { x k } k ∈ Z + , вычисляемой поправилу (15) , τ k = ˆ g ( x k , B k ) , η k ∈ (0 , , L k > , верна ограниченность вариации членов: k x k +1 − x k k ∈  η k k∇ x k ˆ g ( x k , B k ) k (cid:16) M G + ˆ g ( x k , B k ) L k (cid:17) , min s g ( x k , B k ) L k , η k M ˆ G L k  , k ∈ Z + . В случае использования правила (16) отрезок значений k x k +1 − x k k выглядит следующим образом: k x k +1 − x k k ∈  η k k∇ x k ˆ g ( x k , B k ) k (cid:16) M G + ˜ τ k L k (cid:17) , η k M ˆ G ˆ g ( x k , B k )˜ τ k L k  , k ∈ Z + . Доказательство.

Согласно правилу построения последовательности (15), положим ˜ B k = B k , ˜ τ k = τ k : k x k +1 − x k k = (cid:13)(cid:13)(cid:13)(cid:13) − η k (cid:16) ˆ G ′ ( x k , ˜ B k ) ∗ ˆ G ′ ( x k , ˜ B k ) + ˜ τ k L k I n (cid:17) − ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) (cid:13)(cid:13)(cid:13)(cid:13) == η k (cid:13)(cid:13)(cid:13)(cid:13)(cid:13)(cid:13)(cid:13)(cid:13)(cid:16) ˆ G ′ ( x k , ˜ B k ) ∗ ˆ G ′ ( x k , ˜ B k ) + ˜ τ k L k I n (cid:17) − | {z } симметричная матрица ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) (cid:13)(cid:13)(cid:13)(cid:13)(cid:13)(cid:13)(cid:13)(cid:13) = η k (cid:18)(cid:28)(cid:16) ˆ G ′ ( x k , ˜ B k ) ∗ ˆ G ′ ( x k , ˜ B k ) + ˜ τ k L k I n (cid:17) − ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) , ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) (cid:29)(cid:19) == n ∇ x k ˆ g ( x k , B k ) = 2 ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) o == η k s(cid:28)(cid:16) ˆ G ′ ( x k , ˜ B k ) ∗ ˆ G ′ ( x k , ˜ B k ) + ˜ τ k L k I n (cid:17) − ∇ x k ˆ g ( x k , B k ) , ∇ x k ˆ g ( x k , B k ) (cid:29) ≥ { предположение 4, (67) } ≥≥ η k k∇ x k ˆ g ( x k , B k ) k (cid:16) M G + ˜ τ k L k (cid:17) ≥ { ˜ τ k = ˆ g ( x k , B k ) } ≥ η k k∇ x k ˆ g ( x k , B k ) k (cid:16) M G + ˆ g ( x k , B k ) L k (cid:17) . (72)Полученные формулы выше применимы и для правила (16), что позволяет установить нижнюю границузначений k x k +1 − x k k при построении { x k } k ∈ Z + с помощью правила (16). Теперь выведем оценку сверху: ˆ ψ x k ,L k , ˆ g ( x k ,B k ) ( x k , B k ) = ˆ g ( x k , B k ) = { лемма 13 } = ˆ ψ x k ,L k , ˆ g ( x k ,B k ) ( x k +1 , B k ) + L k k x k − x k +1 k ++ 12ˆ g ( x k , B k ) (cid:13)(cid:13)(cid:13) ˆ G ′ ( x k , B k )( x k − x k +1 ) (cid:13)(cid:13)(cid:13) + 1 − η k g ( x k , B k ) h x k − x k +1 , ∇ x k ˆ g ( x k , B k ) i == ˆ ψ x k ,L k , ˆ g ( x k ,B k ) ( x k +1 , B k ) + L k k x k − x k +1 k + 12ˆ g ( x k , B k ) (cid:13)(cid:13)(cid:13) ˆ G ′ ( x k , B k )( x k − x k +1 ) (cid:13)(cid:13)(cid:13) ++ (1 − η k ) η k g ( x k , B k ) (cid:28)(cid:16) ˆ G ′ ( x k , B k ) ∗ ˆ G ′ ( x k , B k ) + τ k L k I n (cid:17) − ∇ x k ˆ g ( x k , B k ) , ∇ x k ˆ g ( x k , B k ) (cid:29) ≥ . (73)Из выражения выше следует неравенство: ˆ g ( x k , B k ) ≥ ˆ g ( x k , B k ) − ˆ ψ x k ,L k , ˆ g ( x k ,B k ) ( x k +1 , B k ) ≥ L k k x k +1 − x k k ⇒ k x k +1 − x k k ≤ s g ( x k , B k ) L k . Также существует другая оценка сверху, положим ˜ B k = B k , ˜ τ k = τ k : k x k +1 − x k k = (cid:13)(cid:13)(cid:13)(cid:13) − η k (cid:16) ˆ G ′ ( x k , ˜ B k ) ∗ ˆ G ′ ( x k , ˜ B k ) + ˜ τ k L k I n (cid:17) − ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) (cid:13)(cid:13)(cid:13)(cid:13) == η k * (cid:16) ˆ G ′ ( x k , ˜ B k ) ∗ ˆ G ′ ( x k , ˜ B k ) + ˜ τ k L k I n (cid:17) − | {z } здесь ˜ B k можно независимо сэмплировать от B k ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) , ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) + ≤≤ η k ˜ τ k L k (cid:13)(cid:13)(cid:13) ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) (cid:13)(cid:13)(cid:13) ≤ η k ˜ τ k L k (cid:13)(cid:13)(cid:13) ˆ G ′ ( x k , B k ) ∗ (cid:13)(cid:13)(cid:13) (cid:13)(cid:13)(cid:13) ˆ G ( x k , B k ) (cid:13)(cid:13)(cid:13) ≤ η k M ˆ G ˆ g ( x k , B k )˜ τ k L k = η k M ˆ G L k . (74)Выражения в (74) применимы и для правила (16), благодаря чему устанавливается верхняя граница от-резка k x k +1 − x k k при использовании правила (16). Следствие 14.1.

В случае τ k ∈ [ τ, T ] , τ ∈ (0 , T ] , L k ∈ (cid:2) L, ˜ γL ˆ F (cid:3) , L ∈ (cid:0) , ˜ γL ˆ F (cid:3) , ˜ γ ≥ и при выполнениипредположения 5 отрезок значений k x k +1 − x k k принимает следующие значения: k x k +1 − x k k ∈  η k k∇ x k ˆ g ( x k , B k ) k (cid:16) M G + ˜ γ T L ˆ F (cid:17) , min vuut L T + P g τ ! , η k M ˆ G P ˆ g τ k L k  . Нижняя граница получается из (72) в силу монотонного убывания по τ k L k . Верхняя граница η k M ˆ G P ˆ g τ k L k выводится как верхняя оценка выражения (74) по предположениям 4 и 5. Верхняя граница vuut L T + P g τ ! выводится из представления (73) для локальной модели ˆ ψ x k ,L k ,τ k ( · , B k ) в рамках предположения 5: T P g τ ≥ ˆ ψ x k ,L k ,τ k ( x k , B k ) = τ k g ( x k , B k )2 τ k ≥ L k k x k +1 − x k k ≥ L k x k +1 − x k k . ледствие 14.2. При дополнительном выполнении предположения 5 и L k ∈ [ L, γL ˆ F ] , L ∈ (0 , γL ˆ F ] , γ ≥ ограничение на возможные значения k x k +1 − x k k преобразуется следующим образом: k x k +1 − x k k ∈  η k k∇ x k ˆ g ( x k , B k ) k (cid:16) M G + γP ˆ g L ˆ F (cid:17) , min (r P ˆ g L , η k M ˆ G L ) , k ∈ Z + . Следствие 14.3.

В детерминированном случае при ˆ G ( x k , B k ) = ˆ F ( x k ) , B k = B и τ k = ˆ f ( x k ) оценка навариацию построенной с помощью правила из следствия 10.3 последовательности { x k } k ∈ Z + следующая: k x k +1 − x k k ∈  η k (cid:13)(cid:13)(cid:13) ∇ ˆ f ( x k ) (cid:13)(cid:13)(cid:13) (cid:16) M F + ˆ f ( x k ) L k (cid:17) , min s f ( x k ) L k , η k M ˆ G L k  , k ∈ Z + . Следствие 14.4.

При постоянном η k = η = const , < L k ≤ γL ˆ F , γ ≥ , k ∈ Z + и в рамках предположе-ний 3, 4 и 5 нижняя граница k x k +1 − x k k пропорциональна норме градиента и может быть использованав качестве критерия останова для достижения нормой градиента уровня ǫ > : E h(cid:13)(cid:13)(cid:13) ∇ ˆ f ( x k ) (cid:13)(cid:13)(cid:13)i ≤ s E (cid:20)(cid:13)(cid:13)(cid:13) ∇ ˆ f ( x k ) (cid:13)(cid:13)(cid:13) (cid:21) ≤ r E h E h k∇ x k ˆ g ( x k , B k ) k ii = r E h k∇ x k ˆ g ( x k , B k ) k i ≤≤ (cid:16) M G + γP ˆ g L ˆ F (cid:17) η r E h k x k +1 − x k k i ≤ ǫ, то есть E [ k x k +1 − x k k ] ≤ r E h k x k +1 − x k k i ≤ ǫη (cid:16) M G + γP ˆ g L ˆ F (cid:17) , где усреднение ведётся по всей стохастике метода (выбор батчей на каждой итерации и начальногоприближения). В следующей лемме устанавливается липшицевость градиентов ограниченных функций ˆ f и ˆ g . Лемма 15.

Пусть выполнены предположения 4, 5, 8. Тогда функция ˆ g обладает липшицевым градиен-том с верхней оценкой постоянной Липшица l ˆ g = 2 (cid:16) M G + L ˆ F P ˆ g (cid:17) .Доказательство. Вычислим l ˆ g — верхнюю оценку на лучшую (наименьшую) постоянную Липшица дляпроизвольных ( x, y ) ∈ E и B ⊆ B : k∇ y ˆ g ( y, B ) − ∇ x ˆ g ( x, B ) k = (cid:13)(cid:13)(cid:13) G ′ ( y, B ) ∗ ˆ G ( y, B ) − G ′ ( x, B ) ∗ ˆ G ( x, B ) (cid:13)(cid:13)(cid:13) == 2 (cid:13)(cid:13)(cid:13)(cid:16) ˆ G ′ ( y, B ) ∗ ˆ G ( y, B ) − ˆ G ′ ( x, B ) ∗ ˆ G ( y, B ) (cid:17) + (cid:16) ˆ G ′ ( x, B ) ∗ ˆ G ( y, B ) − ˆ G ′ ( x, B ) ∗ ˆ G ( x, B ) (cid:17)(cid:13)(cid:13)(cid:13) ≤≤ (cid:16)(cid:13)(cid:13)(cid:13) ˆ G ′ ( y, B ) ∗ ˆ G ( y, B ) − ˆ G ′ ( x, B ) ∗ ˆ G ( y, B ) (cid:13)(cid:13)(cid:13) + (cid:13)(cid:13)(cid:13) ˆ G ′ ( x, B ) ∗ ˆ G ( y, B ) − ˆ G ′ ( x, B ) ∗ ˆ G ( x, B ) (cid:13)(cid:13)(cid:13)(cid:17) ≤≤ (cid:16)(cid:13)(cid:13)(cid:13) ˆ G ′ ( y, B ) ∗ − ˆ G ′ ( x, B ) ∗ (cid:13)(cid:13)(cid:13) (cid:13)(cid:13)(cid:13) ˆ G ( y, B ) (cid:13)(cid:13)(cid:13) + (cid:13)(cid:13)(cid:13) ˆ G ′ ( x, B ) ∗ (cid:13)(cid:13)(cid:13) (cid:13)(cid:13)(cid:13) ˆ G ( y, B ) − ˆ G ( x, B ) (cid:13)(cid:13)(cid:13)(cid:17) ≤≤ (cid:0) L ˆ F k y − x k P ˆ g + M G k y − x k (cid:1) ≤ (cid:0) (cid:0) L ˆ F P ˆ g + M G (cid:1)(cid:1) k y − x k ⇒ l ˆ g = 2 (cid:0) L ˆ F P ˆ g + M G (cid:1) . В доказательстве использована липшицевость отображения ˆ G : (cid:13)(cid:13)(cid:13) ˆ G ( y, B ) − ˆ G ( x, B ) (cid:13)(cid:13)(cid:13) = (cid:13)(cid:13)(cid:13)(cid:13)(cid:13)(cid:13) Z ˆ G ′ ( x + t ( y − x ) , B )( y − x ) d t (cid:13)(cid:13)(cid:13)(cid:13)(cid:13)(cid:13) ≤ Z (cid:13)(cid:13)(cid:13) ˆ G ′ ( x + t ( y − x ) , B ) (cid:13)(cid:13)(cid:13) k y − x k d t ≤≤ M ˆ G k y − x k . Следствие 15.1.

В случае B = B функция ˆ f обладает липшицевым градиентом и значение оценкипостоянной Липшица равно l ˆ f def = 2 (cid:16) M F + L ˆ F P ˆ f (cid:17) .

78 лемме ниже выводится локальная модель квадрата оптимизируемого функционала, используемая всхеме с сэмплированием двух батчей на каждом шаге метода.

Лемма 16.

Пусть выполнены предположения 4, 5, 8. Тогда существует следующая стохастическаялокальная модель для функции ˆ g : ˆ g ( y, B ) ≤ ˆ ϕ x,l ( y, B ) = ˆ g ( x, B ) + h∇ x ˆ g ( x, B ) , y − x i + l k y − x k , ∀ l ≥ l ˆ g , ∀ ( x, y ) ∈ E , ∀ B ⊆ B . Доказательство.

Рассмотрим верхнюю оценку на ˆ g ( x, B ) для произвольных ( x, y ) ∈ E и B ⊆ B : ˆ g ( y, B ) = ˆ g ( y, B ) − ˆ g ( x, B ) − h∇ x ˆ g ( x, B ) , y − x i + ˆ g ( x, B ) + h∇ x ˆ g ( x, B ) , y − x i ≤≤ ˆ g ( x, B ) + h∇ x ˆ g ( x, B ) , y − x i + | ˆ g ( y, B ) − ˆ g ( x, B ) − h∇ x ˆ g ( x, B ) , y − x i| == ˆ g ( x, B ) + h∇ x ˆ g ( x, B ) , y − x i ++ (cid:12)(cid:12)(cid:12)(cid:12)(cid:12)(cid:12) Z (cid:10) ∇ x + t ( y − x ) ˆ g ( x + t ( y − x ) , B ) , y − x (cid:11) d t − h∇ x ˆ g ( x, B ) , y − x i (cid:12)(cid:12)(cid:12)(cid:12)(cid:12)(cid:12) == ˆ g ( x, B ) + h∇ x ˆ g ( x, B ) , y − x i + (cid:12)(cid:12)(cid:12)(cid:12)(cid:12)(cid:12) Z (cid:10) ∇ x + t ( y − x ) ˆ g ( x + t ( y − x ) , B ) − ∇ x ˆ g ( x, B ) , y − x (cid:11) d t (cid:12)(cid:12)(cid:12)(cid:12)(cid:12)(cid:12) ≤≤ ˆ g ( x, B ) + h∇ x ˆ g ( x, B ) , y − x i + Z (cid:12)(cid:12)(cid:10) ∇ x + t ( y − x ) ˆ g ( x + t ( y − x ) , B ) − ∇ x ˆ g ( x, B ) , y − x (cid:11)(cid:12)(cid:12) d t ≤≤ ˆ g ( x, B ) + h∇ x ˆ g ( x, B ) , y − x i + Z (cid:13)(cid:13) ∇ x + t ( y − x ) ˆ g ( x + t ( y − x ) , B ) − ∇ x ˆ g ( x, B ) (cid:13)(cid:13) k y − x k d t ≤≤ ˆ g ( x, B ) + h∇ x ˆ g ( x, B ) , y − x i + Z tl ˆ g k y − x k d t == ˆ g ( x, B ) + h∇ x ˆ g ( x, B ) , y − x i + l ˆ g k y − x k | {z } = ˆ ϕ x,l ˆ g ( y,B ) ≤≤ ˆ g ( x, B ) + h∇ x ˆ g ( x, B ) , y − x i + l k y − x k , l ≥ l ˆ g . Следствие 16.1.

В случае B = B локальная модель ˆ g становится локальной моделью функции ˆ f : ˆ f ( y ) ≤ ϕ x,l ( y ) def = ˆ f ( x ) + D ∇ ˆ f ( x ) , y − x E + l k y − x k , ∀ l ≥ l ˆ f , ∀ ( x, y ) ∈ E . Следующая лемма описывает количественно убывание стохастической локальной модели при исполь-зовании правила (16) вычисления приближения решения x k +1 задачи (5). Лемма 17.

Пусть выполнены предположения 4, 5 и 8. Рассмотрим правило вычисления x k +1 (16) врамках схемы 4. Тогда на каждом шаге метода Гаусса–Ньютона существует фактор шага η k ≥ , длякоторого верно следующее соотношение: ˆ g ( x k +1 , B k ) ≤ ˆ g ( x k , B k ) − (cid:18)(cid:28) ∇ x ˆ g ( x k , B k ) , (cid:16) ˆ G ′ ( x k , ˜ B k ) ∗ ˆ G ′ ( x k , ˜ B k ) + ˜ τ k L k I n (cid:17) − ∇ x ˆ g ( x k , B k ) (cid:29)(cid:19) l k (cid:28) ∇ x ˆ g ( x k , B k ) , (cid:16) ˆ G ′ ( x k , ˜ B k ) ∗ ˆ G ′ ( x k , ˜ B k ) + ˜ τ k L k I n (cid:17) − ∇ x ˆ g ( x k , B k ) (cid:29) ,k ∈ Z + . оказательство. Выпишем стохастическую локальную модель функции ˆ g в точке x k +1 относительно x k (лемма 16) и прооптимизируем её по η k ≥ : ˆ g ( x k +1 , B k ) ≤ ˆ ϕ x k ,l k ( x k +1 , B k ) = ˆ g ( x k , B k ) + h∇ x k ˆ g ( x k , B k ) , x k +1 − x k i + l k k x k +1 − x k k == { правило (16) } = ˆ g ( x k , B k ) −− η k (cid:28) ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) , (cid:16) ˆ G ′ ( x k , ˜ B k ) ∗ ˆ G ′ ( x k , ˜ B k ) + ˜ τ k L k I n (cid:17) − ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) (cid:29) ++ η k l k (cid:13)(cid:13)(cid:13)(cid:13)(cid:16) ˆ G ′ ( x k , ˜ B k ) ∗ ˆ G ′ ( x k , ˜ B k ) + ˜ τ k L k I n (cid:17) − ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) (cid:13)(cid:13)(cid:13)(cid:13) → min η k ≥ . Правая часть неравенства выше является параболой по η k с ветвями, направленными вверх, у которойминимум достигается в точке вершины: η k = 2 (cid:28) ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) , (cid:16) ˆ G ′ ( x k , ˜ B k ) ∗ ˆ G ′ ( x k , ˜ B k ) + ˜ τ k L k I n (cid:17) − ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) (cid:29) l k (cid:28) ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) , (cid:16) ˆ G ′ ( x k , ˜ B k ) ∗ ˆ G ′ ( x k , ˜ B k ) + ˜ τ k L k I n (cid:17) − ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) (cid:29) ≥ , k ∈ Z + . Подставляя это значение в стохастическую локальную модель, получаем искомую оценку: ˆ g ( x k +1 , B k ) ≤ ˆ g ( x k , B k ) −− (cid:18)(cid:28) ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) , (cid:16) ˆ G ′ ( x k , ˜ B k ) ∗ ˆ G ′ ( x k , ˜ B k ) + ˜ τ k L k I n (cid:17) − ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) (cid:29)(cid:19) l k (cid:28) ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) , (cid:16) ˆ G ′ ( x k , ˜ B k ) ∗ ˆ G ′ ( x k , ˜ B k ) + ˜ τ k L k I n (cid:17) − ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) (cid:29)| {z } ≥ ⇒⇒ ˆ g ( x k +1 , B k ) ≤ ˆ g ( x k , B k ) −− (cid:18)(cid:28) ∇ x ˆ g ( x k , B k ) , (cid:16) ˆ G ′ ( x k , ˜ B k ) ∗ ˆ G ′ ( x k , ˜ B k ) + ˜ τ k L k I n (cid:17) − ∇ x ˆ g ( x k , B k ) (cid:29)(cid:19) l k (cid:28) ∇ x ˆ g ( x k , B k ) , (cid:16) ˆ G ′ ( x k , ˜ B k ) ∗ ˆ G ′ ( x k , ˜ B k ) + ˜ τ k L k I n (cid:17) − ∇ x ˆ g ( x k , B k ) (cid:29) , k ∈ Z + . В следующей лемме используются условие слабого роста и условие Поляка–Лоясиевича для выводаграниц значений квадрата нормы градиента.

Лемма 18.

Пусть выполнены предположения 4 и 7. Тогда квадрат нормы градиента функции ˆ g огра-ничен с двух сторон значением функции ˆ g : µ ˆ g ( x, B ) ≤ k∇ x ˆ g ( x, B ) k ≤ M G ˆ g ( x, B ) , ∀ x ∈ E , ∀ B ⊆ B . Доказательство.

Условия 4 и 7 задают следующие неравенства на норму градиента: µ ˆ g ( x, B ) ≤ { предположение 7 } ≤ (cid:13)(cid:13)(cid:13) ˆ G ′ ( x, B ) ∗ ˆ G ( x, B ) (cid:13)(cid:13)(cid:13) = k∇ x ˆ g ( x, B ) k ≤≤ (cid:13)(cid:13)(cid:13) ˆ G ′ ( x, B ) (cid:13)(cid:13)(cid:13) (cid:13)(cid:13)(cid:13) ˆ G ( x, B ) (cid:13)(cid:13)(cid:13) ≤ { предположение 4 } ≤≤ M G ˆ g ( x, B ) , ∀ x ∈ E , ∀ B ⊆ B ⇒ µ ≤ M G , µ ˆ g ( x, B ) ≤ k∇ x ˆ g ( x, B ) k . (75) Следствие 18.1.

При усреднении по батчам B квадрата нормы градиента ˆ g выполнено следующеенеравенство: µ ˆ f ( x ) ≤ E B h k∇ x ˆ g ( x, B ) k i ≤ M G ˆ f ( x ) , ∀ x ∈ E . сновные утверждения Теорема 10 устанавливает условия сходимости к окрестности стационарной точки относительно сред-него минимального квадрата нормы градиента функции ˆ f . Теорема 10.

Теорема 11.

Пусть выполнены предположения 3, 4, 5, 6, 7. Рассмотрим метод Гаусса–Ньютона со схе-мой реализации 3, в котором последовательность { x k } k ∈ Z + вычисляется по правилу (15) с τ k = ˆ g ( x k , B k ) , η k ∈ [ η, , η ∈ (0 , . Тогда:  E (cid:20)(cid:13)(cid:13)(cid:13) ∇ ˆ f ( x k ) (cid:13)(cid:13)(cid:13) (cid:21) ≤ M G ∆ k,b ; E h ˆ f ( x k ) i ≤ ˆ f ∗ + ∆ k,b ;∆ k,b def = E h ˆ f ( x ) i exp − kη (2 − η ) µ (cid:0) γL ˆ F P ˆ g + µ (cid:1) ! ++ 4 l ˆ F min (r P ˆ g L , M ˆ G L ) { b } , k ∈ Z + . (83)Теперь свяжем оценку на a k с оценкой на ˆ f ( x k ) : ˆ f ( x k ) − ˆ f ∗ = ˆ f ( x k ) − ˆ g ( x k , B k − ) + ˆ g ( x k , B k − ) − ˆ f ∗ ≤ (cid:12)(cid:12)(cid:12) ˆ f ( x k ) − ˆ g ( x k , B k − ) (cid:12)(cid:12)(cid:12) + ˆ g ( x k , B k − ) − ˆ f ∗ ⇒⇒ E h ˆ f ( x k ) − ˆ f ∗ i ≤ E h(cid:12)(cid:12)(cid:12) ˆ f ( x k ) − ˆ g ( x k , B k − ) (cid:12)(cid:12)(cid:12)i + E h ˆ g ( x k , B k − ) − ˆ f ∗ i ≤≤ { по лемме 12 и следствию 14.2 , η k ≤ } ≤≤ l ˆ F min (r P ˆ g L , M ˆ G L ) { b } ≤ l ˆ F min (r P ˆ g L , M ˆ G L ) { b } = a q k + c (cid:18) q (cid:18) − q k − − q (cid:19) { k> } (cid:19) , k ∈ Z + . Из получившегося выражения выводится оценка на E h ˆ f ( x k ) i : E h ˆ f ( x k ) i ≤ ˆ f ∗ + a q k + c (cid:18) q (cid:18) − q k − − q (cid:19) { k> } (cid:19) , k ∈ Z + . (84)Выведем оценку на средний квадрат нормы градиента: E (cid:20)(cid:13)(cid:13)(cid:13) ∇ ˆ f ( x k ) (cid:13)(cid:13)(cid:13) (cid:21) ≤ E h E h k∇ x k ˆ g ( x k , B k ) k ii = E (cid:20)(cid:13)(cid:13)(cid:13) G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) (cid:13)(cid:13)(cid:13) (cid:21) ≤≤ E (cid:20)(cid:13)(cid:13)(cid:13) ˆ G ′ ( x k , B k ) ∗ (cid:13)(cid:13)(cid:13) (cid:13)(cid:13)(cid:13) ˆ G ( x k , B k ) (cid:13)(cid:13)(cid:13) (cid:21) ≤ { предположение 4 } ≤ M G E [ˆ g ( x k , B k )] . Рассмотрим следующее выражение: ˆ g ( x k , B k ) − ˆ f ∗ = ˆ g ( x k , B k ) − ˆ f ( x k ) + ˆ f ( x k ) − ˆ g ( x k , B k − ) + ˆ g ( x k , B k − ) − ˆ f ∗ ≤ (cid:12)(cid:12)(cid:12) ˆ g ( x k , B k ) − ˆ f ( x k ) (cid:12)(cid:12)(cid:12) ++ (cid:12)(cid:12)(cid:12) ˆ f ( x k ) − ˆ g ( x k , B k − ) (cid:12)(cid:12)(cid:12) + (cid:16) ˆ g ( x k , B k − ) − ˆ f ∗ (cid:17) ⇒ E h ˆ g ( x k , B k ) − ˆ f ∗ i ≤ E h(cid:12)(cid:12)(cid:12) ˆ g ( x k , B k ) − ˆ f ( x k ) (cid:12)(cid:12)(cid:12)i + E h(cid:12)(cid:12)(cid:12) ˆ f ( x k ) − ˆ g ( x k , B k − ) (cid:12)(cid:12)(cid:12)i + E h ˆ g ( x k , B k − ) − ˆ f ∗ i ≤ { следствие 11.2 и лемма 12 } ≤ ˜ σ r b − m ++ 2 l ˆ F E [ k x k − x k − k ] { b } (cid:19) , k ∈ Z + . (85)В силу, вообще говоря, возможности использования произвольной неотрицательной величины вместо ˆ f ∗ в(80) и (85) вывод при ˆ f ∗ = 0 в (80) и (85) соответствует верхней границе на E (cid:20)(cid:13)(cid:13)(cid:13) ∇ ˆ f ( x k ) (cid:13)(cid:13)(cid:13) (cid:21) : E (cid:20)(cid:13)(cid:13)(cid:13) ∇ ˆ f ( x k ) (cid:13)(cid:13)(cid:13) (cid:21) ≤ M G (cid:18) a q k + c (cid:18) q (cid:18) − q k − − q (cid:19) { k> } (cid:19)(cid:19) , k ∈ Z + . (86)Упростим вид выражения в (84) и (86): a q k + c (cid:18) q (cid:18) − q k − − q (cid:19) { k> } (cid:19) ≤ a q k + c (cid:18) q − q (cid:19) = E [ˆ g ( x , B )] − η (2 − η ) µ (cid:0) γL ˆ F P ˆ g + µ (cid:1) ! k ++ 2 l ˆ F min (r P ˆ g L , M ˆ G L ) { b

Теорема 12.

При безграничном увеличении L → + ∞ , сохраняя выполнение неравенства L k ≥ L ,в случае сэмплирования одного батча на шаге метода оценка на средний минимальный квадрат нормы радиента уменьшается, сходясь к следующей форме: E (cid:20) min i ∈ ,k − (cid:26)(cid:13)(cid:13)(cid:13) ∇ ˆ f ( x i ) (cid:13)(cid:13)(cid:13) (cid:27)(cid:21) ≤ γl ˆ g  E h ˆ f ( x ) i k + ˜ σ r b − m  == 4 γ (cid:0) M G + L ˆ F P ˆ g (cid:1)  E h ˆ f ( x ) i k + ˜ σ r b − m  , k ∈ N . При этом масштабированный шаг метода Гаусса–Ньютона преобразуется в шаг градиентного метода: x k +1 = x k − η k (cid:16) ˆ G ′ ( x k , ˜ B k ) ∗ ˆ G ′ ( x k , ˜ B k ) + ˜ τ k L k I n (cid:17) − ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) = x k −− * ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) , (cid:18) ˆ G ′ ( x k , ˜ B k ) ∗ ˆ G ′ ( x k , ˜ B k )˜ τ k L k + I n (cid:19) − ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) + l k (cid:28) ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) , (cid:16) ˆ G ′ ( x k , ˜ B k ) ∗ ˆ G ′ ( x k , ˜ B k )˜ τ k L k + I n (cid:17) − ˆ G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) (cid:29) ˆ G ′ ( x k , ˜ B k ) ∗ ˆ G ′ ( x k , ˜ B k )˜ τ k L k ++ I n ) − (cid:16) G ′ ( x k , B k ) ∗ ˆ G ( x k , B k ) (cid:17) −→ L k → + ∞ x k +1 = x k − l k ∇ x k ˆ g ( x k , B k ) . Как и в теореме 12, теорема 13 содержит в себе гибкую относительно шума батчей оценку.

Теорема 13.

При безграничном увеличении L → + ∞ , сохраняя выполнение неравенства L ≤ L k ,в случае сэмплирования одного батча на каждом шаге метода величина ˆ∆ k,b уменьшается, сходясь кследующей форме: ˆ∆ k,b = E h ˆ f ( x ) i exp (cid:18) − µkγl ˆ g (cid:19) + ˜ σγl ˆ g µ r b − m == E h ˆ f ( x ) i exp  − µkγ (cid:16) M G + L ˆ F P ˆ g (cid:17)  + 2˜ σγ (cid:16) M G + L ˆ F P ˆ g (cid:17) µ r b − m , k ∈ Z + , b ∈ , min { m, n } ,γ ≥ max ( , µM G + P ˆ g L ˆ F ) = 1 . При этом масштабированный шаг метода Гаусса–Ньютона преобразуется в шаг градиентного метода,как и в случае теоремы 12: x k +1 = x k − l k ∇ x k ˆ g ( x k , B k ) . В лемме ниже устанавливается верхняя оценка на количество внутренних итераций поиска подходящейлокальной постоянной Липшица L k в худшем случае для схем 5 и 6 с переменными пределами поиска L k . Лемма 19.

В схемах 5 и 6 метода Гаусса–Ньютона количество итераций подбора L k на переменномотрезке L k ∈ (cid:20) max (cid:26) L, Ls k (cid:27) , max (cid:26) ˜ γL ˆ F , γL ˆ F s k (cid:27)(cid:21) , γ ≥ ˜ γ ≥ , s k > , L ∈ (cid:0) , ˜ γL ˆ F (cid:3) сверху ограничено значением O (cid:16)l log (cid:16) γL ˆ F L (cid:17)m + 1 (cid:17) на каждом шаге k ∈ Z + метода.Доказательство. Рассмотрим потенциально возможные случаи для определения отрезка поиска L k :1. L k ∈ (cid:2) L, ˜ γL ˆ F (cid:3) ;2. L k ∈ h Ls k , γL ˆ F s k i ;3. L k ∈ h Ls k , ˜ γL ˆ F i ;4. L k ∈ h L, γL ˆ F s k i .Первый случай соответствует достаточно большому значению s k : s k ≥ γ ˜ γ ≥ . Во втором случае значение s k достаточно малое: < s k ≤ min (cid:26) , γ ˜ γ (cid:27) . s k ∈ (cid:20) γ ˜ γ , (cid:21) ⇒ γ ∈ (0 , ˜ γ ] ∩ [˜ γ, + ∞ ) = { ˜ γ } , ˜ γ ≥ . Четвёртый случай порождает следующие отрезки: s k ∈ (cid:20) , γ ˜ γ (cid:21) ⇒ γL ˆ F s k L ∈ (cid:20) ˜ γL ˆ F L , γL ˆ F L (cid:21) . Оценим сверху количество итераций подбора L k . Наибольшее число неудачных попыток ( i − ∈ Z + можнополучить, если начинать с минимально возможного значения L k :1. L k ∈ (cid:2) L, ˜ γL ˆ F (cid:3) ⇒ ˜ γL ˆ F ≥ i − L, log (cid:16) ˜ γL ˆ F L (cid:17) + 1 ≥ i ;2. L k ∈ h Ls k , γL ˆ F s k i ⇒ γL ˆ F s k ≥ i − (cid:16) Ls k (cid:17) , log (cid:16) γL ˆ F L (cid:17) + 1 ≥ i ;3. L k ∈ h Ls k , ˜ γL ˆ F i ⇒ ˜ γL ˆ F ≥ i − L, log (cid:16) ˜ γL ˆ F L (cid:17) + 1 ≥ i ;4. L k ∈ h L, γL ˆ F s k i ⇒ γL ˆ F ≥ ˜ γL ˆ F ≥ i − L, log (cid:16) γL ˆ F L (cid:17) + 1 ≥ i .Верхняя оценка на искомое i (количество итераций подбора L k ): i ≤ (cid:24) max (cid:26) log (cid:18) ˜ γL ˆ F L (cid:19) , log (cid:18) γL ˆ F L (cid:19)(cid:27)(cid:25) + 1 = (cid:24) log (cid:18) γL ˆ F L (cid:19)(cid:25) + 1 . Стоит заметить, что при s k ≤ LL ˆ F весь отрезок поиска L k удовлетворяет условиям поиска, что означаетна практике не больше двух итераций подбора L k , так как значение max n L k − , max n L, Ls k − oo можетоказаться вне этого отрезка. А при уменьшении s k значение x k +1 будет меньше отличаться от x k в си-лу монотонного убывания по L k значения k T L k ,τ k ( x k ) − x k k (согласно следствию 2.2 при замене модели ψ x,L,τ ( y ) на ˆ ψ x,L,τ ( y, B ) ).Теорема 14 рассматривает правило вычисления x k +1 (17) и выводит оценки сходимости к окрестностистационарной точки в терминах среднего, используя две стратегии определения погрешности проксималь-ного отображения ε k : в первой стратегии погрешность сверху всегда ограничена ненулевой величиной ε ˆ g ( x k ,B k ) , во второй стратегии предполагается возможность точного вычисления x k +1 . Теорема 14.

Пусть выполнены предположения 3, 4, 5, 6. Рассмотрим метод Гаусса–Ньютона со схемойреализации 5, в котором последовательность { x k } k ∈ Z + вычисляется по правилу (17) с τ k = ˆ g ( x k , B k ) .Если в схеме 5 выбрать следующий отрезок погрешностей ε k : ≤ ε k ≤ ε ˆ g ( x k , B k ) , то выполнено: E (cid:20) min i ∈ ,k − (cid:26)(cid:13)(cid:13)(cid:13) ∇ ˆ f ( x i ) (cid:13)(cid:13)(cid:13) (cid:27)(cid:21) ≤ (cid:0) M G + max (cid:8) ˜ γP ˆ g L ˆ F , γL ˆ F (cid:9)(cid:1)  E h ˆ f ( x ) i k + ε ++2 l ˆ F r εL + r P ˆ g L ! { b

Пусть выполнены предположения 3, 4, 5, 6, 7. Рассмотрим метод Гаусса–Ньютона сосхемой реализации 5, в котором последовательность { x k } k ∈ Z + вычисляется по правилу (17) с τ k = ˆ g ( x k , B k ) . Тогда:  E (cid:20)(cid:13)(cid:13)(cid:13) ∇ ˆ f ( x k ) (cid:13)(cid:13)(cid:13) (cid:21) ≤ M G ˜∆ k,b ; E h ˆ f ( x k ) i ≤ ˆ f ∗ + ˜∆ k,b ; (96) где ˜∆ k,b = E h ˆ f ( x ) i exp − kµ (cid:0) max (cid:8) ˜ γL ˆ F P ˆ g , γL ˆ F (cid:9) + µ (cid:1) ! + 2 ε + 2 l ˆ F r εL + r P ˆ g L ! { b } + ε (cid:18) − q k − q (cid:19) { k> } , k ∈ Z + . Поэтому в условиях данной теоремы выражения (84) и (86) будут содержать следующую общую часть: a q k + cq (cid:18) − q k − − q (cid:19) { k> } + (cid:18) c + ε (cid:18) − q k − q (cid:19)(cid:19) { k> } , k ∈ Z + . У полученной общей части в упрощённом виде добавляется слагаемое с ε по сравнению с (87): a k ≤ a q k + c + cq + ε − q , k ∈ Z + . ˜∆ k,b в случае ε k ≤ ε ˆ g ( x k ,B k ) аналогично (87): ˜∆ k,b = E h ˆ f ( x ) i exp − kµ (cid:0) max (cid:8) ˜ γL ˆ F P ˆ g , γL ˆ F (cid:9) + µ (cid:1) ! + 2 ε + 2 l ˆ F r εL + r P ˆ g L ! { b

Предположим выполнение условий 8 и 9. Рассмотрим метод Гаусса–Ньютона, реализо-ванный по схеме 5 со стратегией обновления приближения решения (17) , τ k = ˆ g ( x k , B k ) , k ∈ Z + . Тогдавыполнена следующая оценка: (cid:0) γL ˆ F (cid:1) L − c r b − m ! −  E h ˆ f ( x ) i k + 1 k k − X i =0 E [ ε i ˆ g ( x i , B i )] c r b − m ! + c r b − m  ≥≥ E " min i ∈ ,k − ((cid:13)(cid:13)(cid:13)(cid:13) γL ˆ F (cid:18) ˆ T max n ˜ γL ˆ F , γL ˆ F ˆ g xi,Bi ) o , ˆ g ( x i ,B i ) ( x i , B i ) − x i (cid:19)(cid:13)(cid:13)(cid:13)(cid:13) ) , ∈ min (cid:26) m, (cid:24) c mL m + 4 c (cid:25) + 1 (cid:27) , m, ˜ γL ˆ F ≥ L > c r b − m , ˜ γ > max ( , c L ˆ F r b − m ) , γ ≥ ˜ γ. Доказательство.

Лемма 9 задаёт в условиях данной теоремы локальную модель ˆ ψ x k ,L k , ˆ g ( x k ,B k ) , для кото-рой применима лемма 2 с заменой ˆ f := ˆ g в рамках одного батча, что позволяет применить рассужденияиз теоремы 1 и получить оценки на убывание ˆ g на k –ой итерации: ˆ g ( x k , B k ) + ε k − ˆ g ( x k +1 , B k ) ≥ L k (cid:13)(cid:13)(cid:13) ˆ T L k , ˆ g ( x k ,B k ) ( x k , B k ) − x k (cid:13)(cid:13)(cid:13) . Приведём правую часть к форме проксимального градиента и оценим снизу правую часть неравенства,пользуясь монотонным убыванием по L k нормы в правой части (следствие 2.2 в случае стохастическойлокальной модели) и тем, что L k ≥ L ˆ g ( x k ,B k ) : ˆ g ( x k , B k ) + ε k − ˆ g ( x k +1 , B k ) ≥ L k (cid:13)(cid:13)(cid:13) ˆ T L k , ˆ g ( x k ,B k ) ( x k , B k ) − x k (cid:13)(cid:13)(cid:13) ≥≥ L g ( x k , B k ) (cid:0) γL ˆ F (cid:1) (cid:13)(cid:13)(cid:13)(cid:13) γL ˆ F (cid:18) ˆ T max n ˜ γL ˆ F , γL ˆ F ˆ g xk,Bk ) o , ˆ g ( x k ,B k ) ( x k , B k ) − x k (cid:19)(cid:13)(cid:13)(cid:13)(cid:13) . Домножим неравенство на ˆ g ( x k , B k ) : ˆ g ( x k , B k ) + ε k ˆ g ( x k , B k ) − ˆ g ( x k +1 , B k ) ≥ ˆ g ( x k , B k ) + ε k ˆ g ( x k , B k ) − ˆ g ( x k , B k )ˆ g ( x k +1 , B k ) ≥≥ L (cid:0) γL ˆ F (cid:1) (cid:13)(cid:13)(cid:13)(cid:13) γL ˆ F (cid:18) ˆ T max n ˜ γL ˆ F , γL ˆ F ˆ g xk,Bk ) o , ˆ g ( x k ,B k ) ( x k , B k ) − x k (cid:19)(cid:13)(cid:13)(cid:13)(cid:13) . Сложим неравенства для итераций , . . . , k − и усредним оператором математического ожидания, уве-личив левую часть на (cid:12)(cid:12)(cid:12) ˆ f ( x k ) − ˆ g ( x k , B k − ) (cid:12)(cid:12)(cid:12) : E h ˆ f ( x ) i + k − X i =0 E [ ε i ˆ g ( x i , B i )] + k X i =1 E h(cid:12)(cid:12)(cid:12) ˆ f ( x i ) − ˆ g ( x i , B i − ) (cid:12)(cid:12)(cid:12)i ≥ E h ˆ f ( x ) i + k − X i =0 E [ ε i ˆ g ( x i , B i )] ++ k − X i =1 E h ˆ f ( x i ) − ˆ g ( x i , B i − ) i − E [ˆ g ( x k , B k − )] ≥≥ L (cid:0) γL ˆ F (cid:1) k − X i =0 E "(cid:13)(cid:13)(cid:13)(cid:13) γL ˆ F (cid:18) ˆ T max n ˜ γL ˆ F , γL ˆ F ˆ g xi,Bi ) o , ˆ g ( x i ,B i ) ( x i , B i ) − x i (cid:19)(cid:13)(cid:13)(cid:13)(cid:13) . Применим предположение 9 к неравенствам выше: E h ˆ f ( x ) i + k − X i =0 E [ ε i ˆ g ( x i , B i )] + k − X i =0 ( c + c E [ˆ g ( x i , B i ) ε i ] ++ c E "(cid:13)(cid:13)(cid:13)(cid:13) ˆ T max n ˜ γL ˆ F , γL ˆ F ˆ g xi,Bi ) o , ˆ g ( x i ,B i ) ( x i , B i ) − x i (cid:13)(cid:13)(cid:13)(cid:13) b − m ≥≥ L (cid:0) γL ˆ F (cid:1) k − X i =0 E "(cid:13)(cid:13)(cid:13)(cid:13) γL ˆ F (cid:18) ˆ T max n ˜ γL ˆ F , γL ˆ F ˆ g xi,Bi ) o , ˆ g ( x i ,B i ) ( x i , B i ) − x i (cid:19)(cid:13)(cid:13)(cid:13)(cid:13) . Приведём подобные слагаемые: E h ˆ f ( x ) i + k − X i =0 E [ ε i ˆ g ( x i , B i )] c r b − m ! + c k r b − m ≥≥ k − X i =0 E " (cid:0) γL ˆ F (cid:1) L − c r b − m ! (cid:13)(cid:13)(cid:13)(cid:13) γL ˆ F (cid:18) ˆ T max n ˜ γL ˆ F , γL ˆ F ˆ g xi,Bi ) o , ˆ g ( x i ,B i ) ( x i , B i ) − x i (cid:19)(cid:13)(cid:13)(cid:13)(cid:13) ≥≥ k (cid:0) γL ˆ F (cid:1) L − c r b − m ! E " min i ∈ ,k − ((cid:13)(cid:13)(cid:13)(cid:13) γL ˆ F (cid:18) ˆ T max n ˜ γL ˆ F , γL ˆ F ˆ g xi,Bi ) o , ˆ g ( x i ,B i ) ( x i , B i ) − x i (cid:19)(cid:13)(cid:13)(cid:13)(cid:13) ) . ( γL ˆ F ) k (cid:16) L − c q b − m (cid:17) − получаем искомую оценку сходимости: (cid:0) γL ˆ F (cid:1) L − c r b − m ! −  E h ˆ f ( x ) i k + 1 k k − X i =0 E [ ε i ˆ g ( x i , B i )] c r b − m ! + c r b − m  ≥≥ E " min i ∈ ,k − ((cid:13)(cid:13)(cid:13)(cid:13) γL ˆ F (cid:18) ˆ T max n ˜ γL ˆ F , γL ˆ F ˆ g xi,Bi ) o , ˆ g ( x i ,B i ) ( x i , B i ) − x i (cid:19)(cid:13)(cid:13)(cid:13)(cid:13) ) . Необходимое ограничение L − c q b − m > задаёт минимальный размер батча и нижнюю оценку на L :  b ∈ min n m, l c mL m +4 c m + 1 o , m ;˜ γL ˆ F ≥ L > c q b − m ⇒ ˜ γ > max n , c L ˆ F q b − m o . Следствие 16.1.

В случае ε k = δ k − − δ k ˆ g ( x k ,B k ) , k ∈ N и ε = δ ˆ g ( x ,B ) с < δ k < δ k − , lim k →∞ δ k = 0 оценкасходимости следующая: (cid:0) γL ˆ F (cid:1) L − c r b − m ! −  E h ˆ f ( x ) i k + 2 δ − δ k − k c r b − m ! + c r b − m  ≥≥ E " min i ∈ ,k − ((cid:13)(cid:13)(cid:13)(cid:13) γL ˆ F (cid:18) ˆ T max n ˜ γL ˆ F , γL ˆ F ˆ g xi,Bi ) o , ˆ g ( x i ,B i ) ( x i , B i ) − x i (cid:19)(cid:13)(cid:13)(cid:13)(cid:13) ) . Следствие 16.2.

Если в предположении 9 c = 0 , то оценка сходимости из предыдущего следствияуказывает на гипотетическую возможность решить задачу с любой наперёд заданной точностью, лишьувеличивая количество итераций, при этом малый размер батча можно скомпенсировать увеличением L ≥ L ˆ F и установкой L := ˜ γL ˆ F , ˜ γ ≥ . Теорема 17 использует проксимальное условие Поляка–Лоясиевича (предположене 10) для вывода об-щих условий линейной сходимости к области решения задачи (5) в среднем.

Теорема 17.

Предположим выполнение условий 8, 9 и 10. Рассмотрим метод Гаусса–Ньютона, реали-зованный по схеме 5 со стратегией обновления приближения решения (17) , τ k = ˆ g ( x k , B k ) , k ∈ Z + . Тогдавыполнена следующая оценка (cid:0) γL ˆ F (cid:1) ν L − c r b − m ! − c r b − m + c r b − m ! E (cid:20) max i ∈ ,k − { ε i ˆ g ( x i , B i ) } (cid:21)! ++ exp − kν (cid:0) γL ˆ F (cid:1) L − c r b − m !! E h ˆ f ( x ) − ˆ f ∗ i ≥ E h ˆ f ( x k ) − ˆ f ∗ i ,b ∈ min (cid:26) m, (cid:24) c mL m + 4 c (cid:25) + 1 (cid:27) , m, ˜ γL ˆ F ≥ L > c r b − m ,γ ≥ max  ˜ γ, L ˆ F vuut ν L − c r b − m ! , ˜ γ > max ( , c L ˆ F r b − m ) . Доказательство.

Применяя рассуждения из теоремы 16, получаем оценки на убывание ˆ g на k –ой итера-ции: ˆ g ( x k , B k ) + ε k − ˆ g ( x k +1 , B k ) ≥ L k (cid:13)(cid:13)(cid:13) ˆ T L k , ˆ g ( x k ,B k ) ( x k , B k ) − x k (cid:13)(cid:13)(cid:13) .

98о аналогии с доказательством теоремы 16 приведём правую часть к форме проксимального градиента иоценим её снизу: ˆ g ( x k , B k ) + ε k − ˆ g ( x k +1 , B k ) ≥ L k (cid:13)(cid:13)(cid:13) ˆ T L k , ˆ g ( x k ,B k ) ( x k , B k ) − x k (cid:13)(cid:13)(cid:13) ≥≥ L g ( x k , B k ) (cid:0) γL ˆ F (cid:1) (cid:13)(cid:13)(cid:13)(cid:13) γL ˆ F (cid:18) ˆ T max n ˜ γL ˆ F , γL ˆ F ˆ g xk,Bk ) o , ˆ g ( x k ,B k ) ( x k , B k ) − x k (cid:19)(cid:13)(cid:13)(cid:13)(cid:13) . Домножим неравенство на ˆ g ( x k , B k ) : ˆ g ( x k , B k ) + ε k ˆ g ( x k , B k ) − ˆ g ( x k +1 , B k ) ≥ ˆ g ( x k , B k ) + ε k ˆ g ( x k , B k ) − ˆ g ( x k , B k )ˆ g ( x k +1 , B k ) ≥≥ L (cid:0) γL ˆ F (cid:1) (cid:13)(cid:13)(cid:13)(cid:13) γL ˆ F (cid:18) ˆ T max n ˜ γL ˆ F , γL ˆ F ˆ g xk,Bk ) o , ˆ g ( x k ,B k ) ( x k , B k ) − x k (cid:19)(cid:13)(cid:13)(cid:13)(cid:13) . Усредним неравенство с помощью оператора математического ожидания, добавив к обеим частям ˆ f ( x k +1 ) − ˆ f ∗ : E h ˆ f ( x k ) − ˆ f ∗ i + E [ ε k ˆ g ( x k , B k )] + E h(cid:12)(cid:12)(cid:12) ˆ f ( x k +1 ) − ˆ g ( x k +1 , B k ) (cid:12)(cid:12)(cid:12)i ≥ E h ˆ f ( x k ) − ˆ f ∗ i + E [ ε k ˆ g ( x k , B k )] ++ E h ˆ f ( x k +1 ) − ˆ g ( x k +1 , B k ) i ≥ E h ˆ f ( x k +1 ) − ˆ f ∗ i ++ L (cid:0) γL ˆ F (cid:1) E "(cid:13)(cid:13)(cid:13)(cid:13) γL ˆ F (cid:18) ˆ T max n ˜ γL ˆ F , γL ˆ F ˆ g xk,Bk ) o , ˆ g ( x k ,B k ) ( x k , B k ) − x k (cid:19)(cid:13)(cid:13)(cid:13)(cid:13) . Применим предположение 9: c + c E [ˆ g ( x k , B k ) ε k ] + c E "(cid:13)(cid:13)(cid:13)(cid:13) γL ˆ F (cid:18) ˆ T max n ˜ γL ˆ F , γL ˆ F ˆ g xk,Bk ) o , ˆ g ( x k ,B k ) ( x k , B k ) − x k (cid:19)(cid:13)(cid:13)(cid:13)(cid:13) b − m ++ E [ ε k ˆ g ( x k , B k )] + E h ˆ f ( x k ) − ˆ f ∗ i ≥ E h ˆ f ( x k ) − ˆ f ∗ i + E [ ε k ˆ g ( x k , B k )] + E h(cid:12)(cid:12)(cid:12) ˆ f ( x k +1 ) − ˆ g ( x k +1 , B k ) (cid:12)(cid:12)(cid:12)i ≥≥ E h ˆ f ( x k +1 ) − ˆ f ∗ i + L (cid:0) γL ˆ F (cid:1) E "(cid:13)(cid:13)(cid:13)(cid:13) γL ˆ F (cid:18) ˆ T max n ˜ γL ˆ F , γL ˆ F ˆ g xk,Bk ) o , ˆ g ( x k ,B k ) ( x k , B k ) − x k (cid:19)(cid:13)(cid:13)(cid:13)(cid:13) ⇒⇒ c r b − m + c r b − m ! E [ ε k ˆ g ( x k , B k )] + E h ˆ f ( x k ) − ˆ f ∗ i ≥ E h ˆ f ( x k +1 ) − ˆ f ∗ i ++ 1 (cid:0) γL ˆ F (cid:1) L − c r b − m ! E "(cid:13)(cid:13)(cid:13)(cid:13) γL ˆ F (cid:18) ˆ T max n ˜ γL ˆ F , γL ˆ F ˆ g xk,Bk ) o , ˆ g ( x k ,B k ) ( x k , B k ) − x k (cid:19)(cid:13)(cid:13)(cid:13)(cid:13) . Применим предположение 10 к неравенствам выше: c r b − m + c r b − m ! E [ ε k ˆ g ( x k , B k )] + E h ˆ f ( x k ) − ˆ f ∗ i ≥≥ E h ˆ f ( x k +1 ) − ˆ f ∗ i + ν (cid:0) γL ˆ F (cid:1) L − c r b − m ! E h ˆ f ( x k ) − ˆ f ∗ i . Приведём подобные слагаемые, использовав свойство ε j ˆ g ( x j , B j ) ≤ max i ∈ ,k { ε i ˆ g ( x i , B i ) } , j ∈ , k : c r b − m + c r b − m ! E (cid:20) max i ∈ ,k { ε i ˆ g ( x i , B i ) } (cid:21) ++ − ν (cid:0) γL ˆ F (cid:1) L − c r b − m !! E h ˆ f ( x k ) − ˆ f ∗ i ≥ E h ˆ f ( x k +1 ) − ˆ f ∗ i . t ≤ exp( t ) , получаемискомую оценку: (cid:0) γL ˆ F (cid:1) ν L − c r b − m ! − c r b − m + c r b − m ! E (cid:20) max i ∈ ,k − { ε i ˆ g ( x i , B i ) } (cid:21)! ++ exp − kν (cid:0) γL ˆ F (cid:1) L − c r b − m !! E h ˆ f ( x ) − ˆ f ∗ i ≥ E h ˆ f ( x k ) − ˆ f ∗ i . Для наличия ожидаемой сходимости необходимо выполнение неравенства L − c q b − m > , котороезадаёт допустимый размер батча и нижнюю границу на ˜ γ :  b ∈ min n m, l c mL m +4 c m + 1 o , m ;˜ γ > max n , c L ˆ F q b − m o . Данные неравенства накладывают ограничения и на L : ˜ γL ˆ F ≥ L > c r b − m . Также для наличия линейной сходимости важно соблюсти следующее условие: < ν (cid:0) γL ˆ F (cid:1) L − c r b − m ! ≤ ⇒ γ ≥ max  ˜ γ, L ˆ F vuut ν L − c r b − m ! . Следствие 17.1.

В случае ε k = qδ k − − δ k ˆ g ( x k ,B k ) , k ∈ N и ε = δ ˆ g ( x ,B ) с < δ k < qδ k − , lim k → + ∞ δ k = 0 , q = exp − ν (cid:0) γL ˆ F (cid:1) L − c r b − m !! оценка сходимости следующая: (cid:0) γL ˆ F (cid:1) ν L − c r b − m ! − c r b − m ++2 δ c r b − m ! exp − ( k − ν (cid:0) γL ˆ F (cid:1) L − c r b − m !!! ++ exp − kν (cid:0) γL ˆ F (cid:1) L − c r b − m !! E h ˆ f ( x ) − ˆ f ∗ i ≥ E h ˆ f ( x k ) − ˆ f ∗ i . Следствие 17.2.

Если в предположении 9 c = 0 , то оценка сходимости из предыдущего следствияуказывает на гипотетическую возможность решить задачу с любой наперёд заданной точностью, лишьувеличивая количество итераций, при этом малый размер батча можно скомпенсировать увеличением L ≥ L ˆ F и установкой L := ˜ γL ˆ F , ˜ γ ≥ . Условие слабого роста в методе Гаусса–Ньютона

Теорема 18 использует наличие условия слабого роста для ограниченного оптимизируемого функциона-ла и предположение 7 для вывода совместности системы нелинейных уравнений (4) и линейной сходимостик её решению с произвольно заданной точностью и с произвольным размером батча при использованииправила (16). 100 еорема 18.

247 + 3 √

93 + s

47 + 3 √  , при данном значении вторая производная ζ ′′ ( t ∗ ) положительна. Более того, при t ∗ имеет место линейнаясходимость метода Гаусса–Ньютона с оценкой (98) и коэффициентом линейной сходимости, принадлежа-щим интервалу (0 , :  < − µ M G (cid:18) µ + (cid:16) L ˆ F P ˆ f + M F (cid:17) c − (cid:16) L ˆ F P ˆ f + M F (cid:17) c (cid:19) < c = (cid:18) q √ + q √ (cid:19) ∈ (2 , . Неравенства µ ≤ min n M G , M F o и > c > обеспечивают нахождение коэффициента линейной сходимо-сти в интервале (0 , . Если же не фиксировать η k = 1 , а искать оптимальный η k для произвольного t , тов случае t → + ∞ коэффициент линейной сходимости будет меньше, чем в случае η k = 1 при t = t ∗∗