[PDF] Neural arbitrary style transfer for portrait images using the attention mechanism

Abstract

Arbitrary style transfer is the task of synthesis of an image that has never been seen before, using two given images: content image and style image. The content image forms the structure, the basic geometric lines and shapes of the resulting image, while the style image sets the color and texture of the result. The word "arbitrary" in this context means the absence of any one pre-learned style. So, for example, convolutional neural networks capable of transferring a new style only after training or retraining on a new amount of data are not con-sidered to solve such a problem, while networks based on the attention mech-anism that are capable of performing such a transformation without retraining - yes. An original image can be, for example, a photograph, and a style image can be a painting of a famous artist. The resulting image in this case will be the scene depicted in the original photograph, made in the stylie of this picture. Recent arbitrary style transfer algorithms make it possible to achieve good re-sults in this task, however, in processing portrait images of people, the result of such algorithms is either unacceptable due to excessive distortion of facial features, or weakly expressed, not bearing the characteristic features of a style image. In this paper, we consider an approach to solving this problem using the combined architecture of deep neural networks with a attention mechanism that transfers style based on the contents of a particular image segment: with a clear predominance of style over the form for the background part of the im-age, and with the prevalence of content over the form in the image part con-taining directly the image of a person.

Full PDF

ННейросетевой перенос произвольного стиля… УДК 004.032.26

НЕЙРОСЕТЕВОЙ ПЕРЕНОС ПРОИЗВОЛЬНОГО СТИЛЯ НА ПОРТРЕТНЫЕ ИЗОБРАЖЕНИЯ С ИСПОЛЬЗОВАНИЕМ НЕЙРОСЕТЕЙ С МЕХАНИЗМОМ ВНИМАНИЯ * С.А. БЕРЕЗИН , В.М. ВОЛКОВА Задача переноса произвольного стиля состоит в создании нового, ранее не су-ществующего изображения, путем комбинирования двух данных изображений: оригинального и стилевого. Оригинальное изображение формирует структуру, основные геометрические линии и формы результирующего изображения, в то время как стилевое изображение задает цвет и текстуру результата. Слово «произвольный» в данном контексте обозначает отсутствие какого-то одного, заранее выученного, стиля. Так, например, свёрточные нейронные сети способ-ные переносить новый стиль только после своего переобучения или дообучения на новом объеме данных, не считаются решающими такую задачу, в то время как сети на основе механизма внимания, способные производить такую транс-формацию без переобучения – да. Оригинальное изображение может представ-лять собою, например, фотографию, а стилевое — картину знаменитого худож-ника. Результирующим изображением в таком случае будет сцена, изображен-ная на исходной фотографии, выполненная в стилистике данной картины. Со-временные алгоритмы переноса произвольного стиля позволяют добиться хо-роших результатов в данной задаче, однако при обработке портретных изобра-жений людей результат работы таких алгоритмов оказывается либо неприем-лем, ввиду чрезмерного искажения черт лица, либо слабо выраженным, не но-сящим характерные черты стилевого изображения. В этой работе рассматрива- * Статья получена 20 декабря 2019 г. .А. Березин, В.М. Волкова ется подход к решению данной проблемы с использованием комбинированной архитектуры глубоких нейронных сетей с механизмом внимания и свёрточной сегментационной сети, осуществляющей перенос стиля с учетом содержимого конкретного сегмента изображения: с ярким преобладанием стиля над формой для фоновой части изображения, и с преобладанием содержания над формой в портретной части изображения, содержащей непосредственно изображение ли-ца человека и/или его фигуры. Ключевые слова: машинное обучение, глубокое обучение, нейронные сети, обработка изображений, перенос стиля, сегментация, свёрточные нейронные се-ти, механизм внимания.

ВВЕДЕНИЕ

Методы машинного обучения в общем и нейронные сети в частно-сти, на сегодняшний день находят своё применение в огромном множе-стве областей [1, 9-15]. Одной из таких областей является обработка изображений. Рассмотрим подробнее задачу переноса стиля, относя-щуюся к этой области. Перенос художественного стиля изображения являет собою созда-ние нового изображения, содержащего характерные глобальные и ло-кальные паттерны стилевого изображения, и при этом сохраняющего структуру изображения исходного [1]. Архитектуры на основе свёрточных нейронных сетей успешно справляются с переносом одного [2] или нескольких [3] заранее вы-ученных стилей, однако при выходе за рамки заранее заготовленных шаблонов они требуют полного переобучения. Ранее предпринимались попытки решить эту задачу с использова-нием техники адаптивной нормализации данных (adaptive instance normalization) [4], однако субъективная оценка получаемых результатов была далека от идеальной. С выходом работ за авторством L. Sheng, Z. Lin, J. Shao, X. Wang [6] и Dae Young Park и Kwang Hee Lee [1] в 2018 году, в которых описыва-ется принципиально новый подход к решению этой задачи, произошел значительные рывок в данной области. Предложенные в архитектуре Avatar-Net [6] и доработанные в архитектуре SANet [1] решения с ис-пользованием механизма внимания (attention mechanism) позволяют соответствующим образом перестроить характерный паттерн перено-симого стиля для каждого участка обрабатываемого изображения с уче-том содержания данного участка путем сопоставления отношений, та-ких как близость (identity loss), между контекстным и стилевым изоб-ражениями. ейросетевой перенос произвольного стиля…ейросетевой перенос произвольного стиля…

1. МЕТОД

Решение, предлагаемое в данной работе, заключается в разбиении исследуемой задачи на две: перенос стиля на фоновую часть исходного изображения с большим весом формы над содержанием, что позволяет сохранить яркие цветовые и геометрические преобразования, и перенос стиля на лицо и фигуру человека с преобладанием веса содержания над формой. Визуализация решения представлена на рисунке 1.

Рис. 1 – Схема архитектуры решения

Для разделения изображения на две семантические области: фон и фигуру человека, то есть для решения задачи сегментации, была при-менена нейросеть архитектуры SegNet [5], обученная на наборе данных Microsoft COCO [7]. Выбор именно этой архитектуры обусловлен малыми временными затратами на обработку кадра (около 40 мс на GPU Nvidia Tesla v100) и удовлетворительными, для данной задачи, результатами. .А. Березин, В.М. Волкова

4 Для переноса стиля использовалась упомянутая ранее архитектура SANet (Style-Attentional Network), которая является передовым решени-ем на текущий момент, обеспечивая наиболее качественный результат [1]. Одной из ключевых особенностей этой модели является использо-вание механизма внимания (attention mechanism) для выявления паттер-нов характерных для каждого конкретного изображения.

Для варьирования соотношения признаков оригинального изоб-ражения к признакам стилевого было предложено ввести два весовых коэффициента. Фактически это осуществлялось путем слияния резуль-татов работы двух слоёв нейросети с разными коэффициентами:

𝑅𝑒𝑠 = 𝑠𝑎𝑛𝑒𝑡4 ∗ 𝑊 + 𝑠𝑎𝑛𝑒𝑡4 ∗ 𝑊 , где коэффициенты 𝑊 и 𝑊 определяют степень важности низкоуров-невых и высокоуровневых признаков соответственно. После выделения области с изображением человека составляется бинарная маска, покрывающая эту область. На каждом изображении по полученной маске обрезается фрагмент кадра. Затем, производится пер-вый (фоновый) перенос стиля на оригинальное изображение и второй (портретный) перенос стиля. После этого полученные изображения накладываются друг на друга.

2. РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТОВ

Исходная нейросеть SANet была обучена на наборе данных MS-COCO [7] в качестве исходных изображений и на наборе WikiArt [8] в качестве стилевых изображений. Оба набора содержат приблизительно 80 000 изображений. Целевой функцией была выбрана функция identity loss, направлен-ной на приоритизацию сохранения структуры изображения, нежели на изменение стилевых характеристик: 𝐿 𝑖𝑑𝑒𝑛𝑡𝑖𝑡𝑦 = 𝜆 𝑖𝑑𝑒𝑛𝑡𝑖𝑡𝑦1 (||𝐼 𝑐𝑐 − 𝐼 𝑐 || + ||𝐼 𝑠𝑠 − 𝐼 𝑠 || )+ 𝜆 𝑖𝑑𝑒𝑛𝑡𝑖𝑡𝑦2 ∑(||𝜙 𝑖 (𝐼 𝑐𝑐 − 𝐼 𝑐 )|| + 𝜙 𝑖 (||𝐼 𝑠𝑠 − 𝐼 𝑠 || )) 𝐿𝑖=1

Где 𝐼 𝑐𝑐 и 𝐼 𝑠𝑠 обозначают выходное сгенерированное из двух одина-ковых исходных и стилевых изображений, 𝐼 𝑐 и 𝐼 𝑠 есть исходное и сти-левое изображения, каждый 𝜙 𝑖 обозначает слой нейросети a 𝜆 𝑖𝑑𝑒𝑛𝑡𝑖𝑡𝑦1 и ейросетевой перенос произвольного стиля…ейросетевой перенос произвольного стиля… 𝜆 𝑖𝑑𝑒𝑛𝑡𝑖𝑡𝑦2 – гипперпараметры, с экспериментально подобранными зна-чениями 1 и 50 соответственно. Как результат, такая функция потерь позволяет сохранять структуру исходного изображения и стилевые осо-бенности переносимого изображения в одно и то же время [1]. Использовался оптимизатор Adam (adaptive moment estimation) [9] с шагом обучения 0.0001 и размером пакета, равным 5. Применялась аугментация обрезанием части изображений. На рисунке 2 и 3 представлен поэтапный результат работы предло-женной сети. Рис. 2 – Перенос стиля на портрет. Слева-направо: оригинальное изображение, стилевое изображение, результат прямого переноса сти-ля, результат сегментации, результат переноса стиля на сегментиро-ванное изображение, комбинированный результат. .А. Березин, В.М. Волкова Рис. 3 – Результат работы алгоритма. Видно соблюдение формы линий чело-веческого лица при стилизации.

ЗАКЛЮЧЕНИЕ

Сочетание всех вышеприведённых методов и техник позволило до-биться улучшения качества переноса стиля с произвольного изображе-ния на человеческие портреты в сравнении с исходными подходами. Найденное решение было внедрено в конечный программный ком-плекс.

СПИСОК ЛИТЕРАТУРЫ Dae Young Park, Kwang Hee Lee.

Arbitrary Style Transfer with Style-Attentional Networks [Electronic resource] // arXiv:1812.02342 [cs.CV] 6 Dec 2018 – URL: https://arxiv.org/abs/1812.02342 2.

Leon A. Gatys, Alexander S. Ecker, Matthias Bethge.

A Neural Algo-rithm of Artistic Style [Electronic resource] // arXiv:1508.06576v2 [cs.CV] 2 Sep 2015 – URL: https://arxiv.org/abs/1508.06576 3.

Brandon Cui, Calvin Qi, Aileen Wang . Multi-style Transfer: General-izing Fast Style Transfer to Several Genres [Electronic resource] // Stanford University 2017 – URL: http://cs231n.stanford.edu/reports/2017/pdfs/401.pdf 4.

Xun Huang, Serge Belongie . Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization [Electronic resource] // arXiv:1703.06868 [cs.CV] 20 Mar 2017 – URL: https://arxiv.org/abs/1703.06868 5.

Vijay Badrinarayanan, Alex Kendall, Roberto Cipolla.

SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation ейросетевой перенос произвольного стиля…ейросетевой перенос произвольного стиля…

L. Sheng, Z. Lin, J. Shao, X. Wang . Avatar-Net: Multi-scale zero-shot style transfer by feature decoration. In Proc. CVPR, pages 8242–8250, 2018 7.

T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Doll´ar, and C. L. Zitnick . Microsoft COCO: Common objects in context. In Proc. ECCV, pages 740–755. Springer, 2014. 8.

F. Phillips and B. Mackintosh . Wiki Art Gallery, Inc.: A case for crit-ical thinking. Issues in Accounting Education, 26(3):593–608, 2011. 9.

Diederik P. Kingma and Jimmy Lei Ba . Adam: A method for stochas-tic optimization. [Electronic resource] // arXiv:1412.6980v9 2014. – URL: https://arxiv.org/abs/1412.6980v9 10. Хомутов С.О., Серебряков Н.А. Повышение качества кратко-срочного прогнозирования электропотребления группы точек поставки электроэнергии сель-хозпроизводителей с помо- щью инструментов машинного обучения // Научный вестник НГТУ. – 2019. – № 3 (76). – С. 149–168. – DOI: 10.17212/1814-1196-2019-3-149-168. 11. Гергет О.М., Мещеряков Р.В. Применение информационных ме-тодов, нейронных сетей и генетического алгоритма для решения задачи выбора схемы лече-ния // Научный вестник НГТУ. – 2018. – № 3 (72). – С. 7–20. – doi: 10.17212/1814-1196-2018-3-7-20. 12. Воевода А. А., Романников Д. О. Синтез нейронной сети для решения логико-арифметических задач // Тр. СПИИРАН. 2017. Вып. 54. C. 205–223. 13. Романников Д. О. О преобразовании сети Петри в нейронную сеть // Сб. науч. тр. НГТУ. 2016. No 4 (86). С. 98–103. 14. Дубенко Ю. В., Дышкант Е. Е. Нейросетевой алгоритм выбора методов для прогнозирования временных рядов // Вестник Астрахан-ского государственного технического университета. Серия: Управле-ние, вычислительная техника и информатика. 2019. No 1. С. 51–60. DOI: 10.24143/2072-9502-2019-1-51-60. 15. Тимофеев, А. В., & Дерин, О. А. (1). Принципы построения иерархических нейронных сетей для анализа мультиизображений.

Тру-ды СПИИРАН , (10), 160-166. https://doi.org/10.15622/sp.10.11 .А. Березин, В.М. Волкова Березин Сергей Андреевич , студент кафедры теоретической и при-кладной информатики Новосибирского государственного технического университета, техник лаборатории бизнес-решений на основе искус-ственного интеллекта Московского физико-технического института. Основное направление научных исследований – технологии машинного обучения. E-mail: [email protected]

Волкова Виктория Михайловна , доцент кафедры теоретической и прикладной физики Новосибирского государственного технического университета, кандидат технических наук. Основное направление науч-ных исследований машинное обучение, анализ данных. Имеет более 30 публикаций. E-mail: [email protected]

Neural arbitrary style transfer for portrait images using the attention mechanism * S. A. Berezin , V.M. Volkova Novosibirsk State Technical University, 20 Karl Marks Avenue, Novosibirsk, 630073, Russian Federation, undergraduate of the department of theoretical and ap-plied informatics. E-mail: [email protected] Novosibirsk State Technical University, 20 Karl Marks Avenue, Novosibirsk, 630073, Russian Federation, PhD in engineering, associate professor of the depart-ment of theoretical and applied informatics. E-mail: [email protected]

Arbitrary style transfer is the task of synthesis of an image that has never been seen before, using two given images: content image and style image. The content image forms the structure, the basic geometric lines and shapes of the resulting image, while the style image sets the color and texture of the result. The word "arbitrary" in this context means the absence of any one pre-learned style. So, for example, convolu-tional neural networks capable of transferring a new style only after training or re-training on a new amount of data are not considered to solve such a problem, while networks based on the attention mechanism that are capable of performing such a transformation without retraining - yes. An original image can be, for example, a pho-tograph, and a style image can be a painting of a famous artist. The resulting image in this case will be the scene depicted in the original photograph, made in the stylie of this picture. Recent arbitrary style transfer algorithms make it possible to achieve good results in this task, however, in processing portrait images of people, the result of such algorithms is either unacceptable due to excessive distortion of facial features, * Manuscript received on December 20. 2019 ейросетевой перенос произвольного стиля… or weakly expressed, not bearing the characteristic features of a style image. In this paper, we consider an approach to solving this problem using the combined architec-ture of deep neural networks with a attention mechanism that transfers style based on the contents of a particular image segment: with a clear predominance of style over the form for the background part of the image, and with the prevalence of content over the form in the image part containing directly the image of a person. Keywords: machine learning, deep learning, neural networks, image processing, style transfer, segmentation, convolutional neural networks, attention mechanism.

REFERENCES Leon A. Gatys, Alexander S. Ecker, Matthias Bethge –

A Neural Algo-rithm of Artistic Style [Electronic resource] // arXiv:1508.06576v2 [cs.CV] 2 Sep 2015 – URL: https://arxiv.org/abs/1508.06576 2.

Brandon Cui, Calvin Qi, Aileen Wang – Multi-style Transfer: Gener-alizing Fast Style Transfer to Several Genres [Electronic resource] // Stan-ford University 2017 – URL: http://cs231n.stanford.edu/reports/2017/pdfs/401.pdf 3.

Xun Huang, Serge Belongie – Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization [Electronic resource] // arXiv:1703.06868 [cs.CV] 20 Mar 2017 – URL: https://arxiv.org/abs/1703.06868 4.

Dae Young Park, Kwang Hee Lee –

Arbitrary Style Transfer with Style-Attentional Networks [Electronic resource] // arXiv:1812.02342 [cs.CV] 6 Dec 2018 – URL: https://arxiv.org/abs/1812.02342 5.

Vijay Badrinarayanan, Alex Kendall, Roberto Cipolla –

SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation [Electronic resource] // arXiv:1511.00561 [cs.CV] 2 Nov 2015 – URL: https://arxiv.org/abs/1511.00561 6.

L. Sheng, Z. Lin, J. Shao, X. Wang – Avatar-Net: Multi-scale zero-shot style transfer by feature decoration. In Proc. CVPR, pages 8242–8250, 2018 7.

T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Doll´ar, and C. L. Zitnick – Microsoft COCO: Common objects in con-text. In Proc. ECCV, pages 740–755. Springer, 2014. 8.

F. Phillips and B. Mackintosh – Wiki Art Gallery, Inc.: A case for critical thinking. Issues in Accounting Education, 26(3):593–608, 2011. 9.

10 10. Khomutov S.O., Serebryakov N.A. Povyshenie kachestva krat-kosrochnogo prognozirovaniya elektropotrebleniya gruppy tochek postavki elektroenergii sel'khozproizvoditelei s pomoshch'yu instrumentov mash-innogo obucheniya [Increasing the quality of short-term load forecasting of the delivery point cluster of agricultural producers with a learning machine].

Nauchnyi vestnik Novosibirskogo gosudarstvennogo tekhnicheskogo univer-siteta – Science bulletin of the Novosibirsk state technical university , 2019, no. 3 (76), pp. 149–168. DOI: 10.17212/1814-1196-2019-3-149-168. 11. Gerget O.M., Meshcheryakov R.V. Primenenie informatsionnyk hmetodov, neironnykh setei I geneticheskogo algoritma dlya resheniya zadachi vybora skhemy lecheniya [Applying information methods, neural networks and genetic algorithms for solving the problem of selecting a scheme of treatment].

Nauchnyi vestnik Novosibirskogo gosudarstvennogo tekhnicheskogo universiteta – Science bulletin of the Novosibirsk state tech-nical university , 2018, no. 3 (72), pp. 7–20. doi: 10.17212/1814-1196-2018-3-7-20. 12. Voevoda A. A., Romannikov D. O. Sintez neironnoi seti dlia resh-eniia logiko-arifmeticheskikh zadach. Trudy SPIIRAN, 2017, iss. 54, pp. 205-223. 13. Romannikov D. O. O preobrazovanii seti Petri v neironnuiu set'. Sbornik nauchnykh trudov NGTU, 2016, no. 4 (86), pp. 98-103. 14. Timofeev, A.V., & Derin, O.A. (1). The principles of building hier-archical neural networks for the analysis of multi-images. Proceedings of SPIIRAS, (10), 160-166. https://doi.org/10.15622/sp.10.11 15. Dubenko Yu. V., Dyshkant E. E. Neural network algorithm for choosing methods of time series forecasting. Vestnik of Astrakhan State Technical University. Series: Management, Com-puter Science and Infor-matics. 2019; 1:51-60. (In Russ.) DOI: 10.24143/2072-9502-2019-1-51-60.

Berezin Sergey Andreevich , undergraduate of the Department of Theoretical and Applied Informatics, Novosibirsk State Technical University, technician of the laboratory of business solutions based on artificial intelligence of the Moscow Institute of Physics and Technology. The main direction of scien-tific research is machine learning technology. Email: [email protected]

Viktoriya M. Volkova.

Novosibisrk State Technical University, department of theoretical and applied informatics, [email protected], PhD in engi-neering, associate professor. Main areas of scientific interest: machine learn- ейросетевой перенос произвольного стиля…ейросетевой перенос произвольного стиля…