Статья:

Исследование эффективности выбора функции потерь в свёрточных нейронных сетях в системах распознования лиц

Конференция: LXXXVIII Студенческая международная научно-практическая конференция «Молодежный научный форум»

Секция: Физико-математические науки

Выходные данные
Папроцкий Э.В. Исследование эффективности выбора функции потерь в свёрточных нейронных сетях в системах распознования лиц // Молодежный научный форум: электр. сб. ст. по мат. LXXXVIII междунар. студ. науч.-практ. конф. № 19(88). URL: https://nauchforum.ru/archive/MNF_interdisciplinarity/19(88).pdf (дата обращения: 10.12.2024)
Лауреаты определены. Конференция завершена
Эта статья набрала 0 голосов
Мне нравится
Дипломы
лауреатов
Сертификаты
участников
Дипломы
лауреатов
Сертификаты
участников
на печатьскачать .pdfподелиться

Исследование эффективности выбора функции потерь в свёрточных нейронных сетях в системах распознования лиц

Папроцкий Эдуард Валерьевич
студент, Белорусский Государственный Университет Информатики и Радиоэлектроники, Республика Беларусь, г. Минск

 

RESEARCH OF THE EFFECTIVENESS OF THE CHOICE OF THE LOSS FUNCTION IN THE CONVOLUTION NEURAL NETWORKS TO SOLVE THE PROBLEM OF OVERFITTING IN THE RECOGNITION SYSTEMS OF PERSONS

 

Eduard Paprotski

Student, Belarusian State University of Informatics and Radioelectronics, Belarus, Minsk

 

Аннотация. Распознавания лиц является одной из самых сложных проблем в компьютерном зрении. В последнее время системы по распознаванию лиц применимы в самых разнообразных сферах: обеспечение безопасности, цифровой маркетинг, криминалистика и другие. Основополагающей идеей работы подобных систем является использование свёрточных нейронных сетей (CNN). С ростом производительности распознавания лиц в CNN выяснилось, что после некоторой глубины каждая нейронная сеть имеет тенденцию к переобучению (англ. overfitting). Таким образом, в последние годы многие исследователи работают над другими аспектами CNN, такими как: функции потерь, оптимизаторы и другие. Одна из основных работ, выполненных в этой области, включает в себя разработку подходящих функций потерь, специально предназначенных для распознавания лиц. В данном исследовании проводятся различные эксперименты с различными функция потерь по различным аспектам. Результаты анализируется на точность и скорости сходимости.

Abstract. Face recognition is one of the most difficult problems in computer vision. Recently, facial recognition systems are applicable in a wide variety of areas: security, digital marketing, forensics and others. The fundamental idea of such systems is the use of neural network convolution (CNN). With the growth of face recognition performance in CNN it became clear that after some depth, each neural network tends to overfitting. Thus, in recent years, many researchers have been working on other aspects of CNN such as loss functions, optimizers and others. One of the main work carried out in this area involves the development of suitable loss functions specifically designed for face recognition. This study has conducted various experiments with different loss functions on different aspects. The results are analyzed for accuracy and convergence rates.

 

Ключевые словафункция потерь; свёрточные нейронные сети; распознавания лиц.

Keywords: loss function; CNN; face recognition.

 

Выбор функции потерь играет важную роль в обучении CNN. В этом исследовании будут рассмотрены наиболее популярные функции потери в задачах по распознавании лиц: перекрёстная энтропия (англ. cross-entropy), угловой softmax (англ. angular softmax), softmax с добавочным отступом (англ. additive margin softmax), ArcFace и маргинальной (англ. marginal). Подробнее рассмотрим каждую из этих функций.

Функция потерь перекрёстная энтропия (англ. cross-entropy) является самой используемой в CNN и доказала свою эффективность в задачах распознавания лиц [1]. Формула (1) представлена ниже:

(1)

где – матрица весов,  – cмещение (англ. bias),  – тренировочный пример с индексом  – тренировочный класс с индексом  – количество тренировочных примеров,  и  с индексами  и  столбцами соответсвенно.

Функция потерь угловой softmax (англ. angular softmax) была опубликована Liu et al. в 2017 году как улучшенная версия softmax для обучения на основе отступов для обучения СNN для определения особенностей угловых признаков (англ. features) на изображении [2]. Формула (2) представлена ниже:

(2)

где  – тренировочный пример с индексом  при , при  где  – является целочисленным параметром для контроля размера углового отступа. Функция показала хорошие результаты и дала хорошую основу, для дальнейших функций, которые базировались на ней.

Функция потерь softmax c добавочным отступом (англ. additive-margin softmax) была основана на рассмотренной ранее функции углового softmax [3]. Результатом работы авторов данной функция стала общая функция вида:

используя эту функцию, которая представляет из себя отступ, авторы предложили следующую функцию потерь:

(3)

где  – является гиперпараметром и используется для увеличения значений функции косинуса [3].

Функция потерь ArcFace была основана на функциях потерь (2) и (3), автором Deng et a. [4]. Сама идея функции заключается в использовании отступа , который показывает лучшие результаты для классификации и наилучшую геометрическую интерпретацию данных в сравнении с функциями потерь SphereFace и CosineFace [5]. Формула функции (4) представлена ниже:

(4)

где  – радиус гиперсферы,  – штраф на добавочный отступ между  и и   и отступом, который делает разделение на классы более точным.

Функция потерь маргинальная (англ. marginal) была предложена в 2017 автором Deng et al. которая работает одновременно для максимизации расстояния между классами, а также для минимизации внутриклассового разнообразия [6]. Функция фокусируется на маргинальных примерах, её формула (5) представлена ниже:

(5)

где  – указывает, принадлежность грани  и  к одному и тому же классу,  – пороговое расстояние которое применяется чтобы различать лица одного и того же человека или нет, – предел погрешности [7].

CNN показали отличные результаты для распознавания лиц. Для данного исследования были выбраны сети две архитектуры сети: ResNet и MobileNet

ResNet (англ. resudial network) – остаточная нейронная сеть была представлена на конкурсе ImageNet в 2015 году автором Kaiming He et al [8]. Архитектура сети построена на основе остаточных блоков, рисунок 1.

 

ResNet: остаточная CNN для классификации изображений

Рисунок 1. Остаточный блок

 

Представленный на рисунке остаточный блок учитывает отображение между входами и выходами, используя остаточные соединения [9]. Этот подход устраняет проблему исчезновения градиента, так как идентичное отображение обеспечивает четкий путь прохождения градиентов через сеть. Сеть ResNet доказала свою эффективность для решения широкого круга задач, таких как: распознавание изображений, обнаружение объектов и сегментация изображений. В данном исследовании используется ResNet50.  

MobileNet – нейронная сеть была представлена в 2017 году автором Howard et al. Основное преимущество сети является эффективная работа на мобильных устройствах. В сети используются разделяемые по глубине свёртки (англ. depth-wise separable convolutions) c размером ядра 3x3 которые были предложены автором Chollet для Xception архитектуры [10]. Особенностью данной архитектуры сети является отсутствие слоёв максимального пуллинга (англ. max pooling), вместо них для снижения пространственной размерности используется свёртка с сдвигом (англ. stride), равным 2. Данная сеть показала значение эффективности выбора функции потери для распознавания лиц. В данном исследовании была выбрана архитектура MobileNet v1.

Для проверки эффективности выбора функции потерь используется схема обучения представленная на рисунке 2.

 

Рисунок 2. Схема обучения и тестирования сетей для оценки эффективности функции потерь

 

Для обучения сети выбраны два набора данных:

  • CASIA-WebFace – является наиболее широко используемым общедоступным набором данных о лицах. Он содержит 4 94 414 изображений лиц, принадлежащих 10 575 различным лицам [11].
  • MS-Celeb-1M – состоит из 100 тысяч наборов изображений лиц, каждый набор имеет около 100 изображений одного и того же лица, в результате чего получается примерно 10 миллионов изображений [12].

Для тестирования сети выбран набор данных Labeled Faces in the Wild (LFW) [13]. Набор содержит около 13 тысяч изображений лиц, собранных в интернете, состоящий из около 5800 идентификаций с 1700 людьми с двумя и более изображениями лиц.

Нормализация входных данных происходит путём обнаружение лицевых опорных точек на изображениях лиц их выравнивания. Для этих целей используется библиотека MTCNN [14].

Точности обучения и тестирования, полученные в ходе экспериментов, обобщены в таблице 1.

Таблица 1.

Результаты тестирования

Сеть

Функция потери

Набор данных

Точность

Тренировочная

Тестовая

ResNet 50

 

Перекрёстная энтропия

CASIA-WF

93.51

97.42

MS-Celeb-1M

92.43

97.19

Угловой softmax

CASIA-WF

94.01

99.10

MS-Celeb-1M

93.33

99.02

Softmax с добавочным отступом

CASIA-WF

94.37

99.34

MS-Celeb-1M

93.68

99.3

ArcFace

CASIA-WF

94.54

99.35

MS-Celeb-1M

92.34

99.15

Маргинальная

CASIA-WF

93.87

98.91

MS-Celeb-1M

91.57

98.84

1

2

3

4

5

MobileNet

Перекрёстная энтропия

CASIA-WF

93.42

96.78

MS-Celeb-1M

93.91

94.83

Угловой softmax

CASIA-WF

92.47

97.83

MS-Celeb-1M

93.45

96.86

Softmax с добавочным отступом

CASIA-WF

92.21

98.46

MS-Celeb-1M

94.10

97.65

ArcFace

CASIA-WF

92.31

99.01

MS-Celeb-1M

94.61

98.43

Маргинальная

CASIA-WF

93.15

98.41

MS-Celeb-1M

93.81

97.21

 

Точности обучения, указанные в таблице, получены после обучения модель до 20-ой эпохи обучения. Наивысшая точность 95.12% получается с помощью функции потерь softmax c добавочным отступом при использовании с архитектурой MobileNetv1 и на наборе данных CASIA-Webface. Вычислив среднее и стандартное отклонение точности тестирования, полученное между 10-ой и 20-ой эпохами, можно наблюдать отклонения результатов между эпохами, а также сходимость функций потерь по направлению к точке насыщения.

Самая высокая средняя точность 99,01% была отмечена для функции ArcFace потеря при обучении по набору данных CASIA-Webface с использованием архитектуры ResNet 50 с стандартное отклонение 0,305. Также стоит отметить, что вышеуказанное среднеквадратичное отклонение является наименьшим, это подтверждает лучшие характеристики функции потерь ArcFace. Данное исследований поможет в дальнейшем поможет решать проблему выбора между различными функциями потерь.      

 

Список литературы:
1. Sun, Y., Chen, Y., Wang, X., Tang, X., Deep learning face representation by joint identification-verification, 2014.
2. Yutian Li, Feng Gao, Zhijian Ou, Jiasong Sun, Angular Softmax Loss for End-to-end Speaker Verification, 2018.
3. Feng Wang, Weiyang Liu, Haijun Liu, Jian Cheng, Additive Margin Softmax for Face Verification, 2018.
4. Deng, J., Guo, J., Zafeiriou, Arcface: Additive angular margin loss for deep face recognition, 2018.
5. Weiyang Liu, Yandong Wen, Zhiding Yu, Ming Li, Bhiksha Raj, Le Song, SphereFace: Deep Hypersphere Embedding for Face Recognition, 2017.
6. Deng, J., Zhou, Y., Zafeiriou, Marginal loss for deep face recognition, 2017.
7. Xin Wei, Hui Wang, Bryan Scotney, Huan Wan, Minimum Margin Loss for Deep Face Recognition, 2018.
8. Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, Deep Residual Learning for Image Recognition, 2015.
9. Srivastava, R.K., Greff, K., Schmidhuber, Highway networks, 2015.
10. Chollet F., Xception: Deep learning with depthwise separable convolutions, 2016.
11. Набор данных СASIA-Webface [Электронный доступ] – Режим: https://cutt.ly/zyPgTz9.
12. Набор данных MS-Celeb-1M [Электронный доступ] – Режим: https://megapixels.cc/msceleb/. 
13. Метки данных Faces in the Wild [Электронный доступ] – Режим: http://www.vis-www.cs.umass.edu/lfw/ 
14. Библиотека MTCNN для обнаружения лиц [Электронный доступ] – Режим: https://github.com/ipazc/mtcnn.