Статья:

Полносвязные многослойные нейронные сети как инструмент обработки монохромных изображений

Конференция: XLIII Студенческая международная заочная научно-практическая конференция «Молодежный научный форум: технические и математические науки»

Секция: Технические науки

Выходные данные
Родов А.М., Артамонова А.П. Полносвязные многослойные нейронные сети как инструмент обработки монохромных изображений // Молодежный научный форум: Технические и математические науки: электр. сб. ст. по мат. XLIII междунар. студ. науч.-практ. конф. № 3(43). URL: https://nauchforum.ru/archive/MNF_tech/3(43).pdf (дата обращения: 26.12.2024)
Лауреаты определены. Конференция завершена
Эта статья набрала 0 голосов
Мне нравится
Дипломы
лауреатов
Сертификаты
участников
Дипломы
лауреатов
Сертификаты
участников
на печатьскачать .pdfподелиться

Полносвязные многослойные нейронные сети как инструмент обработки монохромных изображений

Родов Александр Михайлович
студент, Казанский национальный исследовательский технический университет им. А.Н. Туполева-КАИ, РФ, Республика Татарстан, г. Казань
Артамонова Анна Павловна
студент, Казанский национальный исследовательский технический университет им. А.Н. Туполева-КАИ, РФ, Республика Татарстан, г. Казань
Новикова Светлана Владимировна
научный руководитель, д-р техн. наук, проф., Казанский национальный исследовательский технический университет им. А.Н. Туполева-КАИ, РФ, Республика Татарстан, г. Казань

 

Искусственные нейронные сети в настоящее время широко используются в различных областях, в том числе в задачах компьютерного зрения. Целью настоящей работы было создание и исследование возможностей нейросетевых моделей для распознавания изображений и передачи их по каналам связи путем сжатия с последующей декомпрессией.

Таким образом, задача исследования разделялась на два этапа:

1. реализация алгоритма классификации изображений с помощью многослойных нейронных сетей с проведением сравнительного анализа результатов решения задачи классификации нейронными сетями различных конфигураций.

2.  реализация нейросетевого метода компрессии-декомпрессии данных при помощи многослойных персептронов различных конфигураций. Для сравнительного анализа использовался динамический метод сжатия Хаффмана.

На первом этапе для решения задачи распознавания изображений для обучения нейронных сетей был применен алгоритм RProp [1] (Resilient propagation – эластичное распространение) – модификация алгоритма обратного распространения ошибки (Back propagation) [2]. В методе RProp для модификации весовых коэффициентов нейронов используются только знаки частных производных, что позволяет ускорить процесс обучения, а также преодолевать локальные минимумы (аттракторы).

В качестве объектов классификации были выбраны заглавные кириллические буквы. Количество классов совпадает с количеством букв и, таким образом, составило 33. Для представления букв используются чёрно-белые изображения размером 20х20 пикселей, каждый из которых характеризуется интенсивностью белого цвета – однобайтовым целым числом.

На вход нейронной сети подаётся изображение попиксельно, таким образом, размерность входного слоя составляет  нейронов.

На выходе нейронная сеть должна выдавать вектор, размерность которого совпадает с количеством классов букв, при этом ровно один элемент этого вектора равен 1, а все остальные равны 0. Если -ый элемент выходного вектора равен 1, это означает, что на вход сети подано изображение -ой буквы алфавита.

Конфигурация скрытых слоёв сети произвольна, именно она и составила предмет исследования. Для выявления наилучшей конфигурации сети для решения задачи классификации изображений были разработаны и обучены нейронные сети следующих конфигураций:

Таблица 1.

Исследованные конфигурации нейронных сетей для задачи распознавания

Входной слой

Скрытые слои

Выходной слой

400

200

33

300

400

500

200,200

300,300

100,300

300,100

 

Размер обучающей выборки составил 330 примеров – 10 наборов кириллических заглавных букв различного вида по 33 примера в каждом наборе. Каждая из нейронных сетей прошла по 1000 эпох обучения на указанной выборке.

По результатам исследований наилучшие показатели ошибок и правильно распознанных изображений показала конфигурация сети 400-300-100-33, наихудшие – конфигурация 400-200-200-33.

На втором этапе для решения задачи компрессии-декомпрессии изображения нейронные сети обучались по алгоритму обратного распространения ошибки (Back propagation) – итеративный оптимизационный алгоритм, работающий по принципу градиентного спуска, который используется для минимизации функции ошибки работы нейронной сети.

Каждая нейронная сеть построена по т.н. принципу «бутылочного горлышка» [3]: входной и выходной слои имеют одинаковые размерности, равные размерности сжимаемых данных, скрытый слой имеет меньшую размерность. Соотношение размерностей входного и скрытого слоёв определяет коэффициент сжатия алгоритма.

На вход сеть получает пример входных данных, на выходе сеть должна выдать те же данные, которые были поданы на вход. Были разработаны четыре различные нейронные сети со следующими топологиями: 64-16-64, 64-32-64, 16-4-16, 16-8-16.

Отдельно для проведения сравнительного анализа был реализован динамический алгоритм сжатия Хаффмана.

Работа вышеперечисленных алгоритмов проверена на примере чёрно-белых изображений, в которых каждый пиксель характеризуется яркостью белого цвета – целым числом из отрезка [0;255].

По результатам исследования наилучшее время сжатия и восстановления для изображений размера 1920х1080 показала нейронная сеть с топологией 16-4-16 (в среднем 2,95 секунды для сжатия и 3,33 секунды для восстановления), что значительно меньше времени сжатия и восстановления данных с помощью алгоритма Хаффмана, которое для таких же изображений составило в среднем 37,101 секунды для сжатия и 37,449 для восстановления.

Качество компрессии/декомпрессии данных с помощью алгоритма Хаффмана оказалось выше, чем с помощью нейронных сетей. Наилучшая абсолютная величина отклонения яркости пикселя была получена в топологии 64-32-64 и составила в среднем 4.7 для нейронной сети. В свою очередь эта же величина оказалась равной 0 для алгоритма Хаффмана, что может объясняться неидеальным обучением нейронной сети.

Примеры работы нейросетевого алгоритма сжатия данных:

 

Рисунок 1. Исходное изображение

 

Рисунок 2. Изображение после сжатия и восстановления нейросетью

 

Выводы.

Нейронные сети могут с успехом решать задачи распознавания изображений и решать задачу компрессии/декомпрессии данных, при этом наилучшей с точки зрения качества топологией сети для решения задачи распознавания является сеть с двумя скрытыми слоями, где размерность первого скрытого слоя составляет 75% от размерности входного слоя, размерность второго скрытого слоя – 25% размерности входного. для задачи компрессии-декомпрессии наилучшей можно считать топологию 64-32-64, а с точки зрения коэффициента сжатия – 64-16-64.

 

Список литературы:
1. Алгоритм обучения RProp – математический аппарат. – [Электронный ресурс] – Режим доступа: URL: https://basegroup.ru/community/articles/rprop (Дата обращения 13.03.2017).
2. Осовский С. Нейронные сети для обработки информации. – М.: Горячая линия-Телеком, 2016. 448 с. ISBN: 978-5-9912-0510-8.
3. Солдатова О.П., Шепелев Ю.М. Сжатие визуальных данных с использованием многослойного персептрона // Перспективные информационные технологии (ПИТ 2015), Том 1: труды Международной научно-технической конференции [под ред. С.А. Прохорова]. С.221224 Самара: Издательство Самарского научного центра РАН, 2015. 360 с.