Статья:

Обзор существующих методов распознавания

Конференция: XXII Студенческая международная научно-практическая конференция «Технические и математические науки. Студенческий научный форум»

Секция: Физико-математические науки

Выходные данные
Аимбетова А.Т. Обзор существующих методов распознавания // Технические и математические науки. Студенческий научный форум: электр. сб. ст. по мат. XXII междунар. студ. науч.-практ. конф. № 11(22). URL: https://nauchforum.ru/archive/SNF_tech/11(22).pdf (дата обращения: 23.01.2025)
Лауреаты определены. Конференция завершена
Эта статья набрала 0 голосов
Мне нравится
Дипломы
лауреатов
Сертификаты
участников
Дипломы
лауреатов
Сертификаты
участников
на печатьскачать .pdfподелиться

Обзор существующих методов распознавания

Аимбетова Айжан Талгатовна
магистрант, Костанайский государственный университет имени Ахмета Байтурсынова, Казахстан, г. Костанай
Кудубаева Сауле Альжановна
научный руководитель, канд. техн. наук, и.о. доцента кафедры информатики и информационной безопасности ЕНУим. Л.Гумилева, Казахстан, г. Нур-Султан

 

Аннотация. Автоматизирование процессов идентификации объектов является одной из ключевых проблем разработки, исследования и реализации методов распознавания автоматизированных информационных систем. В нынешний век цифровизации возрастает потребность в автоматизированной идентификации, в областях: машинного зрения, распознавания текстовых символов (обработка и считывание различных чеков), медицинская аппаратура (рентгенография, электрокардиограмма, электроэнцефалограмма), распознавание голоса, а также различные узконаправленные задачи. Но на данный момент в некоторых областях не удается достичь результата, например, в распознавании быстродвижущихся объектов. Рассмотрены существующие методики развития области распознавания образов (объектов).

 

Ключевые слова: распознавание образов; гистограммы направленных градиентов; экстенсиональные методы; кибернетика.

 

Краткая история возникновения теории распознавания образов

Теория распознавания образов — это новый раздел информатики и смежных дисциплин, занимающийся развитием теоретических основ и методов классификации, идентификации процессов, сигналов, ситуаций, предметов, явлений, и объектов, характеризующихся определенным набором заданных свойств и признаков.

Термин «распознавание» относят, как к процессам физиологического восприятия и познания, свойственным живым организмам в общем понятии, так и к попыткам реализации и использования «механических» аналогов данных процессов, исследование и анализ которых составляет предмет распознавания образов, как раздела информатики.

До определенной стадии развития, распознавание образов рассматривалось лишь только с психофизиологической стороны, то есть взаимодействие объекта с определенным раздражителем. При изучении использовались только качественные характеристики, не отображавшие весь механизм функционирования. С более углубленным изучением рецепторов слуха, обоняния и осязания получили развитие функциональные зависимости, но принципы решения оставались все также неразгаданными.

Кибернетика – наука, созданная Норбертом Винером в XX веке, внедрила количественную (математическую) методологию в исследования о теории распознавания образов.

Кибернетика - наука о закономерностях процесса управления и передачи информации в обществе, машинах и живых организмах. [1, с. 144]

В процессе жизнедеятельности организма есть конечное число принимаемых им решений, но в то же время в процессе жизнедеятельности человека оно является бесконечным. Сам процесс жизнедеятельности непосредственно влияет на конечное число возможных решений. Создание устройств, реагирующих на множество изменяющихся характеристик окружающей среды определенным количеством приемлемых для организма реакций, будет являться автоматизацией процессов. Данный процесс подразумевает использование важных особенностей принципов распознавания, тем самым, обеспечивая реакцию на общие изменения.

Создание механических устройств, использующих функции распознавания объектов, предоставляет возможность замены человека специализированной машиной. В связи с этим, существенно увеличиваются возможности сложно специализированных систем, занимающиеся различными информационными, логическими, статистическими, аналитическими задачами. Следует учитывать, что качество работы, выполняемой человеком на рабочем месте, во многом зависит от различных факторов (квалификация, опыт, добропорядочность и т. д.). А автоматизированный механизм действует специализированно, обеспечивая всегда одинаковое качество. Автоматизация контроля сложной системы позволит вести мониторинг и анализ, обеспечивая своевременность обслуживания, определение затруднений и неполадок, а также повысит качество передачи информации. Становится ясно, что применение автоматических механизмов в ряде конкретных задач делает возможным то, что становится непосильным человеку, то есть быстроту и качество действий. В то время, оставляя решение более сложных и разнообразных задач за человеком.

Специалисты прикладной математики, информатики и других смежных наук долгое время изучали проблему распознавания образов. Развитию дискриминантного анализа в качестве одного из разделов теории и практики распознавания образов способствовали труды Р. Фишера в 20-х годах. В 40-х годах поставили задачу о разделении смесей двух распределений образов профессоры Колмогоров и Хинчин. [2, с.662]

В 50-60-е годы ХХ века возникла теория статистических решений, основанная на множестве трудов ученых. В результате данного открытия были выявлены алгоритмы, формирующие соотношение новых объектов к одним из заданных видов, что положило начало для планомерных научных разработок и практических экспериментов. В области кибернетики сформировывалось новое научное направление, взаимодействующее с формированием теоретической основы и практическим исполнением механизмов, а далее и систем, определённых для распознавания объектов, образов, явлений и процессов. Данному научному направлению дали название "Распознавание образов".

В итоге, фундаментом для решения задач при распределении объектов к тем или иным классам послужили результаты классической теории статистических решений. В данной области выстраивались алгоритмы, устанавливающие на основе экспериментов параметры, такие как, характеристика данного объекта и априорные выходные данные, дающие описание классам, определениям конкретных классов, к которым можно сопоставить распознаваемый объект.

В дальнейшем, математическая основа теории распознавания расширилась за счет использования и развития:

- прикладной математики;

- теории информатики;

- методологии алгебры и логики;

- математических методов программирования и системотехники.

Собственно, к середине 70-х годов сформировалась сущность распознавания объектов в качестве самостоятельного научного направления, стало возможным формирование полноценной математической теории распознавания объектов.

Анализ существующих методов распознавания

На сегодняшний день существует следующая классификация методов распознавания образов:

Интенсиональный метод распознавания, строится на операции с признаками. Отличительной чертой данного направления считается подход при построении и применении алгоритмов распознавания образов, элементами служат характеристики признаков и их связей. К таким методам относятся: методы, основанные на оценках плотностей распределения значений признаков (или сходства и различия объектов); методы, основанные на предположениях о классе решающих функций; логические методы; лингвистические (структурные) методы. [3, с. 292]

Методы, основанные на операциях с объектами, принято называть экстенсиональными. В методах данной группы, в отличие от интенсионального направления, каждому изучаемому объекту в большей или меньшей мере придается самостоятельное диагностическое значение.

В настоящее время, методами, получившими наибольшее практическое применение в распознавании объектов, являются:

  1. Метод гистограмм направленных градиентов.

Гистограмма направленных градиентов (англ. Histogram of Oriented Gradients, HOG) – это методика, используемая в компьютерном зрении и обработке изображений в целях распознавания объектов. Данный прием основан на подсчете направлений градиента яркости (интенсивности) в локальных областях изображения и базируется на том факте, что распределение градиентов яркости на любом участке изображения дает представление о внешнем виде и форме объекта, расположенного на этом участке (даже без учета точного расположения этих направлений). Суть метода состоит в том, что изображение плотной равномерной сеткой разделяется на области, для каждой из которых строится локальная гистограмма направлений градиентов яркости. Для обеспечения неизменности по отношению к освещению гистограммы они подвергаются нормализации по контрасту с мерой яркости, вычисленной по большему фрагменту. Совокупность построенных нормализованных гистограмм будет являться дескриптором объекта. Такие дескрипторы инвариантны к освещению, геометрическим и фотометрическим преобразованиям (за исключением ориентации самого объекта). [4, с. 368]

При изучении данного метода, было выявлено, что дескриптор HOG имеет несколько преимуществ над другими дескрипторами. Поскольку HOG работает локально, метод поддерживает неизменность геометрических и фотометрических преобразований, за исключением ориентации объекта. Более того, грубое разбиение пространства, точное вычисление направлений и сильная локальная фотометрическая нормализация являются лучшей стратегией для распознавания людей, предположительно, потому что они позволяют конечностям и сегментам тела изменить внешность и совершать множество движений из стороны в сторону, если объекты поддерживают вертикальное положение тела. Главным недостатком данного метода является его низкая скорость работы, что делает его невозможным для использования в системах, где необходимо получать информацию о положении рук в реальном времени.

  1. Метод локальных бинарных шаблонов.

Локальные бинарные шаблоны (англ. Local Binary Patterns, LBP) —являются простым оператором, используемым для классификации текстурных объектов в компьютерном отображении. Паттерны представляют собой описание окрестностей пикселей изображения в бинарной форме. Оператор системы, применяющийся к пикселям изображения, применяет 8 пикселей текстуры, получая центральные пиксели в качестве пороговых показателей. Пиксели, имеющие значение больше, чем у центрального пикселя (или равные ему), получают значение "1", соответственно, другие принимают значение "0". В итоге, выходит восьмиразрядный двоичный код, отображающий текстуры пикселей. В дальнейшем вычисляется гистограмма пикселей по ячейке частот встречающегося кода (любая комбинация, у которой пиксель меньше и больше, чем у центрального). Данная гистограмма рассматривается в качестве 256-мерного вектора признаков. Далее, полученные гистограммы общего числа пикселей нормализуются и формируют вектор признаков для изображения.

Одним из ключевых преимуществ равномерности оператора системы считается простота ее вычислений. Существенным недостатком данного типа паттерна считается чувствительность к шумовому искажению.

  1. Метод k–ближайших соседей.

Метод k–ближайших соседей (англ. k-nearest neighbors algorithm, k-NN) - является методом решения задач классификации, относящей объекты к классам, которым принадлежат множества из k его ближайших соседей в многомерном паттерне признаков.

Ключевой принцип метода k-NN – присвоение объекта классам, являющимся наиболее встречающихся среди соседей данных элементов. Соседние К берутся из паттерна объектов с уже известными классами, далее исходя из ключевых для данной задачи значений k, программируется многочисленность классов из данных. У каждого объекта число характеристик является конечным (размерность). Далее рассчитывается существование определенного набора объектов с уже имеющимся набором классификаций. При применении метода k-NN для распознавания объектов экспериментатор решает сложную задачу в выборе метрики определения близости изучаемого объекта. В условии повышенной размерности паттерна признаков данная проблема остро выявляется из-за определенной трудоемкости этого метода, становящейся значимой даже для высокопроизводительной мощности компьютера. Для этого следует решить задачу анализа и мониторинга многомерной структуры данных путем сокращения количества объектов, входящих в исследуемые классы. [5, с. 40]

Приведенный алгоритм имеет множество достоинств, к примеру: простота в программной реализации алгоритма, доступность в освоении и изучении работы алгоритма, а также возможность модификации (улучшения) алгоритма. Необходимость в уменьшении количества объектов в первичной выборке считается недостатком данного метода.

  1. Дерево решений.

Дерево решений применяется в задачах классификации (принятия решений о принадлежности одного объекта к непересекающимся классам) и регрессии (предсказания значений из непрерывного диапазона). Данный метод является одним из 10 лучших алгоритмов интеллектуального анализа данных.

Регрессии и классификации на основе дерева решений, в области компьютерной идентификации, используются в решении задач, по множеству направлений (распознавание и поиск информации, анализ изображения, распознавание образов и т.д.). Для конструирования дерева решений применяется машинное обучение – автоматическая настройка параметров алгоритма на основе обучающейся выборки действий. При этом важным фактором при построении является качество обучения: правильность решений задач и практическая применяемость данных решений.

Под алгоритмом понимается функция, которая принимает на вход классифицируемый объект (информацию) и возвращает один из ответов алгоритма, характерных для данного объекта. Дерево решений включает в себя вершины – это проверяемые условия (входящий объект или информация) и листья, в которых содержатся ответы на входящий поток. От правильности обучения (то есть постройки всех алгоритмов принятия решений) зависит выходной показатель в виде ответа на входящий поток объекта или информации.

При построении дерева решений используются 3 правила:

1. Правило разбиения (Теоретико-информационный критерий, Статистический критерий);

2. Правило остановки;

  3. Правило отсечения.

Преимуществом использования дерева решений является автоматический отбор признаков: признаки вершины дерева выбираются автоматически из набора признаков.

Отличительными особенностями деревьев решений являются:

  • Интерпретируемость. Деревья решений позволяют строить решающие правила в форме, понятной эксперту. Это оказывается полезным в том случае, когда человеку требуется понимать, каким образом алгоритм будет принимать решения. Интерпретируемость также оказывается полезным свойством, если требуется понять, почему дерево решений работает неправильно.
  • Управляемость. Если некоторые примеры классифицируются неправильно, можно заново обучить только те вершины дерева, из-за которых это происходит, что очень удобно, когда объем обучающих данных большой и обучение занимает много времени. Кроме того, при тренировке разных поддеревьев могут оказаться более эффективными разные алгоритмы обучения. Обучение заново только части дерева позволяет изменить результат классификации одних объектов, не затрагивая классификацию других объектов.
  • Возможность автоматического отбора информативных признаков.
  • Отсутствие необходимости в дополнительной процедуре отбора признаков, в отличие от других методов машинного обучения.

Основными критериями для выбора оптимального метода распознавания являлись простота и доступность в программной реализации, а также наличие возможности изменения алгоритма. Таким образом, использование методов k–ближайших соседей и дерева решений является наиболее эффективным при написании диссертационной работы - разработка системы распознавания жестов регулировщика.

 

Список литературы:
1. Елисеева, И. И. Группировка, корреляция, распознавание образов (статистические методы классификации и измерения связей)/ И.И. Елисеева, В.О. Рукавишников. - Москва: РГГУ, 2014. - 144 c.
2. Емельянов, С.В. Информационные технологии и вычислительные системы. Вычислительные системы. Компьютерная графика. Распознавание образов. Математическое моделирование. Выпуск №2, 2015/ С.В. Емельянов. - Москва: Мир, 2015. - 662 c.
3. Потапов, А.А. Автоматический анализ изображений и распознавание образов/ Алексей Потапов. - М.: LAP Lambert Academic Publishing, 2017. - 292 c.
4. Фукунага, К.М. Введение в статистическую теорию распознавания образов/ К. Фукунага. - М.: Главная редакция физико-математической литературы издательства "Наука", 2013. - 368 c.
5. Черногорова Ю.В. Методы распознавания образов/ Молодой ученый. — 2016. — №28. — С. 40.