Статья:

Анализ библиотек компьютерного зрения

Конференция: L Студенческая международная научно-практическая конференция «Молодежный научный форум»

Секция: Технические науки

Выходные данные
Мальцева М.Ю. Анализ библиотек компьютерного зрения // Молодежный научный форум: электр. сб. ст. по мат. L междунар. студ. науч.-практ. конф. № 20(50). URL: https://nauchforum.ru/archive/MNF_interdisciplinarity/20(50).pdf (дата обращения: 23.01.2025)
Лауреаты определены. Конференция завершена
Эта статья набрала 0 голосов
Мне нравится
Дипломы
лауреатов
Сертификаты
участников
Дипломы
лауреатов
Сертификаты
участников
на печатьскачать .pdfподелиться

Анализ библиотек компьютерного зрения

Мальцева Маргарита Юрьевна
студент, Северный (Арктический) федеральный университет имени М.В. Ломоносова, РФ, г. Архангельск
Казнин Алексей Анатольевич
научный руководитель, канд. техн. наук, доцент, Северный (Арктический) федеральный университет имени М.В. Ломоносова, г. Архангельск

 

В настоящее время активно развивающейся областью является компьютерное зрение. Компьютерное зрение - это технология, которая помогает компьютерам находить, отслеживать, классифицировать и идентифицировать объекты, извлекая данные из изображений и анализировать полученную информацию [7].

Одной из основных областей компьютерного зрения является область мобильных приложений, рынок которых с каждым днем растет. Многие приложения работают с изображениями, полученными при помощи камер мобильных устройств. Но зачастую пользователи сталкиваются с зашумленными изображениями, что усложняет задачу получения качественных изображений при дальнейшей работе. В связи с этим, одной из важнейших задач компьютерного зрения является восстановление, обработка изображений.  Самым простым подходом к решению этой задачи является применение специализированных библиотек, в которых реализованы методы обработки и распознавания изображений. Существует множество библиотек компьютерного зрения для обработки изображений. В свободном доступе имеются следующие:

1 OpenCV

OpenCV обладает широким выбором целевой платформы (Windows, Linux, Android, MacOS, FreeBSD, OpenBSD, Android, Maemo, iOS) и языка реализации (С/C + +, Python, Java, Ruby, Matlab, Lua), также библиотека распространяется в свободном доступе, можно бесплатно использовать в образовательных целях, что является значимым преимуществом [4]. Базовая структура данной библиотеки состоит из модулей: cxcore (базовые структуры и алгоритмы), CV (модуль обработки изображений), Highdui (модуль для ввода/вывода изображений, создание интерфейса), Cvaux (пространственное зрение).

2 AForge.NET

AForge.NET используется при разработке различных приложений, в том числе и для проведения исследований в области компьютерного зрения и искусственного интеллекта. Библиотека содержит функции, связанные с реализацией обработки изображений, нейронных сетей и генетических алгоритмов, нечеткой логикой, робототехникой и т. Д [1].

3 Vuforia

Vuforia – библиотека разработки AR приложений. Расширенная или смешанная реальность (AR) – это прямой или косвенный взгляд на физическую среду реального мира, элементы которой дополняются сенсорным вводом, генерируемым компьютером, такими как звук, видео, графика или данные GPS. Данная платформа доступна для Android, iOS и Unity. В библиотеке Vuforia используется технология компьютерного зрения для того, чтобы распознавать, обрабатывать и отслеживать плоские изображения и простые 3D-объекты в режиме реального времени [5].

4 LTI-Lib

LTI-Lib - это объектно-ориентированная библиотека алгоритмов и структур данных, разработанная на C++. Библиотека активно применяется в области обработки изображений, робототехники, распознавание объектов и жестов и многое другое. LTI-Lib обеспечивает быстрые алгоритмы, за счет совместного использования и обслуживания кода. Для задачи обработки изображений в библиотеке реализованы такие методы, как: сегментация, линейные фильтры, всплески, управляемые фильтры [3].

5 VXL (Vision-something-Libraries)

VXL – библиотека, написанная на C ++ и предназначенная для исследования и реализации компьютерных видений. Данная библиотека включает в себя модули, охватывающие числовые алгоритмы, обработку изображений, координатные системы, геометрию камеры, стерео, видео манипуляцию, дизайн графического интерфейса, классификацию, надежную оценку, отслеживание объектов, топологию, манипулирование структурой, 3D-визуализация. Преимуществом данной библиотеки является то, что каждый базовый компонент может использоваться без ссылки на другие, поэтому можно компилировать и связывать по отдельности только те модули, которые необходимы [6].

В таблице 1 представлена сравнительная характеристика вышеперечисленных библиотек по таким показателям, как поддерживаемые платформы, языки программирования, тип лицензии и модуль обработки изображений.

Таблица 1.

Сравнительная характеристика библиотек компьютерного зрения

Библиотека

Поддерживаемые платформы

Языки программирования

Тип лицензии

Модуль обработки изображений

OpenCV

Windows, Linux, Android, MacOS, FreeBSD, OpenBSD, Android, Maemo, iOS

С/C + +, Python, Java, Ruby, Matlab, Lua

Свободная, библиотека с открытым исходным кодом

opencv_imgproc

AForge.NET

Windows, Xamarin Android, Xamarin IOS

 

C#

GNU Lesser General Public License

AForge.Imaging

AForge.Vision

Vuforia

iOS, Android, Unity

C + +, Java, Objective-C, .Net

Свободная + Commercial SDK option

Image Targets

VXL

Windows, Linux

ANSI/ISO C++

Свободная, в открытом доступе

vil (imaging)

LTI-Lib

Windows, Linux

C++

GNU Lesser General Public License

ltiImage.h

 

Для дальнейшего анализа для примера выбрана библиотека Aforge.net в программной среде Microsoft Visual Studio 2017, используя язык программирования C#. Данная библиотека выбрана исходя по типу лицензии, возможности использования языка C# и модуля обработки изображений. Библиотека AForge.NET предоставляет ряд фильтров, которые могут использоваться для сглаживания изображений и удаления шума. Различные сглаживающие фильтры имеют разные свойства, что делает их полезными для различных задач и устранения различных типов шума. Ниже приведено зашумленное изображение и результат применения медианного фильтра [2] (рис.1).

 

Рисунок 1. Результат применения медианного фильтра с помощью библиотеки AForge.NET, где: А – изображение до применения фильтра, Б – изображение после применения фильтра

 

Наглядно видно, что текст на изображении стал более читаемым. Следовательно, применение библиотек компьютерного зрения оправдано в задаче обработки изображений. Рассмотренные библиотеки содержат большое количество функций, которые охватывают многие области компьютерного зрения. В связи с тем, что наличие шумов и искажений на изображении может негативно отразиться на дальнейшей машинной обработке, данные библиотеки применяются в задаче предварительной обработки изображений.

 

Список литературы:
1. Aforge.NET [Электронный ресурс]. – Режим доступа: http://www.aforgenet.com/framework/ (дата обращения: 01.06.19).
2. Aforge.net, Framework Median Class [Электрон. ресурс]. - Режим доступа: http://www.aforgenet.com/framework/docs/html/af40e7dd-59d2-aa3f-b694-995a076a8c61.htm(дата обращения: 01.06.19). 
3. LTI-lib [Электронный ресурс]. – Режим доступа: http://ltilib.sourceforge.net/doc/homepage/index.shtml (дата обращения: 01.06.19). 
4. OpenCV [Электронный ресурс]. - Режим доступа : https://opencv.org (дата обращения: 01.06.19).
5. Vuforia [Электронный ресурс]. – Режим доступа: https://www.vuforia.com (дата обращения: 01.06.19).
6. VXL [Электронный ресурс]. – Режим доступа: https://vxl.github.io/ (дата обращения: 01.06.19). 
7. Линьков В. Машинное зрение. Что это и как им пользоваться? Обработка изображений оптического источника [Электронный ресурс]. – Режим доступа: https://habr.com/ru/post/350918/ (дата обращения: 22.05.19).