СРАВНИТЕЛЬНЫЙ АНАЛИЗ АРХИТЕКТУР НЕЙРОННЫХ СЕТЕЙ ДЛЯ ОПРЕДЕЛЕНИЯ КЛЮЧЕВЫХ ТОЧЕК В ПРОЕКТЕ КОНТРОЛЯ ОСАНКИ ПОЛЬЗОВАТЕЛЯ
Журнал: Научный журнал «Студенческий форум» выпуск №6(357)
Рубрика: Технические науки

Научный журнал «Студенческий форум» выпуск №6(357)
СРАВНИТЕЛЬНЫЙ АНАЛИЗ АРХИТЕКТУР НЕЙРОННЫХ СЕТЕЙ ДЛЯ ОПРЕДЕЛЕНИЯ КЛЮЧЕВЫХ ТОЧЕК В ПРОЕКТЕ КОНТРОЛЯ ОСАНКИ ПОЛЬЗОВАТЕЛЯ
Аннотация. В этой статье представлены результаты экспериментального исследования эффективности различных архитектур сверточных нейронных сетей для решения задачи обнаружения координат глаз и плеч у пользователя при работе за компьютером. Цель работы заключается в выборе оптимальной модели, обеспечивающей баланс между точностью и скоростью вывода для работы в реальном времени. Были протестированы следующие модели ResNet50, ResNet101, MobileNet и YOLOv8. Наибольшую эффективность продемонстрировала архитектура YOLOv8, которая показала высокую точность на метрике mAP@0.5:0.95 и приемлемое времени отклика.
Ключевые слова: компьютерное зрение, контроль осанки, ключевые точки, нейронные сети, YOLOv8, ResNet, MobileNet.
Проблема сохранения правильной осанки во время длительной работы за компьютером стоит сейчас наиболее остро: более 80% населения страны страдает от различных нарушений спины, что негативно сказывается на кровообращении, негативно влияет на дыхательную сон, а также на внешний вид человека. Ключевым компонентом системы является алгоритм, надежно и быстро определяющий координаты ключевых точек, таких как глаза и плечи. Эти данные позволяют анализировать наклон головы и положение плеч, что будет индикатором сутулости.
В рамках проекта по созданию системы «Контроль осанки пользователя при работе за компьютером» была поставлена задача выбора оптимальной модели машинного обучения. Основными критериями выбора стали: точность определения координат, скорость ответа модели, а также размер модели, влияющий на развертывание. В статье представлен сравнительный анализ четырех архитектур: ResNet50, ResNet101, MobileNet и YOLOv8.
Эксперименты проводились на датасете, содержащем аннотированные изображения пользователей за рабочим столом. Для всех моделей использовалась общая задача детекции ключевых точек. Обучение и валидация выполнялись на идентичных наборах данных для обеспечения корректности сравнения. Основной метрикой для оценки точности был выбран mAP (mean Average Precision) с порогом IoU от 0.5 до 0.95, что является стандартом для задач детекции. Дополнительно, фиксировались среднее время вывода на одном изображении и итоговый размер обученной модели. Были получены следующие результаты для каждой из протестированных архитектур:
ResNet50 продемонстрировала наименьшее время отклика, что указывает на ее потенциальную пригодность для систем, критичных к задержкам. Однако итоговая точность оказалась недостаточно высокой для надежного определения ключевых точек.
После ResNet50 была протестирована более глубокая сеть - ResNet101, которая показала прирост к точности предсказаний. Тем не менее, существенным недостатком данной модели стало значительное увеличение времени вывода ответа модели, а также ее веса. Большая вычислительная сложность может негативно повлиять на производительность конечного приложения, особенно при работе на ресурсо-ограниченных устройствах.
MobileNet показала худший результат. Точность определения ключевых точек оказалась неудовлетворительной: ниже, чем у ResNet50. При этом время отклика не только не улучшилось, но и превысило показатели ResNet50, что не соответствует заявленным преимуществам легковесных сетей в данном конкретном сценарии.
YOLOv8 показала наилучший баланс характеристик. Была достигнута высокая точность детекции, превосходящая результаты ResNet101. При этом время отклика осталось на уровне, приемлемом для работы в реальном времени, значительно опережая ResNet101 и сопоставимым с ResNet50. Размер модели также является оптимальным для развертывания.
Низкая точность ResNet50 и MobileNet связана с недостаточной способностью этих моделей к точной пространственной локализации мелких объектов (ключевых точек) в контексте всего изображения. ResNet101 решает проблему точности за счет глубины, но это делает модель громоздкой и медленной. YOLOv8, используя эффективный механизм анкеров и многоуровневое детектирование, обеспечивает высокую точность локализации без чрезмерного увеличения вычислительной сложности. Скорость работы YOLOv8 подтверждает ее пригодность для обработки видеопотока в реальном времени. В дальнейшем, для разработки приложения для контроля осанки пользователя при работе за компьютером, будет использоваться YOLOv8.

