Статья:

КАК КОМПЬЮТЕР УЧИТСЯ ВИДЕТЬ: ТЕХНОЛОГИИ РАСПОЗНАВАНИЯ ОБЪЕКТОВ ВОКРУГ НАС

Журнал: Научный журнал «Студенческий форум» выпуск №16(367)

Рубрика: Технические науки

Выходные данные

Баяндинов Ж.Е. КАК КОМПЬЮТЕР УЧИТСЯ ВИДЕТЬ: ТЕХНОЛОГИИ РАСПОЗНАВАНИЯ ОБЪЕКТОВ ВОКРУГ НАС // Студенческий форум: электрон. научн. журн. 2026. № 16(367). URL: https://nauchforum.ru/journal/stud/367/185336 (дата обращения: 30.07.2026).

К условиям публикации Скачать журнал

Журнал опубликован

Мне нравится

Научный журнал «Студенческий форум» выпуск №16(367)

на печатьскачать .pdf поделиться

КАК КОМПЬЮТЕР УЧИТСЯ ВИДЕТЬ: ТЕХНОЛОГИИ РАСПОЗНАВАНИЯ ОБЪЕКТОВ ВОКРУГ НАС

Баяндинов Жангир Ерланович

студент, Алматинский технологический университет Казахстан, г. Алматы

Козакбаева Айнур Холдасовна

научный руководитель, Алматинский технологический университет, Казахстан, г. Алматы

Введение

Представьте: вы едете в такси, а водитель — программа. За долю секунды она замечает пешехода, читает знак «стоп», объезжает велосипедиста и тормозит перед красным светофором. Всё это без участия человека. Именно такие задачи решают системы распознавания объектов — одно из самых быстро развивающихся направлений искусственного интеллекта.

Но беспилотные автомобили — только верхушка айсберга. Технология распознавания объектов давно вошла в повседневную жизнь: она разблокирует ваш смартфон по лицу, помогает врачу находить опухоли на снимках, следит за качеством товаров на конвейере и предупреждает о пожаре раньше, чем его почует человек.

В этой статье мы разберёмся, как именно компьютер «видит» окружающий мир, почему это оказалось так сложно и что изменили нейронные сети.

* * *

Почему научить компьютер видеть — это трудно

Человеческое зрение кажется нам чем-то само собой разумеющимся. Мы мгновенно узнаём кошку, даже если видим её сзади, в полутьме или частично скрытой за диваном. Мозг делает это настолько автоматически, что мы не задумываемся о сложности процесса.

Для компьютера изображение — это просто таблица чисел. Фотография размером 1000 на 1000 пикселей — это миллион точек, каждая из которых описывается тремя числами (яркость красного, зелёного и синего каналов). Как из трёх миллионов чисел понять, что на изображении изображена кошка, а не диван?

Долгие годы инженеры пытались решить эту задачу «вручную»: придумывали правила вроде «кошка имеет два уха треугольной формы» или «у машины есть колёса». Но правила ломались при малейшем изменении угла съёмки, освещения или позы объекта. Система, обученная распознавать кошек на дневных фотографиях, беспомощно смотрела на ночные снимки.

Перелом произошёл около 2012 года, когда исследователи из Торонтского университета показали: нейронная сеть, обученная на миллионах изображений, сама «учится» выделять нужные признаки — без каких-либо заданных вручную правил. С тех пор точность систем компьютерного зрения стремительно растёт, а их применения множатся каждый год.

* * *

Что такое «распознавание объектов»

Распознавание объектов — это не то же самое, что классификация изображения. Классификация отвечает на вопрос «что изображено на фото?» и выдаёт один ответ на всё изображение: «кошка» или «собака». Распознавание объектов делает больше: оно находит все объекты на изображении, обводит каждый из них прямоугольником и называет, что это такое.

Результат выглядит так: на фотографии уличной сцены система рисует рамку вокруг каждого пешехода с подписью «человек», вокруг каждой машины с подписью «автомобиль», вокруг светофора с подписью «светофор» — и всё это одновременно, за десятки миллисекунд.

Именно поэтому распознавание объектов — технически более сложная задача. Нужно не только понять, что изображено, но и точно указать где: какие координаты у объекта на изображении, какого он размера, не перекрывается ли с другим объектом.

* * *

Как это работает: нейронные сети простыми словами

Нейронная сеть — это программа, которая учится на примерах. Чтобы научить её распознавать объекты, нужно показать ей миллионы фотографий, на каждой из которых уже отмечены объекты вместе с их координатами. Сеть постепенно настраивает свои внутренние параметры так, чтобы для каждой новой фотографии давать правильный ответ.

Хорошая аналогия — обучение ребёнка. Родители много раз показывают малышу: «это кошка», «это собака», «это машина». После достаточного количества примеров ребёнок начинает узнавать объекты самостоятельно, даже встречая их впервые. Нейронная сеть делает то же самое — только вместо примеров от родителей у неё миллионы фотографий из интернета.

Современные системы распознавания объектов умеют работать в реальном времени: обрабатывать видеопоток с камеры со скоростью 30–70 кадров в секунду. Это стало возможным благодаря двум вещам: мощным видеокартам (которые изначально создавались для игр, но отлично подошли для матричных вычислений нейросетей) и умным архитектурам, которые делают быстрые «умные» предположения о содержании изображения.

* * *

Где это уже работает прямо сейчас

Смартфоны

Самое очевидное применение — Face ID и аналогичные системы. Ваш телефон каждый раз, когда вы его поднимаете, запускает нейронную сеть, которая находит лицо на изображении с фронтальной камеры и сравнивает его с эталоном. Весь процесс занимает менее полусекунды.

Камеры современных смартфонов также используют распознавание объектов для умного фокуса (чтобы держать лицо в фокусе, даже если человек двигается) и для режима «Портрет» (нужно точно знать, где заканчивается человек и начинается фон, чтобы размыть фон).

Беспилотные автомобили

Беспилотный автомобиль оснащён несколькими камерами, лидаром и радаром. Нейронные сети на борту непрерывно анализируют все видеопотоки, обнаруживая пешеходов, велосипедистов, дорожные знаки, разметку и другие транспортные средства. Каждый объект получает прямоугольную рамку, метку класса и оценку уверенности — насколько система уверена в своём распознавании.

Требования к скорости здесь критические: задержка более 100 миллисекунд может стать причиной аварии. Поэтому для беспилотников используют специализированные нейросети, оптимизированные на скорость в ущерб максимальной точности.

Медицина

Онкологи используют системы распознавания объектов для анализа медицинских снимков: рентгена, МРТ, гистологических препаратов. Нейронная сеть находит на снимке подозрительные области и обводит их рамкой — то же самое, что делают детекторы объектов на обычных фотографиях, только вместо «автомобиль» или «человек» система выдаёт «потенциальное новообразование».

Исследования показывают, что в ряде задач точность нейросетей сравнима с точностью опытных врачей, а скорость обработки несравнимо выше. Это не означает, что врачи станут не нужны — скорее, система играет роль «второго мнения», которое помогает не пропустить ничего важного.

Промышленность и качество продукции

На производственных линиях камеры с системами распознавания объектов проверяют продукцию: находят царапины, сколы, неправильно установленные детали. В фармацевтике такие системы проверяют, все ли таблетки на месте в упаковке. Скорость — тысячи изделий в час — недостижима для человека-инспектора.

Безопасность и видеонаблюдение

Умные камеры видеонаблюдения обнаруживают оставленные без присмотра предметы, фиксируют людей в зонах, куда вход запрещён, и подают сигнал тревоги при нештатных ситуациях. Система сама решает, что важно, — оператору не нужно смотреть в мониторы 24 часа в сутки.

* * *

Точность против скорости: вечный компромисс

Все системы распознавания объектов сталкиваются с одной и той же дилеммой: чем точнее алгоритм, тем больше вычислений ему нужно и тем медленнее он работает.

Представьте двух художников-портретистов. Один работает быстро — делает набросок за пять минут, схватывает основное, но мелкие детали может упустить. Второй работает тщательно — рисует три часа, но передаёт каждую морщинку. Выбор художника зависит от задачи: для новостного сайта нужен первый, для выставки — второй.

В мире нейросетей для детекции объектов всё точно так же. Один алгоритм — YOLO11x — содержит почти 57 миллионов настраиваемых параметров и работает чуть медленнее, но замечает даже маленькие объекты на заднем плане. Другой — SSD MobileNet v2 — умещается в 4 миллиона параметров, работает почти вдвое быстрее, но может пропустить то, что плохо видно.

Эксперименты, проведённые в рамках данного исследования, показали: на наборе из 150 разнообразных фотографий быстрый алгоритм обрабатывает каждое изображение за 9 миллисекунд, точный — за 21 миллисекунду. При этом точный находит в среднем в два раза больше объектов на одном снимке. Какой выбрать — зависит от задачи.

* * *

Что будет дальше

Прогресс в этой области не останавливается ни на год. Современные системы уже умеют не просто находить объекты, но и определять их точный контур (сегментация), предсказывать, куда движется объект (трекинг), и даже реконструировать трёхмерную форму предмета по двумерному изображению.

Следующий рубеж — сверхлёгкие нейросети для маленьких устройств. Умная камера размером с пуговицу, которая самостоятельно анализирует изображение без отправки данных на сервер, — реалистичная перспектива ближайших лет. Это открывает возможности для носимой электроники, умных домов и промышленного интернета вещей.

Важную роль будут играть и вопросы этики: до каких пределов допустимо использовать распознавание объектов в публичных пространствах? Как защитить приватность граждан? Эти вопросы всё активнее обсуждаются законодателями в разных странах.

* * *

Заключение

Распознавание объектов прошло путь от медленных и ненадёжных алгоритмов 1990-х до систем, работающих быстрее человеческого восприятия. Эта технология незаметно вошла в повседневную жизнь: в смартфоне, в машине, в больнице, на заводе. Развитие продолжается, и в ближайшие годы список применений будет только расти.

Понимание того, как устроены эти системы, важно не только для инженеров. Грамотный пользователь технологии лучше понимает её ограничения, не ждёт от неё чудес и задаёт правильные вопросы — в том числе о том, как данные, которые «видит» система, используются и хранятся.

* * *

Список литературы:

1. Szeliski R. Computer Vision: Algorithms and Applications. — Springer, 2022. — 925 с.

2. Goodfellow I., Bengio Y., Courville A. Deep Learning. — MIT Press, 2016. — 775 с.

3. Redmon J. et al. You Only Look Once: Unified, Real-Time Object Detection // Proceedings of CVPR. — 2016. — С. 779–788.

4. Liu W. et al. SSD: Single Shot MultiBox Detector // ECCV. — Springer, 2016. — С. 21–37.

5. CB Insights. Computer Vision Market Report. — 2024.

КАК КОМПЬЮТЕР УЧИТСЯ ВИДЕТЬ: ТЕХНОЛОГИИ РАСПОЗНАВАНИЯ ОБЪЕКТОВ ВОКРУГ НАС

Похожие статьи