Статья:

МЕТОДЫ ОБРАБОТКИ ДАННЫХ СИСТЕМЫ ТЕХНИЧЕСКОГО ЗРЕНИЯ БТС В ЦЕЛЯХ ОБНАРУЖЕНИЯ ОБЪЕКТОВ С ИСПОЛЬЗОВАНИЕМ НЕЙРОСЕТЕВЫХ ТЕХНОЛОГИЙ

Журнал: Научный журнал «Студенческий форум» выпуск №18(369)

Рубрика: Технические науки

Выходные данные
Шульженко А.Д. МЕТОДЫ ОБРАБОТКИ ДАННЫХ СИСТЕМЫ ТЕХНИЧЕСКОГО ЗРЕНИЯ БТС В ЦЕЛЯХ ОБНАРУЖЕНИЯ ОБЪЕКТОВ С ИСПОЛЬЗОВАНИЕМ НЕЙРОСЕТЕВЫХ ТЕХНОЛОГИЙ // Студенческий форум: электрон. научн. журн. 2026. № 18(369). URL: https://nauchforum.ru/journal/stud/369/186102 (дата обращения: 10.06.2026).
Журнал опубликован
Мне нравится
на печатьскачать .pdfподелиться

МЕТОДЫ ОБРАБОТКИ ДАННЫХ СИСТЕМЫ ТЕХНИЧЕСКОГО ЗРЕНИЯ БТС В ЦЕЛЯХ ОБНАРУЖЕНИЯ ОБЪЕКТОВ С ИСПОЛЬЗОВАНИЕМ НЕЙРОСЕТЕВЫХ ТЕХНОЛОГИЙ

Шульженко Анастасия Дмитриевна
магистрант, Московский Политехнический Университет, РФ, г. Москва

 

METHODS OF PROCESSING DATA OF THE UNTIL VISION SYSTEM FOR THE PURPOSE OF OBJECT DETECTION USING NEURAL NETWORK TECHNOLOGIES.

 

Shulzhenko Anastasia Dmitrievna

Master, Moscow Polytechnic University, Russia, Moscow

 

Аннотация. В статье рассматриваются современные нейросетевые методы объединения данных, получаемых с различных сенсоров, для эффективного обнаружения объектов. Особое внимание уделено архитектурам многоуровневого слияния, таким как BEVFusion и их аналогам, которые обеспечивают слияние информации из различных источников (например, LiDAR, камеры, радары) в единое представление. Акцент сделан на преимуществах глубокого обучения для повышения точности и быстрого обнаружения в системах, а также на проблемах согласования и синхронизации данных с разными датчиками. Цель статьи – показать масштабность и перспективность нейросетевых подходов в создании надежных и универсальных систем многомодального наблюдения окружающей среды. В работе проводится анализ существующих методов и их сравнительная оценка по качеству обнаружения объектов в сложных условиях.

Abstract. The article discusses modern neural network methods of combining data obtained from various sensors for effective object detection. Particular attention is paid to multilevel fusion architectures such as BEVFusion and their analogues, which combine information from various sources (for example: LiDAR, cameras, radars) into a single representation. The focus is on the benefits of deep learning to improve accuracy and rapid detection in systems, as well as the challenges of matching and synchronizing data with different sensors. The purpose of the article is to show the scale and prospects of neural network approaches in creating reliable and universal multimodal environmental monitoring systems. The paper analyzes existing methods and their comparative assessment of the quality of object detection in difficult conditions.

 

Ключевые слова: Нейросетевые методы, объединение данных, сенсор, BEVFusion, LiDAR.

Keywords: Neural network methods, data pooling, sensor, BEVFusion, LiDAR.

 

Проблема точного восприятия окружающей обстановки в современных автономных системах, например, беспилотных транспортных средствах и робототехнике является фундаментальной в сфере безопасности и эффективной навигации. Ни один тип сенсора не считается идеальным во всех условиях. Камеры предоставляют богатую текстуальную и цветовую информацию (семантику), но страдают от зависимости от освещения, плохой работы в условиях тумана или дождя и не позволяют напрямую измерять расстояние. Лидары (LiDAR) точно измеряют дистанцию до объектов, создавая 3D-облака точек, и не зависят от освещения, но имеют низкое разрешение и плохую восприимчивость к текстурам (например, сложно определить цвет светофора). Радары (Radar) эффективны для измерения скорости и работают в любую погоду, но предоставляют очень разреженные данные.

Очевидным решением является объединение данных с этих разнородных сенсоров. Классические подходы к сенсорной фузии, такие как фильтр Калмана, успешно справляются с объединением данных на уровне объектов или треков. Однако они не способны извлекать синергетические преимущества из сырых, необработанных данных. Нейросетевые методы, и, в частности, глубокое обучение, открыли новую эру в этой области, позволив осуществлять глубокую фузию (Deep Fusion) на уровне признаков. Это позволяет создавать системы, которые не просто комбинируют готовые гипотезы, а совместно обучаются на многомодальных данных, извлекая более информативные представления, превосходящие сумму отдельных частей.

Данная статья посвящена анализу передовых нейросетевых архитектур для объединения сенсорных данных, с особым фокусом на методы, создающие единое представление пространства, такие как BEV (Bird's-Eye View). Мы рассмотрим ключевые подходы, их преимущества, проблемы и проведем сравнительный анализ их эффективности.

Существует несколько парадигм интеграции данных в нейронных сетях, которые можно классифицировать по уровню, на котором происходит слияние.

1.Раннее слияние (Data-Level Fusion) [1]. Этот подход предполагает объединение сырых данных до их подачи в нейросеть. Например, можно проецировать 3D-точки LiDAR на пиксели изображения с камеры и объединять их в общий тензор. Хотя такая модель теоретически может извлечь максимальную информацию, на практике она редко используется из-за значительных проблем:

  • неоднородность данных (данные LiDAR (пространственные координаты) и камеры (RGB-пиксели) имеют разную природу и распределение);
  • проблема выравнивания (требуется точная пространственная и временная синхронизация сенсоров);
  • вычислительная сложность (работа с объединенным сырым тензором требует огромных вычислительных ресурсов).

2. Позднее слияние (Decision-Level Fusion) [2]. Здесь каждый тип данных обрабатывается своей отдельной нейросетью (экспертом), а итоговые детекции или классификации объединяются на последнем этапе. Например, детектор на основе LiDAR и детектор на основе камеры работают независимо, а их выходы объединяются с помощью не максимального подавления или других алгоритмов. Их преимущества – простота реализации, модульность, отказоустойчивость (отказ одного сенсора не ломает всю систему). Недостатками является – невозможность компенсировать слабости одного модальности на этапе извлечения признаков другого, потеря синергетического эффекта, что приводит к снижению точности.

3. Слияние на уровне признаков (Feature-Level Fusion) [3]. Это наиболее популярный и эффективный подход в современных архитектурах. Данные от каждого сенсора сначала проходят через свои «стволовые» сети (backbone), которые извлекают из них высокоуровневые признаки. Затем эти признаки объединяются в общем пространстве, и уже слиянный тензор подается на головку детекции (detection head).

Явным преимуществом этого метода является возможность сети научиться сложным взаимодействиям между модальностями. Например, визуальные признаки с камеры могут помочь уточнить границы объекта, который в данных LiDAR выглядит разреженным.

Но в данном методе существует неясность в каком пространстве производить слияние. Исторически это делалось в пространстве изображения (Image View) или в 3D-пространстве сцены. Однако прорывным стало использование представления с высоты птичьего полета (BEV).

Ревалюционной технологией в представлении BEV («с высоты птичьего полета») стала архитектура BEVFusion, а также эталоном в области многомодального детектирования, продемонстрировав State-of-the-Art результаты на benchmark-наборах данных, таких как nuScenes [4].

Традиционные методы слияния на уровне признаков в пространстве изображения (Image View) имеют фундаментальный недостаток: перспективные искажения. Объекты, находящиеся на разном расстоянии от камеры, имеют разный масштаб, что усложняет задачу для нейросети. BEV-представление решает эту проблему, проецируя все признаки в единую ортогональную 2D-плоскость, «вид сверху». Это представление:

  • интуитивно для задач навигации и планирования пути;
  • избавлено от перспективных искажений;
  • естественно для работы с данными LiDAR, которые изначально представляют собой 3D-облако точек.

Архитектура BEVFusion состоит из нескольких ключевых модулей:

  1. Модальные энкодеры (отдельные backbone-сети для камеры и для LiDAR извлекают признаки из исходных данных).
  2. Преобразование в BEV-пространство – это самый сложный и инновационный этап.
    • Для LiDAR преобразование относительно простое, так как облако точек можно легко вокселизовать (разбить на 3D-ячейки) и спроецировать на 2D-плоскость.
    • Для камер используется техника Lift-Splat-Shoot (LSS) или аналогичные. Сеть предсказывает глубину для каждого пикселя изображения, «поднимая» 2D-признаки в 3D-пространство. Затем эти 3D-признаки «разбрасываются» (splat) на BEV-плоскость, формируя BEV-карту визуальных признаков.
  3. Слияние в BEV-пространстве (полученные BEV-карты от LiDAR и камер объединяются (часто с помощью поэлементного сложения или конкатенации с последующей сверткой, в следствии чего у нас появлется единый тензор, содержащий и геометрическую информацию от LiDAR, и семантическую информацию от камер).
  4. Детекционная головка (на основе слиянного BEV-тензора стандартная детекторная головка (например, на основе сверток) предсказывает ограничивающие рамки (bounding boxes), классы и ориентацию объектов).

Преимущества BEVFusion:

  • высокая точность (значительно превосходит одномодальные и другие методы фузии благодаря эффективному объединению сильных сторон каждой модальности);
  • устойчивость (система становится более надежной, например, если камера ослеплена солнцем, геометрические признаки LiDAR сохраняют работоспособность, и наоборот);
  • эффективность для последующих задач (BEV-представление идеально подходит для задач прогнозирования траекторий и планирования движения).

BEVFusion породил целое семейство архитектур, которые развивают его идеи.

  • TransFusion фокусируется на улучшении этапа слияния. Вместо простого объединения тензоров, TransFusion использует механизм внимания (Transformer), где признаки LiDAR выступают в роли запроса (query), а признаки камер – в роли ключей (keys) и значений (values). Это позволяет сети «расспрашивать» визуальные признаки только для тех областей, где есть объекты-кандидаты от LiDAR, что делает процесс более эффективным и точным [5–6].
  • DeepInteraction и MVP также используют трансформеры для моделирования перекрестного взаимодействия между модальностями, но на разных уровнях представления, добиваясь еще более тесной интеграции признаков [7–8].
  • Архитектуры базирующиеся на методах с использованием радаров начинают адаптировать для включения данных радара. Радарные признаки, часто представляющие собой 2D-точки с доплеровской информацией (скоростью), также проецируются в BEV-пространство, что особенно ценно для обнаружения движущихся объектов в плохих погодных условиях [9].

Сравнительная оценка (на основе открытых benchmark-наборов данных, например, nuScenes) ппредставлена в таблице 1:

Таблица 1.

Сравнительная оценка методов

Метод

Основная идея

Преимущества

mAP (Mean Average Precision)

Только камера

Детекция в пространстве изображения

Низкая стоимость сенсора

~0.38

Только LiDAR

Детекция в 3D/BEV

Высокая точность локализации

~0.65

Позднее слияние

Объединение выходов детекторов

Простота, отказоустойчивость

~0.67

BEVFusion

Глубокое слияние в BEV-пространстве

Максимальная точность, устойчивость

~0.70

 

Как видно из таблицы, методы глубокого слияния в BEV-пространстве демонстрируют наивысшие показатели точности (mAP).

Несмотря на впечатляющие успехи, область сталкивается с рядом проблем:

  1. Калибровка и синхронизация. Все методы глубокой фузии критически зависят от точной пространственной (калибровка) и временной синхронизации сенсоров. Ошибки на этом этапе сводят на нет все преимущества сложных архитектур.
  2. Вычислительная сложность. Преобразование видов с камер в BEV-пространство (например, LSS) является ресурсоемкой операцией. Оптимизация для работы в реальном времени на бортовых компьютерах – активная область исследований.
  3. Обобщающая способность. Модели, обученные на данных из одного города или при определенных погодных условиях, могут плохо работать в других. Разработка методов, robustных к domain shift (сдвигу домена) – ключевая задача.
  4. Интерпретируемость. «Черный ящик» большой нейросети затрудняет анализ причин ошибок, что критически важно для сертификации автономных систем.

Перспективы развития связаны с преодолением данных трудностей путем:

  • разработки более эффективных и быстрых модулей View Transformation;
  • самовосстанавливающейся калибровки и асинхронной фузии;
  • активного обучения и методов увеличения данных для улучшения обобщающей способности;
  • интеграции временных последовательностей (4D-детекция) для лучшего прогнозирования.

Анализ текущих методов многомодальной 3D-детекции объектов демонстрирует, что BEVFusion является значительным шагом вперед в архитектуре систем восприятия для беспилотных транспортных средств. Для объективной оценки давайте сравним результаты BEVFusion с ведущими альтернативными решениями: MV3D, PointPainting, DeepFusion, MVP и BEVFormer.

На эталонном датасете nuScenes качество распознавание методом BEVFusion достигает 70,2% mAP и 72,9% NDS (тест сет), что превосходит все конкурирующие методы без использования тестовых ансамблей [10]. Это превышает лучший предыдущий результат (TransFusion: 68,9% mAP, 71,6% NDS) на 1,3 процентных пункта – это значимое улучшение в многообразии методов детекции [10]. Методы на основе точечного уровня слияния показывают менее высокие результаты. PointPainting: 65,8 – 66,8% mAP, 69,6 – 71,0% NDS, это на 3,4 – 4,4 процентных пункта mAP ниже, чем у BEVFusion [10]. В свою очередь MVP показало следующие результаты: 66,4% mAP, 70,5% NDS, происходит потеря 3,8 процентных пункта mAP по сравнению с BEVFusion [10]. Метод MV3D, исторически первый подход к многомодальному слиянию, показывает низкие результаты даже при сравнении с современными базовыми методами LiDAR-only (CenterPoint: 60,3% mAP), демонстрируя принципиальные ограничения архитектуры [10]. BEVFormer, будучи чисто камерным методом, достигает только 44,5% mAP – это на 25,7 процентных пункта ниже BEVFusion, что подчеркивает фундаментальное превосходство многомодального подхода при оптимальном использовании LiDAR информации [10].

Производительность и вычислительная эффективность. BEVFusion демонстрирует высокую вычислительную эффективность, которая критична для обработки систем технического зрения в беспилотных транспортных системах в целях обнаружения объектов дорожной обстановки в ситуациях  близких к реальному времени, как в благоприятных, так и неблагоприятных условиях. Сравним вычислительные затраты и зажержку основных методов: BEVFusion, PointPainting, MVP и TransFusion. Сравнительные данные представлены в таблице 2.

Таблица 2.

Сравнительная таблица вычислительных затрат и латентности

Метод

Вычислительные затраты (MACs)

Задержка (ms на RTX 3090)

BEVFusion

253,2

119,2

PointPainting

370

185,8

MVP

371,7

187,1

TransFusion

485,8

156,6

 

В сравнении вычислительных затрат, представленных в миллионах операций (MACs), метод BEVFusion демонстрирует наименьшие значения – 253,2 MACs. В то время как PointPainting и MVP имеют значительно более высокие затраты, составляющие 370,0 и 371,7 MACs соответственно, что делает их на 46% и 47% более затратными по сравнению с BEVFusion. Наибольшие вычислительные затраты наблюдаются у метода TransFusion, который требует 485,8 MACs, что примерно в 1,9 раза больше, чем у BEVFusion [10].

Что касается латентности, измеренной в миллисекундах на графической карте RTX 3090, BEVFusion также показывает лучшие результаты с показателем 119,2 ms. В сравнении с ним, PointPainting и MVP имеют значительно большую задержку – 185,8 ms и 187,1 ms соответственно, что делает их на 56% и 57% медленнее. Метод TransFusion, хотя и менее медленный по сравнению с PointPainting и MVP, все же показывает большую задержку в 156,6 ms, что на 31% медленнее, чем у BEVFusion.

Такая эффективность стала возможной благодаря оптимизации операции BEV pooling, которая была ускорена с 500 ms до 12 ms (40-кратное улучшение) через применение техник сокращения интервала и предварительных вычислений. Это позволило BEVFusion работать с частотой 8,4 FPS на стандартном GPU, что приближается к требованиям реального времени для автономных систем.

Ограничения Point-Level Fusion, рассмотрим на методах PointPainting и MVP. В PointPainting критическое ограничение раскрывается при анализе плотности признаков: из-за несоответствия разрешений между камерой (2,3 млн пикселей) и LiDAR (80 – 150 тысяч точек для 32-канального сканера), лишь 5% признаков камеры соответствуют точкам LiDAR, а остальные 95% безвозвратно теряются. Это особенно критично для семантически-ориентированных задач (сегментация карт): PointPainting достигает 49,1 mIoU против 62,7 mIoU BEVFusion – разница в 13,6 пункта [10]. MVP предпринимает попытку исправить эту проблему через генерацию виртуальных точек на основе 2D детекций и оценки глубины. Однако этот подход приводит к новым проблемам:

1. происходит каскадная ошибка детекции (качество 3D детекции напрямую зависит от точности 2D детекции, при деградации последней на 9 пунктов mAP, NDS падает на 0,8 пункта);

2. у метода оценки глубины имеется существенное ограничение по локализации объекта (методом ближайших соседей достигается Чамферное расстояние в 0,33 м, что недостаточно для точной локализации дальних объектов);

3. асимметричное распределение признаков (плотность виртуальных точек неравномерна по сцене).

Несмотря на эти ограничения, MVP показывает значительное улучшение на малых объектах (+20,6 mAP для велосипедов), но проигрывает BEVFusion в общей производительности и особенно на сегментационных задачах.

Теперь рассмотрим ограничения методов MV3D и DeepFusion. Как описывалось ранее MV3D использует парадигму, где 3D предложения сначала генерируются в BEV пространстве, затем проецируются на все представления (BEV, фронтальный вид). Фундаментальные ограничения данного метода: объектоцентричный подход требует для каждого предложения извлечь признаки из трех представлений, что создает вычислительное узкое место; архитектура принципиально объектоцентрична, что делает невозможным применение для сегментации и других пиксельных задач; использование полносвязных слоев вместо современных трансформеров, как следствие отсутствие эффективных техник нормализации и регуляризации. DeepFusion пытается решить проблему калибровки через механизм перекресного внимания между LiDAR и камерными признаками. Основные проблемы в данном подходе: при применении аугментации данных (ротация облака точек, отражение изображения) возникает несоответствие между модальностями, требующее специального выравнивания; высокие вычислительные затраты (требует 485,8 MACs – почти в 2 раза больше BEVFusion); на Waymo лучшие результаты требуют ансамбля из 25 моделей с аугментацией на этапе тестирования.

Ограничения BEVFormer, использующего только камеры для 3D-детекции, проявляются в результате 44,5% mAP, что подчеркивает недостатки камерных методов. Основные проблемы включают отсутствие прямого измерения глубины, что приводит к систематическим ошибкам при прогнозировании глубины пикселей, особенно на дальних расстояниях. Также возникают трудности с оценкой малых и удаленных объектов без дополнительной информации. Кроме того, производительность системы значительно ухудшается в экстремальных условиях, таких как ночь, где mAP составляет всего 21,2%.

В зависимости от сценария результаты подходов разнятся. При детекции малых объектов (например, человека) BEVFusion показывает особенно сильное превосходство (размеры объекта < 4м), что критично для задач беспилотной транспортной системы. В таблице 3 приведены результаты детекции человека методами CenterPoint, MVP, BEVFusion.

Таблица 3.

Детекция малых объектов (человека)

Метод

CenterPoint

MVP

BEVFusion

Метрика (mAP)

36,5

36,9

52,0

 

На дальних расстояниях преимущество BEVFusion возрастает. По сравнению с методом LiDAR-only BEVFusion показывает результаты лучше на 7,3% mAP на расстояниях 20 – 30м, при большем расстоянии метрики по сравнению с  LiDAR-only увеличиваются. BEVFusion имеет лучше метрики чем MVP на 1,1% mAP для дальних объектов. Причиной этому служит несовершенство LiDAR, на таком расстоянии он возвращает минимум точек (часто < 5), и дополнительная информация из камеры становится решающей. BEVFusion использует эту информацию эффективнее благодаря сохранению полной плотности признаков в BEV пространстве.

В экстремальных условиях данные методы показали следующие результаты, представленные в таблице 4.

Таблица 4

Детекция в экстремальных условиях

Метод

Условие

Солнечно

Дождливо

День

Ночь

CenterPoint

62,9 mAP

59,2 mAP

62,8 mAP

35,4 mAP

MVP

65,9 mAP

66,3 mAP

66,3 mAP

38,4 mAP

BEVFusion

68,2 mAP

69,9 mAP

68,5 mAP

42,8 mAP

 

BEVFusion демонстрирует наилучшие результаты при всех условиях. CenterPoint отстает на 5,3 – 10,7 процентных пункта, а MVP дает промежуточные результаты с разницей в 2,2 – 4,4 процентных пункта. Ночные условия являются большим испытанием для всех архитектур включая BEVFusion. Дождь, как и снег, или туман также может существенно искажать картину, особенно архитектур, использующих при детекции только LiDAR.

Анализ при различных степенях разреженности LiDAR (1-лучевой, 4-лучевой, 16-лучевой) в очередной раз показывает принципиальное преимущество BEVFusion. При 1-лучевом LiDAR BEVFusion достигает 63,8% NDS, MVP в свою очередь – 52,0% NDS (разница 11,8%). Эффективность MACs: BEVFusion использует 186,1 MACs, в то время для MVP при 16-лучевом LiDAR это значение равно 292,7 MACs [10]. Эта разница объясняется архитектурной независимостью BEVFusion от плотности исходного облака точек, тогда как MVP принципиально зависит от наличия LiDAR точек для корректной работы оценки глубины.

Говоря об универсальности и модульности архитектуры BEVFusion – единая архитектура для множественных задач восприятия. В таблице 5 приведены значения результатов среднего пересечения над объединением (mIoU) таких архитектур как: BEVFormer, CenterPoint, PointPainting, BEVFusion.

Таблица 5.

Результаты среднего пересечения над объединением (mIoU)

Метод

mIoU

BEVFormer

56,6%

CenterPoint

48,6%

PointPainting

49,1%

BEVFusion

62,7%

 

BEVFusion демонстрирует преимущество перед BEVFormer на 6,1 процентных пунта, CenterPoint и PointPainting на 14,1 и 13,6 процентных пункта соответственно. Методы point-level fusion (PointPainting, MVP) были разработаны под задачу детекции объектов и показывают минимальное улучшение или даже ухудшение на семантических задачах. Метод MV3D вообще не поддерживает пиксельные задачи.

BEVFusion демонстрирует наивысшие показатели mAP (70,2%) и NDS (72,3%) среди рассмотренных методов. Особенно заметно преимущество над камерными методами (более 22% абсолютного прироста mAP) и над LiDAR-only методом CenterPoint (около 10% прироста).

Сравнение вычислительной эффективности (таблица 1) показывает, что BEVFusion также является наиболее лёгкой архитектурой с наименьшим количеством операций (253,2 MACs) и минимальной задержкой (119,2 мс).

Проведённый сравнительный анализ убедительно демонстрирует превосходство глубокого слияния в BEV-пространстве над традиционными подходами и альтернативными архитектурами. BEVFusion, объединяя геометрическую точность LiDAR и семантическое богатство камер, не только достигает максимальных показателей mAP и NDS, но и обладает наилучшей вычислительной эффективностью. Это стало возможным благодаря оптимизации операции BEV pooling (ускорение в 40 раз по сравнению с наивной реализацией) и использованию облегчённого вокселизатора PointPillars.

Преимущества мультимодального подхода особенно ярко проявляются в сложных сценариях: дождь, ночное время, обнаружение малоразмерных и удалённых объектов. BEVFusion успешно компенсирует недостатки каждой модальности: при нехватке LiDAR-точек на дальних расстояниях камера предоставляет необходимый семантический контекст, а в условиях недостаточной освещённости LiDAR остаётся надёжным источником геометрической информации. Результаты таблицы 3 подтверждают, что в ночных сценах комбинация сенсоров даёт на 7,4% более высокий mAP по сравнению с использованием только LiDAR.

Тем не менее остаётся ряд нерешённых проблем, ограничивающих практическое внедрение таких систем. Критической является точность пространственной и временной калибровки сенсоров – ошибки на этом этапе нивелируют все преимущества глубокой фузии. Вычислительная сложность преобразования камерных изображений в BEV (LSS) всё ещё высока, и задача достижения стабильной работы в реальном времени на бортовых вычислителях остаётся открытой. Кроме того, модели, обученные на данных одного города, могут значительно терять точность при переносе в другую среду (проблема domain shift). Наконец, недостаточная интерпретируемость «чёрного ящика» глубокой сети затрудняет анализ ошибок и сертификацию систем безопасности.

Перспективными направлениями развития являются разработка более лёгких модулей View Transformation, методов автоматической калибровки и асинхронной фузии, active learning и адаптации к новым доменам, а также интеграция временны́х последовательностей (4D-детекция) для предсказания движений объектов.

Нейросетевые методы объединения данных с различных сенсоров, в особенности архитектуры типа BEVFusion, совершили прорыв в задачах обнаружения и восприятия окружающей среды для автономных систем. Переход к глубокому слиянию на уровне признаков в едином и геометрически согласованном BEV-пространстве позволил раскрыть синергетический потенциал камер, лидаров и радаров, значительно повысив точность, надежность и устойчивость систем.

Несмотря на существующие  трудности, связанные с вычислительной сложностью и требованиями к данным, вектор развития очевиден. Будущее за универсальными, надежными и эффективными системами многомодального восприятия, которые смогут уверенно работать в самых сложных и непредсказуемых условиях окружающей среды, открывая дорогу для массового внедрения автономного транспорта и интеллектуальных робототехнических комплексов.

 

Список литературы:
1. P. Zhang – A data-level fusion model for unsupervised attribute selection in multi-source homogeneous data – [Электронный ресурс] – URL: https://www.sciencedirect.com (дата обращения: 10.11.2025)
2. S. Roheda – Decision Level Fusion: An Event Driven Approach – [Электронный ресурс] – URL: https://arxiv.org (дата обращения: 10.11.2025)
3. M.R. Izadi – Feature Level Fusion from Facial Attributes for Face Recognition – [Электронный ресурс] – URL: https://arxiv.org (дата обращения: 10.11.2025)
4. Z. Liu – BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation – [Электронный ресурс] – URL: https://arxiv.org (дата обращения: 10.11.2025)
5. C. Zhou – Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model – [Электронный ресурс] – URL: https://arxiv.org (дата обращения: 16.11.2025).
6. M.F. Sikder – TransFusion: Generating long, high fidelity time series using diffusion models with transformers – [Электронный ресурс] – URL: https://www.sciencedirect.com (дата обращения: 16.11.2025).
7. Z. Yang – DeepInteraction: 3D Object Detection via Modality Interaction – [Электронный ресурс] – URL: https://proceedings.neurips.cc (дата обращения: 16.11.2025).
8. T. Yin, X. Zhou – Multimodal virtual point 3d detection – 2021 – [Электронный ресурс] – URL: https://arxiv.org (дата обращения: 16.11.2025).
9. Н.В. Шестаков – Применение нейросетей для распознавания объектов по их радиолокационным спектрам – [Электронный ресурс] – URL: https://cyberleninka.ru (дата обращения: 16.11.2025).
10. T. Liang – BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework – [Электронный ресурс] – URL: https://openreview.net/ (дата обращения: 16.11.2025)