Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Визуальный SLAM (одновременная локализация и построение карты)

Узнайте, как технология Visual SLAM позволяет создавать автономные карты. Научитесь повышать точность с помощью Ultralytics и внедрять решения через Ultralytics .

Visual SLAM (Simultaneous Localization and Mapping) — это основной метод компьютерного зрения, который позволяет агенту, например роботу или мобильному устройству, одновременно строить карту неизвестной среды и определять своё положение в этом пространстве, используя только данные с камеры. В отличие от традиционных систем SLAM, которые полагаются на дорогостоящие лазерные датчики, Visual SLAM использует стандартные монокулярные, стерео- или RGB-D-камеры. Путем извлечения и отслеживания визуальных особенностей на последовательных кадрах изображения система вычисляет траекторию камеры, постепенно строя облако точек 3D или плотную карту окружающей среды. Эта технология является основополагающей для обеспечения автономной навигации и пространственного восприятия у машин.

Как работает визуальный SLAM

Типичный конвейер Visual SLAM состоит из двух основных компонентов: фронт-энда и бэк-энда. Фронт-энд обрабатывает данные с датчиков, выполняя извлечение визуальных ориентиров (идентификацию характерных углов или краев) и сопоставляя эти ориентиры между кадрами для оценки движения камеры во времени. Бэк-энд принимает эти одометрические данные и применяет алгоритмы оптимизации, такие как корректировка связки, для устранения дрейфа и уточнения как карты окружающей среды, так и оцененной ориентации камеры.

Последние прорывы в 2024 и 2025 годах привели к смене парадигмы: от традиционных ручных методов определения ориентиров — таких, как те, что использовались в устаревших фреймворках, например ORB-SLAM3, — к подходам на основе глубокого обучения. Современные системы теперь используют нейронные сети для плотного оптического потока и сопоставления признаков, что делает их высокоустойчивыми к размытию движения и средам с низкой текстурой. Кроме того, новые техники рендеринга, включающие 3D Gaussian Splatting и Neural Radiance Fields (NeRF), позволяют создавать фотореалистичное плотное картографирование в реальном времени, которое фиксирует сложные геометрические детали гораздо лучше, чем стандартные облака точек.

Визуальный SLAM, LiDAR-SLAM и отслеживание объектов

Понимание различий между технологиями картографирования и отслеживания имеет решающее значение для внедрения подходящего решения:

  • Visual SLAM и LiDAR SLAM: в то время как Visual SLAM использует недорогие камеры для распознавания сложных визуальных текстур, LiDAR SLAM использует лазерные лучи для точного измерения физических расстояний. LiDAR отличается высокой точностью, но является дорогостоящим и энергоемким, тогда как Visual SLAM является экономичным и предоставляет информацию о цвете, однако может испытывать трудности в условиях слабого освещения.
  • Визуальный SLAM и отслеживание объектов: Отслеживание объектов позволяет выделять и отслеживать движение конкретных объектов в видеокадрах. Визуальный SLAM, напротив, отслеживает движение камеры относительно статичного окружения для построения карты. Однако эти два понятия объединяются в семантическом SLAM, где модели обнаружения объектов выявляют динамические объекты, чтобы целенаправленно исключить их из статичной карты.

Применение в реальном мире

Визуальный SLAM тесно интегрирован в современные агенты искусственного интеллекта и системы пространственных вычислений.

  • Робототехника и автономные дроны: Роботы-курьеры и дроны используют технологию Visual SLAM для навигации в условиях отсутствия GPS-сигнала, например на складах или в густозастроенных городских районах. Создавая карты в режиме реального времени, они могут самостоятельно прокладывать маршруты и обходить препятствия.
  • Дополненная реальность (AR) и виртуальная реальность (VR): Коммерческие «умные» очки в значительной степени полагаются на технологию Visual SLAM для определения геометрии помещения. Это позволяет системам AR точно фиксировать цифровые объекты, такие как виртуальный монитор, на физических поверхностях, благодаря чему они остаются стабильными при перемещении пользователя.
  • Системы навигационной поддержки: Последние достижения в области семантического SLAM на основе глубокого обучения используются для создания носимых навигационных устройств для людей с нарушениями зрения, обеспечивающих безопасную навигацию в режиме реального времени в условиях динамически меняющихся физических препятствий.

Интеграция семантического SLAM и YOLO26

Одной из самых сложных задач в области визуального SLAM является работа с динамичными средами, в которых движущиеся объекты искажают карту. Семантический SLAM решает эту проблему за счет объединения традиционного конвейера SLAM с высокоскоростными моделями компьютерного зрения. Используя, например, Ultralytics для сегментации или обнаружения объектов, система может семантически маркировать сцену и отфильтровывать движущиеся объекты, что значительно повышает точность локализации.

В приведенном ниже блоке кода показано, как с помощью YOLO26 определять координаты динамических объектов (таких как люди и автомобили), чтобы механизм сопоставления ориентиров SLAM мог их явно игнорировать:

from ultralytics import YOLO

# Load Ultralytics YOLO26 to detect dynamic objects in the scene
model = YOLO("yolo26n.pt")
results = model("robot_camera_view.jpg")

# Extract bounding boxes of dynamic objects to exclude them from SLAM maps
for box in results[0].boxes:
    if int(box.cls) in [0, 2]:  # Example: Class 0 is person, Class 2 is car
        print(f"Ignore dynamic feature region at coordinates: {box.xyxy[0]}")

Используя современное периферийное оборудование для искусственного интеллекта, такое как NVIDIA , и интегрируя модели через Ultralytics , разработчики могут обучать и развертывать облегченные алгоритмы обработки изображений непосредственно в рамках конвейеров SLAM. Для более подробного изучения архитектур автономного картографирования ознакомьтесь с новейшими публикациями на IEEE Xplore или arXiv, а также узнайте, как оптимизировать конвейеры непрерывной обработки изображений, в Ultralytics .

Давайте вместе создадим будущее искусственного интеллекта!

Начните свой путь в будущее машинного обучения