Visual SLAM (Simultaneous Localization and Mapping)

Узнай, как визуальный SLAM обеспечивает автономное картирование. Научись повышать точность с помощью Ultralytics YOLO26 и развертывать решения через платформу Ultralytics Platform.

Visual SLAM (Simultaneous Localization and Mapping — одновременная локализация и построение карты) — это фундаментальный метод компьютерного зрения, который позволяет агенту, например роботу или мобильному устройству, одновременно отображать неизвестную среду и определять собственное положение в этом пространстве, используя только данные с камеры. В отличие от традиционных систем SLAM, полагающихся на дорогостоящие лазерные датчики, Visual SLAM использует стандартные монокулярные, стерео- или RGB-D-камеры. Извлекая и отслеживая визуальные признаки в последовательных кадрах, система вычисляет траекторию камеры, постепенно создавая 3D-облако точек или плотную карту окружения. Эта технология является основой для обеспечения автономной навигации и пространственного восприятия машин.

Link to this sectionКак работает Visual SLAM#

Типичный конвейер Visual SLAM состоит из двух основных компонентов: фронтенда и бэкенда. Фронтенд обрабатывает данные датчиков, выполняя извлечение визуальных признаков (идентификацию характерных углов или краев) и сопоставление этих признаков между кадрами для оценки движения камеры с течением времени. Бэкенд берет эти одометрические данные и выполняет алгоритмы оптимизации, такие как bundle adjustment, чтобы скорректировать дрейф и уточнить как карту среды, так и предполагаемую позу камеры.

Недавние прорывы 2024 и 2025 годов изменили парадигму от традиционных «ручных» методов — подобных тем, что использовались в устаревших фреймворках, таких как ORB-SLAM3, — к подходам глубокого обучения. Современные системы теперь используют нейронные сети для вычисления плотного оптического потока и сопоставления признаков, что делает их крайне устойчивыми к размытию при движении и условиям с низкой текстурированностью. Кроме того, новые методы рендеринга, включающие 3D Gaussian Splatting и Neural Radiance Fields (NeRFs), позволяют создавать фотореалистичные плотные карты в реальном времени, которые передают сложные геометрические детали гораздо лучше, чем стандартные облака точек.

Link to this sectionVisual SLAM vs. LiDAR SLAM vs. отслеживание объектов#

Понимание различий между технологиями картографирования и отслеживания важно для внедрения правильного решения:

Visual SLAM vs. LiDAR SLAM: В то время как Visual SLAM полагается на недорогие датчики камер для восприятия богатых визуальных текстур, LiDAR SLAM использует лазерные лучи для точного измерения физических расстояний. LiDAR обладает высокой точностью, но он дорог и энергозатратен, тогда как Visual SLAM экономически эффективен и предоставляет информацию о цвете, но может испытывать трудности при плохом освещении.
Visual SLAM vs. отслеживание объектов: Отслеживание объектов изолирует и сопровождает движение конкретных сущностей на кадрах видео. Visual SLAM, с другой стороны, отслеживает движение камеры относительно статической среды для построения карты. Однако эти два понятия объединяются в Semantic SLAM, где модели обнаружения объектов идентифицируют динамические объекты, чтобы намеренно исключить их из статической карты.

Link to this sectionРеальные приложения#

Visual SLAM глубоко интегрирован в современные AI-агенты и системы пространственных вычислений.

Робототехника и автономные дроны: Роботы-доставщики и дроны используют Visual SLAM для навигации в средах без GPS, таких как склады или плотные городские застройки. Создавая карты в реальном времени, они могут планировать маршруты и автономно избегать препятствий.
Дополненная реальность (AR) и виртуальная реальность (VR): коммерческие смарт-очки сильно зависят от Visual SLAM при понимании геометрии помещения. Это позволяет AR-системам точно привязывать цифровые объекты, такие как виртуальный монитор, к физическим поверхностям, чтобы они оставались стабильными по мере перемещения пользователя.
Вспомогательные навигационные системы: Последние разработки в области Semantic SLAM на базе глубокого обучения используются для создания носимых навигационных помощников для людей с нарушениями зрения, обеспечивая безопасное построение маршрута в реальном времени в обход динамических физических препятствий.

Link to this sectionИнтеграция Semantic SLAM и YOLO26#

Одной из самых больших проблем в Visual SLAM является работа в динамических средах, где движущиеся объекты искажают карту. Semantic SLAM решает эту задачу путем объединения традиционного конвейера SLAM с высокоскоростными моделями технического зрения. Используя Ultralytics YOLO26 для семантической сегментации или обнаружения, система может семантически размечать сцену и отфильтровывать движущиеся объекты, значительно повышая точность локализации.

В приведенном ниже блоке кода показано, как использовать YOLO26 для определения координат динамических объектов (таких как люди и автомобили), чтобы их можно было явно игнорировать при сопоставлении признаков в движке SLAM:

from ultralytics import YOLO

# Load Ultralytics YOLO26 to detect dynamic objects in the scene
model = YOLO("yolo26n.pt")
results = model("robot_camera_view.jpg")

# Extract bounding boxes of dynamic objects to exclude them from SLAM maps
for box in results[0].boxes:
    if int(box.cls) in [0, 2]:  # Example: Class 0 is person, Class 2 is car
        print(f"Ignore dynamic feature region at coordinates: {box.xyxy[0]}")

Используя современное оборудование edge AI, такое как NVIDIA Jetson, и интегрируя модели через платформу Ultralytics, ты можешь обучать и развертывать легковесные алгоритмы машинного зрения непосредственно вместе с конвейерами SLAM. Для дальнейшего изучения архитектур автономного картографирования обратись к последним публикациям на IEEE Xplore или arXiv, а также узнай, как оптимизировать непрерывные конвейеры машинного зрения в документации Ultralytics.

Visual SLAM (Simultaneous Localization and Mapping)

Link to this sectionКак работает Visual SLAM#

Link to this sectionVisual SLAM vs. LiDAR SLAM vs. отслеживание объектов#

Link to this sectionРеальные приложения#

Link to this sectionИнтеграция Semantic SLAM и YOLO26#

Explore solutions

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

Давай строить будущее ИИ вместе!