Узнайте, как технология Visual SLAM позволяет создавать автономные карты. Научитесь повышать точность с помощью Ultralytics и внедрять решения через Ultralytics .
Visual SLAM (Simultaneous Localization and Mapping) — это основной метод компьютерного зрения, который позволяет агенту, например роботу или мобильному устройству, одновременно строить карту неизвестной среды и определять своё положение в этом пространстве, используя только данные с камеры. В отличие от традиционных систем SLAM, которые полагаются на дорогостоящие лазерные датчики, Visual SLAM использует стандартные монокулярные, стерео- или RGB-D-камеры. Путем извлечения и отслеживания визуальных особенностей на последовательных кадрах изображения система вычисляет траекторию камеры, постепенно строя облако точек 3D или плотную карту окружающей среды. Эта технология является основополагающей для обеспечения автономной навигации и пространственного восприятия у машин.
Типичный конвейер Visual SLAM состоит из двух основных компонентов: фронт-энда и бэк-энда. Фронт-энд обрабатывает данные с датчиков, выполняя извлечение визуальных ориентиров (идентификацию характерных углов или краев) и сопоставляя эти ориентиры между кадрами для оценки движения камеры во времени. Бэк-энд принимает эти одометрические данные и применяет алгоритмы оптимизации, такие как корректировка связки, для устранения дрейфа и уточнения как карты окружающей среды, так и оцененной ориентации камеры.
Последние прорывы в 2024 и 2025 годах привели к смене парадигмы: от традиционных ручных методов определения ориентиров — таких, как те, что использовались в устаревших фреймворках, например ORB-SLAM3, — к подходам на основе глубокого обучения. Современные системы теперь используют нейронные сети для плотного оптического потока и сопоставления признаков, что делает их высокоустойчивыми к размытию движения и средам с низкой текстурой. Кроме того, новые техники рендеринга, включающие 3D Gaussian Splatting и Neural Radiance Fields (NeRF), позволяют создавать фотореалистичное плотное картографирование в реальном времени, которое фиксирует сложные геометрические детали гораздо лучше, чем стандартные облака точек.
Понимание различий между технологиями картографирования и отслеживания имеет решающее значение для внедрения подходящего решения:
Визуальный SLAM тесно интегрирован в современные агенты искусственного интеллекта и системы пространственных вычислений.
Одной из самых сложных задач в области визуального SLAM является работа с динамичными средами, в которых движущиеся объекты искажают карту. Семантический SLAM решает эту проблему за счет объединения традиционного конвейера SLAM с высокоскоростными моделями компьютерного зрения. Используя, например, Ultralytics для сегментации или обнаружения объектов, система может семантически маркировать сцену и отфильтровывать движущиеся объекты, что значительно повышает точность локализации.
В приведенном ниже блоке кода показано, как с помощью YOLO26 определять координаты динамических объектов (таких как люди и автомобили), чтобы механизм сопоставления ориентиров SLAM мог их явно игнорировать:
from ultralytics import YOLO
# Load Ultralytics YOLO26 to detect dynamic objects in the scene
model = YOLO("yolo26n.pt")
results = model("robot_camera_view.jpg")
# Extract bounding boxes of dynamic objects to exclude them from SLAM maps
for box in results[0].boxes:
if int(box.cls) in [0, 2]: # Example: Class 0 is person, Class 2 is car
print(f"Ignore dynamic feature region at coordinates: {box.xyxy[0]}")
Используя современное периферийное оборудование для искусственного интеллекта, такое как NVIDIA , и интегрируя модели через Ultralytics , разработчики могут обучать и развертывать облегченные алгоритмы обработки изображений непосредственно в рамках конвейеров SLAM. Для более подробного изучения архитектур автономного картографирования ознакомьтесь с новейшими публикациями на IEEE Xplore или arXiv, а также узнайте, как оптимизировать конвейеры непрерывной обработки изображений, в Ultralytics .
Начните свой путь в будущее машинного обучения