Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Обнаружение 3D-объектов

Узнайте о распознавании 3D-объектов: как LiDAR, облака точек и глубокое обучение создают точные 3D-ограничители для автономных транспортных средств, робототехники и AR.

Обнаружение трехмерных объектов - сложная техника компьютерного зрения (CV), которая идентифицирует, классифицирует и локализует объекты в трехмерном пространстве. В отличие от традиционного 2D обнаружения объектов, при котором рисуется плоская прямоугольная плоскую прямоугольную рамку вокруг объекта на плоскости изображения, 3D обнаружение объектов оценивает ориентированное трехмерное ограничительное поле - кубоид, определяемый координатами центра (x, y, z), размерами (длина, ширина, высота) и ориентацией (угол наклона). Эта возможность позволяет системам искусственного интеллекта (ИИ) воспринимать размеры, расстояние и положение объектов в реальном мире, что необходимо для физического взаимодействия и навигации. навигации.

Как работает обнаружение 3D-объектов

Для восприятия глубины и объема 3D-модели обнаружения объектов опираются на источники данных, которые фиксируют пространственную геометрию. В то время как двухмерные методы опираются исключительно на интенсивность пикселей, 3D-методы обрабатывают данные с современных датчиков:

  • LiDAR (Light Detection and Ranging): Излучает лазерные импульсы для точного измерения расстояний, создавая разреженное 3D-представление, известное как облако точек.
  • Стереокамеры: Используют две линзы для имитации бинокулярного зрения, вычисляя глубину через карты диспаратности для воссоздания трехмерной структуры.
  • Монокулярные камеры: Использование глубокого обучения (DL) для определения глубины по отдельным часто называемых "псевдо-LiDAR".

Специализированные архитектуры обрабатывают эти данные. Например, PointNet обрабатывает необработанные облака точек напрямую, в то время как VoxelNet делит трехмерное пространство на объемные сетки (воксели) для применения конволюционных операций. Эти модели выдают точные 3D-координаты и ориентацию объектов, что позволяет машинам понять не только то, что представляет собой объект, но и то, где он находится в физическом мире.

Обнаружение 3D- и 2D-объектов

Основное различие заключается в пространственной размерности и предоставляемой информации:

  • Обнаружение двумерных объектов: Работает в пространстве изображения (пиксели). Выдает ограничивающую рамку (min_x, min_y, max_x, max_y), которая указывает на положение объекта в кадре камеры, но не имеет глубины или абсолютного размера.
  • Обнаружение трехмерных объектов: Работает в мировом пространстве (метры/единицы). На выходе получается трехмерный кубоид, учитывающий глубину, физические размеры и вращение. Это лучше справляется с окклюзией и позволяет точно измерять расстояние измерения.

Для приложений, требующих частичной пространственной осведомленности без полной 3D-нагрузки, Ориентированная граничная коробка (OBB) определение служит в качестве промежуточным вариантом, предсказывая повернутые ограничительные рамки в 2D для лучшего соответствия объектам, таким как корабли или транспортные средства на воздушных видах.

Применение в реальном мире

Обнаружение 3D-объектов - это двигатель восприятия для отраслей, взаимодействующих с физическим миром:

  • Автономные транспортные средства: Самостоятельно управляемые автомобили, такие как разработанные компанией Waymo, используют 3D-обнаружение на основе LiDAR и данные с камер для track скорости, направления движения и расстояния до других транспортных средств и пешеходов, чтобы планировать безопасные траектории движения.
  • Робототехника: Промышленные манипуляторы и мобильные роботы в Промышленные манипуляторы и мобильные роботы в производстве полагаются на 3D-восприятие для захвата объектов с определенным положением или перемещаться по динамичным складам без столкновений.
  • Дополненная реальность (AR): Устройства используют 3D-обнаружение для привязки виртуальных объектов к реальным поверхностям, обеспечивая их правильное выравнивание с геометрией окружающей среды.

Интеграция с YOLO11

Пока YOLO11 является в первую очередь 2D-детектором, однако он играет важную роль во многих системах обнаружения 3D. Распространенный подход, известный как "обнаружение по фрагментам". использует высокоскоростную 2D-модель для определения области интереса на изображении. Затем эта 2D-модель вытягивается в 3D-пространство для обрезки облака точек, что значительно сокращает пространство для поиска 3D-модели.

В следующем примере показано, как выполнить начальный этап 2D-обнаружения с помощью Ultralytics YOLO11, который будет который послужит предложением для модуля 3D-подъема:

from ultralytics import YOLO

# Load the YOLO11 model (optimized for 2D detection)
model = YOLO("yolo11n.pt")

# Run inference on an image (e.g., from a vehicle camera)
results = model("path/to/driving_scene.jpg")

# In a 3D pipeline, these 2D boxes (x, y, w, h) are used to
# isolate the corresponding region in the LiDAR point cloud.
for result in results:
    for box in result.boxes:
        print(f"Class: {int(box.cls)}, 2D Box: {box.xywh.numpy()}")

Связанные понятия

  • Оценка глубины: Прогнозирует расстояние каждого пикселя на изображении от камеры. Хотя она предоставляет данные о глубине, она не не идентифицирует отдельные объекты или их размеры, как это делает 3D-детектирование.
  • Сенсорный синтез: Процесс объединения данных с нескольких датчиков (например, LiDAR, радаров и камер) для повышения точности и надежности трехмерного обнаружения.
  • Набор данных NuScenes: Крупномасштабный общедоступный набор данных для автономного вождения, который предоставляет аннотации 3D-границ для данных LiDAR и данные с камер, широко используемые для сравнения 3D-моделей.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас