Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Обнаружение 3D-объектов

Узнайте о распознавании 3D-объектов: как LiDAR, облака точек и глубокое обучение создают точные 3D-ограничители для автономных транспортных средств, робототехники и AR.

Обнаружение 3D-объектов — это передовая технология компьютерного зрения (CV), которая идентифицирует, классифицирует и локализует объекты в трехмерной среде. В отличие от традиционного обнаружения 2D-объектов, при котором вокруг объекта на плоскости изображения рисуется плоская прямоугольная ограничивающая рамка, при обнаружении 3D-объектов оценивается пространственный параллелепипед. Этот объем определяется семью ключевыми параметрами: центральными координатами (x, y, z), физическими размерами (длина, ширина, высота) и ориентацией (угол наклона). Эти богатые пространственные данные позволяют системам искусственного интеллекта (ИИ) воспринимать истинный размер, расстояние и положение объектов относительно датчика, устраняя разрыв между цифровым восприятием и физическим взаимодействием.

Как работает обнаружение 3D-объектов

Для построения объемного представления о мире 3D-модели обнаружения требуют входных данных, содержащих геометрическую информацию. В то время как стандартное распознавание изображений основано на интенсивности пикселей, 3D-методы часто используют сенсорную фьюжн для объединения визуальных данных с измерениями глубины.

Основные источники данных включают:

  • LiDAR (Light Detection and Ranging): эти датчики излучают лазерные импульсы для измерения точных расстояний, создавая разреженное геометрическое представление сцены, известное как облако точек.
  • Стереокамеры: с помощью двух объективов, имитирующих бинокулярное зрение, эти системы рассчитывают глубину с помощью карт расхождения, что позволяет восстанавливать трехмерные структуры на основе визуальных смещений.
  • Монокулярное прогнозирование глубины: передовые алгоритмы глубокого обучения (DL) могут определять глубину по одному 2D-изображению, эта техника часто называется «псевдо-LiDAR», хотя она обычно обеспечивает меньшую точность, чем активные датчики.

Применение в реальном мире

Способность воспринимать глубину и объем делает распознавание трехмерных объектов основой восприятия для отраслей, взаимодействующих с физическим миром.

  • Автономные транспортные средства: Автомобили с автономным управлением используют 3D-детектирование для track , скорости и направления движения окружающего транспорта. Благодаря обработке данных из открытого набора данных Waymo или набора данных nuScenes эти автомобили могут предсказывать возможные столкновения и планировать безопасные маршруты в динамичной среде.
  • Робототехника: Промышленные роботы используют 3D-восприятие для выполнения «подбора из контейнера». Роботизированная рука должна понимать точное 3D-положение детали, чтобы правильно захватить ее из кучи. Эта возможность интегрирована в современные рабочие процессы с использованием таких инструментов , как Open3D для обработки данных
  • Дополненная реальность (AR): чтобы закрепить виртуальных персонажей или информацию на поверхностях реального мира, такие платформы, как Google , используют 3D-обнаружение для отображения геометрии окружающей среды, обеспечивая идеальное совмещение цифровых объектов с физическим полом или столами.

Обнаружение 3D- и 2D-объектов

Различие между этими двумя технологиями заключается в размерности их результатов и предполагаемых случаях использования .

  • Обнаружение 2D-объектов: работает в пространстве экрана (пиксели). Обеспечивает вывод в реальном времени для таких задач, как идентификация человека в кадре видео, но не может определить, на каком расстоянии в метрах находится человек.
  • Обнаружение 3D-объектов: работает в мировом пространстве (в метрах). Эффективно обрабатывает окклюзию и предоставляет необходимые координатные данные для физической навигации робота вокруг объекта.

Для сценариев, требующих больше данных об ориентации, чем простая квадратная коробка, но меньших вычислительных затрат, чем полное 3D, обнаружение ориентированной ограничивающей коробки (OBB) служит эффективным компромиссным решением. OBB полностью поддерживается YOLO26, новейшей Ultralytics , что позволяет выполнять поворотное обнаружение на аэрофотоснимках или сложных производственных линиях.

Интеграция с Ultralytics YOLO

В то время как для полного 3D-обнаружения часто требуются специализированные архитектуры, такие как VoxelNet или PointPillars, высокоскоростные 2D-детекторы играют важную роль в «основанных на конусе» 3D-конвейерах. В этом рабочем процессе модель, такая как YOLO11 (или более новая YOLO26) обнаруживает объект на 2D-изображении. Затем эта 2D-коробка выдавливается в 3D-пространство, чтобы изолировать соответствующий участок облака точек LiDAR, что значительно сокращает область поиска для 3D-модели.

Следующий пример демонстрирует, как выполнить инференцию с помощью модели OBB, используя ultralytics пакет, который обеспечивает обнаружение с учетом поворота, часто используемое в качестве предшественника полного 3D-анализа :

from ultralytics import YOLO

# Load a pre-trained YOLO26 model capable of Oriented Bounding Box detection
model = YOLO("yolo26n-obb.pt")

# Perform inference on an image (e.g., aerial view or slanted objects)
results = model("https://docs.ultralytics.com/datasets/obb/dota-v2/")

# Display the rotated bounding box coordinates
for result in results:
    # returns center_x, center_y, width, height, rotation
    print(result.obb.xywhr)

Связанные понятия

  • Оценка глубины: задача прогнозирования на уровне пикселей, которая создает карту глубины сцены. В отличие от обнаружения объектов, она не идентифицирует отдельные экземпляры объектов или их классы
  • Синтетические данные: искусственно сгенерированные трехмерные сцены, используемые для обучения моделей, когда реальные маркированные трехмерные данные являются редкими или их сбор обходится дорого .
  • PyTorch3D: библиотека, предоставляющая эффективные, многократно используемые компоненты для исследований в области 3D-компьютерного зрения с использованием глубокого обучения.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас