Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Обнаружение 3D-объектов

Изучите обнаружение 3D-объектов, чтобы освоить пространственное восприятие в искусственном интеллекте. Узнайте, как Ultralytics обеспечивает оценку глубины, ориентации и 3D-ограничивающей рамки в реальном мире.

Обнаружение 3D-объектов — это сложная задача компьютерного зрения, которая позволяет машинам идентифицировать, локализовать и определять размер объектов в трехмерном пространстве. В отличие от традиционного обнаружения 2D-объектов, при котором вокруг объекта на изображении рисуется плоская ограничительная рамка, при обнаружении 3D-объектов оценивается параллелепипед (3D-коробка), который охватывает объект. Это предоставляет важную информацию о глубине, ориентации (направлении) и точных пространственных размерах, позволяя системам понимать не только, что представляет собой объект , но и где именно он находится по отношению к датчику в реальном мире. Эта способность имеет основополагающее значение для технологий, которым необходимо физически взаимодействовать со своим окружением.

Как работает обнаружение 3D-объектов

Для восприятия глубины и объема модели 3D-обнаружения обычно используют более богатые данные, чем те, которые предоставляют стандартные камеры. Хотя некоторые передовые методы могут выводить 3D-структуры из монокулярных (однообъективных) изображений, большинство надежных систем используют данные с датчиков LiDAR, радаров или стереокамер. Эти датчики генерируют облака точек— огромные наборы данных , представляющие внешнюю поверхность объектов.

Процесс включает в себя несколько ключевых этапов:

  • Сбор данных: датчики фиксируют геометрию сцены. Например, LiDAR использует лазерные импульсы для измерения расстояний, создавая точную 3D-карту.
  • Извлечение признаков: модели глубокого обучения, часто основанные на сверточных нейронных сетях (CNN) или трансформерах, обрабатывают облако точек или объединенные данные изображения для выявления закономерностей.
  • Прогнозирование ограничительной рамки: модель выдает трехмерную ограничительную рамку, определяемую координатами ее центра (x, y, z), размерами (длина, ширина, высота) и углом поворота (отклонение).
  • Классификация: Подобно классификации изображений, система присваивает метку (например, «пешеход», «транспортное средство») обнаруженному объекту.

Разница между 2D- и 3D-обнаружением

Важно различать эти два связанных между собой понятия.

  • Обнаружение 2D-объектов: работает с плоскими изображениями (пикселями). Сообщает, что объект находится в «левом верхнем» или «правом нижнем» углу кадра, но не может эффективно определять расстояние или реальный размер без ориентиров. Идеально подходит для таких задач, как выявление производственных дефектов или анализ видеопотоков, где глубина не имеет решающего значения.
  • Обнаружение 3D-объектов: работает в объемном пространстве (вокселы или точки). Определяет расстояние от камеры (глубину), физический размер объекта и его ориентацию. Это необходимо для предотвращения столкновений в динамичных средах.

Применение в реальном мире

Переход от 2D- к 3D-восприятию открывает широкие возможности для применения в отраслях, где безопасность и пространственное восприятие имеют первостепенное значение.

  • Автономное вождение: Автомобили с автономным управлением в значительной степени полагаются на 3D-обнаружение для безопасного перемещения. Обрабатывая данные с LiDAR и камер, автомобиль может detect автомобили, пешеходов и препятствия, рассчитывая их точное расстояние и скорость. Это позволяет системе восприятия предсказывать траектории и принимать решения о торможении или рулении в режиме реального времени. Такие компании, как Waymo, используют эти мощные наборы датчиков для мгновенного картографирования городской среды .
  • Робототехника и подбор из контейнеров: в логистике и на складах роботы должны подбирать предметы различной формы и размера из контейнеров. 3D-обнаружение позволяет робототехнической руке понять ориентацию упаковки, определить оптимальную точку захвата и спланировать траекторию движения предмета без столкновений. Это повышает эффективность ИИ в логистике за счет автоматизации сложных ручных операций.

Реализация обнаружения объектов с помощью Ultralytics

Хотя для полного 3D-обнаружения часто требуются специализированные архитектуры облаков точек, современные 2D-детекторы, такие как YOLO26, все чаще используются в качестве компонента в псевдо-3D рабочих процессах или для оценки глубины посредством масштабирования ограничивающей рамки. Для разработчиков, желающих обучать модели на своих собственных наборах данных, Ultralytics предлагает оптимизированную среду для аннотирования и обучения.

Вот простой пример того, как запустить стандартное обнаружение с помощьюPython Ultralytics , что часто является первым шагом в более крупном конвейере восприятия:

import cv2
from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Perform inference on a local image
results = model("path/to/image.jpg")

# Visualize the results
for result in results:
    # Plot predictions on the image (returns a numpy array)
    im_array = result.plot()

    # Display using OpenCV
    cv2.imshow("Detections", im_array)
    cv2.waitKey(0)  # Press any key to close
    cv2.destroyAllWindows()

Проблемы и будущие тенденции

Несмотря на свою полезность, обнаружение 3D-объектов сталкивается с проблемами, связанными с вычислительными затратами и стоимостью датчиков. Обработка миллионов точек в облаке точек требует значительной GPU , что затрудняет развертывание на периферийных устройствах. Однако инновации в области квантования моделей и эффективных нейронных архитектур снижают эту нагрузку.

Кроме того, такие технологии, как сенсорная фьюжн, повышают точность, объединяя богатую цветовую информацию камер с точными данными о глубине, полученными с помощью LiDAR. По мере совершенствования этих технологий можно ожидать, что 3D-восприятие будет интегрировано в более доступные устройства, от очков дополненной реальности до умной бытовой техники.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас