Изучите обнаружение 3D-объектов, чтобы освоить пространственное восприятие в искусственном интеллекте. Узнайте, как Ultralytics обеспечивает оценку глубины, ориентации и 3D-ограничивающей рамки в реальном мире.
Обнаружение 3D-объектов — это сложная задача компьютерного зрения, которая позволяет машинам идентифицировать, локализовать и определять размер объектов в трехмерном пространстве. В отличие от традиционного обнаружения 2D-объектов, при котором вокруг объекта на изображении рисуется плоская ограничительная рамка, при обнаружении 3D-объектов оценивается параллелепипед (3D-коробка), который охватывает объект. Это предоставляет важную информацию о глубине, ориентации (направлении) и точных пространственных размерах, позволяя системам понимать не только, что представляет собой объект , но и где именно он находится по отношению к датчику в реальном мире. Эта способность имеет основополагающее значение для технологий, которым необходимо физически взаимодействовать со своим окружением.
Для восприятия глубины и объема модели 3D-обнаружения обычно используют более богатые данные, чем те, которые предоставляют стандартные камеры. Хотя некоторые передовые методы могут выводить 3D-структуры из монокулярных (однообъективных) изображений, большинство надежных систем используют данные с датчиков LiDAR, радаров или стереокамер. Эти датчики генерируют облака точек— огромные наборы данных , представляющие внешнюю поверхность объектов.
Процесс включает в себя несколько ключевых этапов:
Важно различать эти два связанных между собой понятия.
Переход от 2D- к 3D-восприятию открывает широкие возможности для применения в отраслях, где безопасность и пространственное восприятие имеют первостепенное значение.
Хотя для полного 3D-обнаружения часто требуются специализированные архитектуры облаков точек, современные 2D-детекторы, такие как YOLO26, все чаще используются в качестве компонента в псевдо-3D рабочих процессах или для оценки глубины посредством масштабирования ограничивающей рамки. Для разработчиков, желающих обучать модели на своих собственных наборах данных, Ultralytics предлагает оптимизированную среду для аннотирования и обучения.
Вот простой пример того, как запустить стандартное обнаружение с помощьюPython Ultralytics , что часто является первым шагом в более крупном конвейере восприятия:
import cv2
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Perform inference on a local image
results = model("path/to/image.jpg")
# Visualize the results
for result in results:
# Plot predictions on the image (returns a numpy array)
im_array = result.plot()
# Display using OpenCV
cv2.imshow("Detections", im_array)
cv2.waitKey(0) # Press any key to close
cv2.destroyAllWindows()
Несмотря на свою полезность, обнаружение 3D-объектов сталкивается с проблемами, связанными с вычислительными затратами и стоимостью датчиков. Обработка миллионов точек в облаке точек требует значительной GPU , что затрудняет развертывание на периферийных устройствах. Однако инновации в области квантования моделей и эффективных нейронных архитектур снижают эту нагрузку.
Кроме того, такие технологии, как сенсорная фьюжн, повышают точность, объединяя богатую цветовую информацию камер с точными данными о глубине, полученными с помощью LiDAR. По мере совершенствования этих технологий можно ожидать, что 3D-восприятие будет интегрировано в более доступные устройства, от очков дополненной реальности до умной бытовой техники.