Узнайте о распознавании 3D-объектов: как LiDAR, облака точек и глубокое обучение создают точные 3D-ограничители для автономных транспортных средств, робототехники и AR.
Обнаружение 3D-объектов — это передовая технология компьютерного зрения (CV), которая идентифицирует, классифицирует и локализует объекты в трехмерной среде. В отличие от традиционного обнаружения 2D-объектов, при котором вокруг объекта на плоскости изображения рисуется плоская прямоугольная ограничивающая рамка, при обнаружении 3D-объектов оценивается пространственный параллелепипед. Этот объем определяется семью ключевыми параметрами: центральными координатами (x, y, z), физическими размерами (длина, ширина, высота) и ориентацией (угол наклона). Эти богатые пространственные данные позволяют системам искусственного интеллекта (ИИ) воспринимать истинный размер, расстояние и положение объектов относительно датчика, устраняя разрыв между цифровым восприятием и физическим взаимодействием.
Для построения объемного представления о мире 3D-модели обнаружения требуют входных данных, содержащих геометрическую информацию. В то время как стандартное распознавание изображений основано на интенсивности пикселей, 3D-методы часто используют сенсорную фьюжн для объединения визуальных данных с измерениями глубины.
Основные источники данных включают:
Способность воспринимать глубину и объем делает распознавание трехмерных объектов основой восприятия для отраслей, взаимодействующих с физическим миром.
Различие между этими двумя технологиями заключается в размерности их результатов и предполагаемых случаях использования .
Для сценариев, требующих больше данных об ориентации, чем простая квадратная коробка, но меньших вычислительных затрат, чем полное 3D, обнаружение ориентированной ограничивающей коробки (OBB) служит эффективным компромиссным решением. OBB полностью поддерживается YOLO26, новейшей Ultralytics , что позволяет выполнять поворотное обнаружение на аэрофотоснимках или сложных производственных линиях.
В то время как для полного 3D-обнаружения часто требуются специализированные архитектуры, такие как VoxelNet или PointPillars, высокоскоростные 2D-детекторы играют важную роль в «основанных на конусе» 3D-конвейерах. В этом рабочем процессе модель, такая как YOLO11 (или более новая YOLO26) обнаруживает объект на 2D-изображении. Затем эта 2D-коробка выдавливается в 3D-пространство, чтобы изолировать соответствующий участок облака точек LiDAR, что значительно сокращает область поиска для 3D-модели.
Следующий пример демонстрирует, как выполнить инференцию с помощью модели OBB, используя
ultralytics пакет, который обеспечивает обнаружение с учетом поворота, часто используемое в качестве предшественника полного 3D-анализа
:
from ultralytics import YOLO
# Load a pre-trained YOLO26 model capable of Oriented Bounding Box detection
model = YOLO("yolo26n-obb.pt")
# Perform inference on an image (e.g., aerial view or slanted objects)
results = model("https://docs.ultralytics.com/datasets/obb/dota-v2/")
# Display the rotated bounding box coordinates
for result in results:
# returns center_x, center_y, width, height, rotation
print(result.obb.xywhr)