Узнайте о распознавании 3D-объектов: как LiDAR, облака точек и глубокое обучение создают точные 3D-ограничители для автономных транспортных средств, робототехники и AR.
Обнаружение трехмерных объектов - сложная техника компьютерного зрения (CV), которая идентифицирует, классифицирует и локализует объекты в трехмерном пространстве. В отличие от традиционного 2D обнаружения объектов, при котором рисуется плоская прямоугольная плоскую прямоугольную рамку вокруг объекта на плоскости изображения, 3D обнаружение объектов оценивает ориентированное трехмерное ограничительное поле - кубоид, определяемый координатами центра (x, y, z), размерами (длина, ширина, высота) и ориентацией (угол наклона). Эта возможность позволяет системам искусственного интеллекта (ИИ) воспринимать размеры, расстояние и положение объектов в реальном мире, что необходимо для физического взаимодействия и навигации. навигации.
Для восприятия глубины и объема 3D-модели обнаружения объектов опираются на источники данных, которые фиксируют пространственную геометрию. В то время как двухмерные методы опираются исключительно на интенсивность пикселей, 3D-методы обрабатывают данные с современных датчиков:
Специализированные архитектуры обрабатывают эти данные. Например, PointNet обрабатывает необработанные облака точек напрямую, в то время как VoxelNet делит трехмерное пространство на объемные сетки (воксели) для применения конволюционных операций. Эти модели выдают точные 3D-координаты и ориентацию объектов, что позволяет машинам понять не только то, что представляет собой объект, но и то, где он находится в физическом мире.
Основное различие заключается в пространственной размерности и предоставляемой информации:
Для приложений, требующих частичной пространственной осведомленности без полной 3D-нагрузки, Ориентированная граничная коробка (OBB) определение служит в качестве промежуточным вариантом, предсказывая повернутые ограничительные рамки в 2D для лучшего соответствия объектам, таким как корабли или транспортные средства на воздушных видах.
Обнаружение 3D-объектов - это двигатель восприятия для отраслей, взаимодействующих с физическим миром:
Пока YOLO11 является в первую очередь 2D-детектором, однако он играет важную роль во многих системах обнаружения 3D. Распространенный подход, известный как "обнаружение по фрагментам". использует высокоскоростную 2D-модель для определения области интереса на изображении. Затем эта 2D-модель вытягивается в 3D-пространство для обрезки облака точек, что значительно сокращает пространство для поиска 3D-модели.
В следующем примере показано, как выполнить начальный этап 2D-обнаружения с помощью Ultralytics YOLO11, который будет который послужит предложением для модуля 3D-подъема:
from ultralytics import YOLO
# Load the YOLO11 model (optimized for 2D detection)
model = YOLO("yolo11n.pt")
# Run inference on an image (e.g., from a vehicle camera)
results = model("path/to/driving_scene.jpg")
# In a 3D pipeline, these 2D boxes (x, y, w, h) are used to
# isolate the corresponding region in the LiDAR point cloud.
for result in results:
for box in result.boxes:
print(f"Class: {int(box.cls)}, 2D Box: {box.xywh.numpy()}")