探索三维物体检测:激光雷达、点云和深度学习如何为自动驾驶汽车、机器人和 AR 构建精确的三维边界框。
三维物体检测是一种先进的计算机视觉技术,能够在三维环境中识别、分类和定位物体。与传统二维物体检测在图像平面上为物体绘制平面矩形边界框不同,三维物体检测估算的是空间直方体。该体积由七个关键参数定义:中心坐标(x, y, z)、物理尺寸(长度、宽度、高度)以及方位角(航向角)。这些丰富的空间数据使人工智能系统能够感知物体的位置、尺寸和方向。 坐标(x, y, z)、物理尺寸(长度、宽度、高度)以及方位角(方向角)。这些丰富的空间数据使人工智能(AI)系统能够感知 姿势估计 真实尺寸、距离及姿势估计 从而弥合数字感知与物理交互之间的鸿沟。
为构建对世界的体积化理解,三维检测模型需要包含几何信息的输入数据。标准图像识别依赖像素强度,而三维方法则常采用传感器融合技术,将视觉数据与深度测量数据相结合。
主要数据来源包括:
感知深度与体积的能力,使三维物体检测成为与物理世界交互的行业中感知引擎。
这两种技术的区别在于其输出结果的维度以及它们的预期使用场景。
对于需要比简单方形框更多方向数据、但又比完整3D模型计算开销更小的场景, 定向边界框(旋转框检测)检测提供了一种高效的中间解决方案。 Ultralytics 全面旋转框检测 可在航拍影像或复杂生产线中实现旋转目标的检测。
虽然完整的3D检测通常需要专用架构(如 VoxelNet或PointPillars),但高速2D检测器在"截头锥体"3D管道中发挥着关键作用。在此工作流中,类似YOLO11的模型... YOLO11 (或更新的YOLO26)在二维图像中检测目标。随后将该二维边界框向三维空间挤出,从而隔离激光雷达点云中的相关区域,大幅缩减三维模型的搜索范围。
以下示例演示了如何使用旋转旋转框检测 检测模型进行推理:
ultralytics 该软件包提供旋转感知检测功能,常作为完整3D分析的前置步骤:
from ultralytics import YOLO
# Load a pre-trained YOLO26 model capable of Oriented Bounding Box detection
model = YOLO("yolo26n-obb.pt")
# Perform inference on an image (e.g., aerial view or slanted objects)
results = model("https://docs.ultralytics.com/datasets/obb/dota-v2/")
# Display the rotated bounding box coordinates
for result in results:
# returns center_x, center_y, width, height, rotation
print(result.obb.xywhr)
.webp)
