深圳Yolo 视觉
深圳
立即加入
词汇表

3D 物体检测

探索三维物体检测:激光雷达、点云和深度学习如何为自动驾驶汽车、机器人和 AR 构建精确的三维边界框。

三维物体检测是一种先进的计算机视觉技术能够在三维环境中识别、分类和定位物体。与传统二维物体检测在图像平面上为物体绘制平面矩形边界框不同,三维物体检测估算的是空间直方体。该体积由七个关键参数定义:中心坐标(x, y, z)、物理尺寸(长度、宽度、高度)以及方位角(航向角)。这些丰富的空间数据使人工智能系统能够感知物体的位置、尺寸和方向。 坐标(x, y, z)、物理尺寸(长度、宽度、高度)以及方位角(方向角)。这些丰富的空间数据使人工智能(AI)系统能够感知 姿势估计 真实尺寸、距离及姿势估计 从而弥合数字感知与物理交互之间的鸿沟。

3D 物体检测如何工作

为构建对世界的体积化理解,三维检测模型需要包含几何信息的输入数据。标准图像识别依赖像素强度,而三维方法则常采用传感器融合技术,将视觉数据与深度测量数据相结合。

主要数据来源包括:

  • 激光雷达(Light Detection and Ranging):这类传感器通过发射激光脉冲来测量精确距离,从而生成场景的稀疏几何表示——即点云
  • 立体相机:通过使用两个镜头模拟双眼视觉,这些系统利用视差图计算深度,从而能够根据视觉偏移重建三维结构。
  • 单目深度预测先进的深度学习(DL)算法能够从单张二维图像推断深度,这种技术常被称为"伪激光雷达",尽管其精度通常低于主动式传感器。

实际应用

感知深度与体积的能力,使三维物体检测成为与物理世界交互的行业中感知引擎。

  • 自动驾驶汽车:自动驾驶汽车依靠三维检测技术track 周边交通的track 、速度和方向。通过处理Waymo公开数据集nuScenes数据集中的信息,这些车辆能够预测潜在碰撞风险,并在动态环境中规划安全路径。
  • 机器人技术工业机器人运用三维感知技术实现"箱内拾取"。机械臂必须精确理解姿势估计 维姿势估计 ,才能从堆叠物中准确抓取。该能力通过Open3D等数据处理工具集成于现代工作流程中。
  • 增强现实(AR):为将虚拟角色或信息锚定于现实世界表面, 诸如Google 框架采用3D检测技术来映射环境几何结构, 确保数字资产与实体地板或桌面完美对齐。

3D 与 2D 物体检测

这两种技术的区别在于其输出结果的维度以及它们的预期使用场景。

  • 二维目标检测:在屏幕空间(像素)中运行。它能够为诸如识别视频帧中人物等任务提供实时推理,但无法告知人物距离的具体米数。
  • 3D物体检测:在世界空间(米制)中运行。它能有效处理遮挡现象, 并为机器人提供必要的坐标数据,使其能够物理绕过物体进行导航。

对于需要比简单方形框更多方向数据、但又比完整3D模型计算开销更小的场景, 定向边界框(旋转框检测)检测提供了一种高效的中间解决方案。 Ultralytics 全面旋转框检测 可在航拍影像或复杂生产线中实现旋转目标的检测。

与Ultralytics YOLO集成

虽然完整的3D检测通常需要专用架构( VoxelNet或PointPillars),但高速2D检测器在"截头锥体"3D管道中发挥着关键作用。在此工作流中,类似YOLO11的模型... YOLO11 (或更新的YOLO26)在二维图像中检测目标。随后将该二维边界框向三维空间挤出,从而隔离激光雷达点云中的相关区域,大幅缩减三维模型的搜索范围。

以下示例演示了如何使用旋转旋转框检测 检测模型进行推理: ultralytics 该软件包提供旋转感知检测功能,常作为完整3D分析的前置步骤:

from ultralytics import YOLO

# Load a pre-trained YOLO26 model capable of Oriented Bounding Box detection
model = YOLO("yolo26n-obb.pt")

# Perform inference on an image (e.g., aerial view or slanted objects)
results = model("https://docs.ultralytics.com/datasets/obb/dota-v2/")

# Display the rotated bounding box coordinates
for result in results:
    # returns center_x, center_y, width, height, rotation
    print(result.obb.xywhr)

相关概念

  • 深度估计:一项像素级预测任务,用于生成场景的深度图。与目标检测不同,它不识别 单个目标实例或其类别。
  • 合成数据:当现实世界中标记的3D数据稀缺或收集成本高昂时,用于训练模型的人工生成3D场景。
  • PyTorch3D: 一款为基于深度学习的3D计算机视觉研究提供高效、可复用组件的库。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入