深圳Yolo 视觉
深圳
立即加入
词汇表

3D 物体检测

探索三维物体检测:激光雷达、点云和深度学习如何为自动驾驶汽车、机器人和 AR 构建精确的三维边界框。

3D 物体检测是一项复杂的 计算机视觉 (CV)技术,可识别、分类和定位三维空间中的物体、 分类和定位三维空间中的物体。与传统的二维 物体检测不同,传统的二维物体检测是在图像平面上围绕物体绘制一个平面矩形 与传统的二维物体检测不同,三维物体检测是在图像平面上围绕物体绘制一个平面矩形边界框。 物体检测则是估算一个定向的三维边界框--由其中心坐标(x、y、z)定义的长方体、 尺寸(长、宽、高)和方向(航向角)定义的立方体。这种功能允许 人工智能(AI)系统 感知真实世界中物体的大小、距离和姿势估计 ,这对物理交互和导航至关重要。 导航。

3D 物体检测如何工作

为了感知深度和体积,三维物体检测模型依赖于捕捉空间几何形状的数据源。二维 方法仅依赖于像素强度,而三维方法则处理来自先进传感器的数据:

  • 激光雷达(光探测与测距):发射激光脉冲以测量精确距离,生成稀疏的三维表示,称为 点云
  • 立体相机:使用两个镜头模拟双眼视觉,通过差异图计算深度 重建三维结构。
  • 单目摄像机:利用 深度学习(DL)来推断单个图像的深度。 通常被称为 "伪激光雷达 "技术。

专门的架构可以处理这些数据。例如 点网直接处理原始点云,而 VoxelNet则将三维空间划分为体积网格(体素 (体素)来进行卷积运算。这些模型可输出物体的精确三维坐标和方向、 这些模型输出物体的精确三维坐标和方位,使机器不仅能了解物体是什么,还能准确了解物体在物理世界中的位置。 在物理世界中的确切位置。

3D 与 2D 物体检测

主要区别在于所提供的空间维度和信息:

  • 2D 物体检测:在图像空间(像素)内运行。它会输出一个边界框(min_x, min_y、 max_x、max_y),表示物体在摄像机画面中的位置,但没有深度或绝对尺寸。
  • 3D 物体检测:在世界空间(米/单位)内运行。它输出的三维立方体 深度、物理尺寸和旋转。这样可以更好地处理遮挡,并进行精确的距离 测量。

适用于需要部分空间感知而又不需要全 3D 开销的应用、 旋转框检测Oriented Bounding Box)检测作为 旋转框检测是一种中间方法,可预测二维旋转边界框,以便更好地适应航拍视图中的船舶或车辆等物体。

实际应用

三维物体检测是与物理世界进行交互的行业的感知引擎:

  • 自动驾驶汽车:自动驾驶汽车,如Waymo 开发的自动驾驶汽车,使用 3D 检测 激光雷达和摄像头数据,track 其他车辆和行人的速度、方向和距离,以规划安全的 轨迹。
  • 机器人:制造业中的工业机械臂和移动机器人 制造业中的工业机械臂和移动机器人依靠三维感知 特定姿势的物体,或在动态仓库中穿行而不会发生碰撞。
  • 增强现实(AR):设备使用 3D 检测将虚拟物体固定到现实世界的表面、 确保它们与环境的几何形状正确对齐。

与YOLO11集成

虽然 YOLO11主要是一个 2D 检测器,但它 在许多三维检测管道中发挥着重要作用。一种常见的方法被称为 "基于挫面的检测"。 它使用高速 2D 模型来识别图像中的感兴趣区域。然后将此 2D 框挤出到 3D 空间中 以裁剪点云,从而大大减少三维模型的搜索空间。

下面的示例演示了如何使用Ultralytics YOLO11 执行初始 2D 检测步骤,该步骤将作为 作为 3D 提升模块的建议:

from ultralytics import YOLO

# Load the YOLO11 model (optimized for 2D detection)
model = YOLO("yolo11n.pt")

# Run inference on an image (e.g., from a vehicle camera)
results = model("path/to/driving_scene.jpg")

# In a 3D pipeline, these 2D boxes (x, y, w, h) are used to
# isolate the corresponding region in the LiDAR point cloud.
for result in results:
    for box in result.boxes:
        print(f"Class: {int(box.cls)}, 2D Box: {box.xywh.numpy()}")

相关概念

  • 深度估计:预测图像中每个像素与摄像头的距离。虽然它能提供深度数据,但并不 像 3D 检测那样识别单个物体或其尺寸。
  • 传感器融合:传感器融合:将多个传感器(如激光雷达、雷达和照相机)的数据进行融合,以提高三维探测的准确性和可靠性。 三维检测的准确性和可靠性。
  • NuScenes 数据集:大规模自动驾驶公共数据集,为激光雷达和照相机数据提供三维边界框注释。 相机数据的三维边界框注释,广泛用于三维模型的基准测试。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入