深圳Yolo 视觉
深圳
立即加入
词汇表

3D 物体检测

探索 3D 目标 detect,掌握 AI 中的空间感知。了解 Ultralytics YOLO26 如何驱动现实世界的深度、方向和 3D 边界框估计。

三维目标检测是一项复杂的计算机视觉任务,它使机器能够在三维空间中识别、定位并确定物体的尺寸。与传统的二维目标检测不同,传统方法仅在图像中围绕物体绘制一个平面的边界框,而三维目标检测则估计一个包裹住物体的长方体(一个三维盒子)。这提供了关键的深度信息、方向(航向)和精确的空间尺寸,使系统不仅能理解物体“是什么”,还能准确理解它在现实世界中相对于传感器的“位置”。这项能力对于需要与环境进行物理交互的技术至关重要。

3D 物体检测如何工作

为了感知深度和体积,3D detect模型通常依赖比标准相机更丰富的数据输入。虽然一些先进方法可以从单目(单镜头)图像中推断3D结构,但大多数稳健的系统利用来自LiDAR传感器、雷达或立体相机的数据。这些传感器生成点云——大量数据点的集合,代表物体的外部表面。

该过程涉及几个关键步骤:

  • 数据采集: 传感器捕捉场景的几何形状。例如,激光雷达(LiDAR)使用激光脉冲测量距离,创建精确的3D地图。
  • 特征提取:深度学习模型,通常基于卷积神经网络 (CNN)或Transformer,处理点云或融合图像数据以识别模式。
  • 边界框预测:模型输出一个 3D 边界框,由其中心坐标(x、y、z)、尺寸(长、宽、高)和旋转角度(偏航角)定义。
  • 分类:类似于图像分类,系统为检测到的对象分配一个标签(例如,“行人”、“车辆”)。

2D 与 3D detect 的区别

区分这两个相关概念非常重要。

  • 2D目标detect:在平面图像(像素)上运行。它能告诉你一个物体在帧的“左上角”或“右下角”,但无法在没有参考标记的情况下有效判断距离或真实世界尺寸。它非常适合识别制造缺陷或分析对深度要求不高的视频流等任务。
  • 3D目标detect:在体三维空间(体素或点)中运行。它提供物体与摄像机的距离(深度)、物理尺寸及其方向。这对于在动态环境中防止碰撞至关重要。

实际应用

从2D感知到3D感知的转变,在安全和空间意识至关重要的行业中开启了强大的用例。

  • 自动驾驶:自动驾驶汽车严重依赖3D detect以安全导航。通过处理来自激光雷达和摄像头的数据,车辆可以detect其他汽车、行人和障碍物,计算它们的精确距离和速度。这使得感知系统能够预测轨迹,并在实时推理场景中做出制动或转向决策。像Waymo这样的公司利用这些重型传感器套件即时绘制城市环境地图。
  • 机器人技术与料箱拣选:在物流和仓储领域,机器人需要从料箱中拣选形状和大小各异的物体。3D detect 使机械臂能够理解包裹的方向,确定最佳抓取点,并规划无碰撞的路径来移动物品。这通过自动化复杂的体力任务,提升了 AI在物流中的应用 的效率。

使用 Ultralytics 实现目标 detect

尽管完整的 3D detect 通常需要专门的点云架构,但像 YOLO26 这样的现代 2D detect 器越来越多地用作伪 3D 工作流中的组件,或通过边界框缩放来估计深度。对于希望在自己的数据集上训练模型的开发人员,Ultralytics Platform 提供了一个简化的标注和训练环境。

以下是一个使用 Ultralytics python API 运行标准 detect 的简单示例,这通常是更大感知管道中的第一步:

import cv2
from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Perform inference on a local image
results = model("path/to/image.jpg")

# Visualize the results
for result in results:
    # Plot predictions on the image (returns a numpy array)
    im_array = result.plot()

    # Display using OpenCV
    cv2.imshow("Detections", im_array)
    cv2.waitKey(0)  # Press any key to close
    cv2.destroyAllWindows()

挑战与未来趋势

尽管 3D 目标 detect 具有实用性,但它在计算成本和传感器费用方面面临挑战。处理点云中的数百万个点需要大量的 GPU 算力,这使得在边缘设备上的部署变得困难。然而,模型量化和高效神经网络架构的创新正在减轻这一负担。

此外,传感器融合等技术通过结合相机丰富的色彩信息与 LiDAR 精确的深度数据来提高准确性。随着这些技术的成熟,我们可以期待 3D 感知被集成到更多可访问的设备中,从 增强现实眼镜 到智能家居设备。

让我们一起共建AI的未来!

开启您的机器学习未来之旅