深圳Yolo 视觉
深圳
立即加入
词汇表

深度估计

了解深度估计如何为计算机视觉添加3D视角。探索使用 Ultralytics YOLO26 模型进行单目深度和立体视觉等技术。

深度估计是计算机视觉中的一个关键过程,它确定物体与摄像机的距离,有效地为2D图像添加第三维度。通过计算图像中每个像素的距离,这种技术创建了一个 深度图,这是一种像素强度对应距离的表示。这种能力模仿了人类的 双目视觉,使机器能够感知空间关系和几何形状。它是使自主系统能够安全导航、理解环境并与物理对象交互的基石技术。

核心机制与技术

实现深度估计有几种方法,从基于硬件的解决方案到使用人工智能的纯软件驱动方法。

  • 立体视觉系统:类似于人眼,立体视觉使用两台并排放置的摄像机。算法分析左右图像之间的微小差异或视差,以三角测量距离。这严重依赖于准确的特征匹配来识别两个帧中的相同点。
  • 单目深度估计:这种先进方法从单张图像中估计深度。由于单张2D照片缺乏固有的深度数据,深度学习模型在大量数据集上进行训练,以识别透视、物体大小和遮挡等视觉线索。现代架构,例如卷积神经网络 (CNN) ,擅长此任务,使得从标准摄像机中推导3D结构成为可能。
  • LiDAR和飞行时间 (ToF):LiDAR(光探测与测距)飞行时间相机等主动传感器发射光脉冲并测量其返回所需的时间。这些方法生成高度准确的点云,并常用于收集用于训练机器学习模型的真实数据。

实际应用

测量距离的能力在许多行业中具有变革性,为需要空间感知能力的应用提供支持。

  • 自动驾驶:自动驾驶汽车依赖深度估计来detect障碍物、测量到其他车辆的距离,并安全导航复杂的道路网络。它对于识别行人和骑自行车者的3D目标detect至关重要。
  • 机器人技术与自动化:机器人利用深度感知执行路径规划和物体操作等任务。例如,仓库机器人需要精确知道货架的距离,以便在不碰撞的情况下拿起包裹。
  • 增强现实 (AR):为了将虚拟物体真实地放置到现实世界场景中,AR 设备必须理解环境的 3D 几何结构。深度估计确保虚拟角色可以隐藏在真实家具后面,这是一个被称为遮挡处理的概念。

代码示例:单目深度估计

尽管存在专门的深度模型,但在简单场景中,你通常可以使用目标检测边界框作为距离的代理来推断空间关系(更大的框通常意味着更近的物体)。以下是如何使用...加载模型 ultralytics 用于 detect 物体的包,这是许多深度感知管道中的第一步。

from ultralytics import YOLO

# Load the YOLO26 model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Process results
for result in results:
    # Get bounding boxes (xyxy format)
    boxes = result.boxes.xyxy

    # Iterate through detections
    for box in boxes:
        print(f"Detected object at: {box}")

与其他计算机视觉概念的关系

区分深度估计与相关术语至关重要。尽管目标检测识别2D空间中物体是什么以及在哪里(使用边界框),深度估计则识别物体距离多远(Z轴)。同样,语义分割将像素分类到不同类别(例如,道路、天空、汽车),而深度估计则为这些相同的像素分配距离值。

空间AI的进展

生成式 AI 的最新进展正在弥合 2D 和 3D 视觉之间的鸿沟。神经辐射场 (NeRF) 等技术利用多张 2D 图像重建复杂的 3D 场景,严重依赖底层的深度原理。此外,随着 模型优化 技术的改进,在 边缘 AI 设备 上运行高精度深度估计变得可行。这使得在无人机或智能眼镜等小型硬件上实现实时空间计算成为可能,并由 Ultralytics Platform 等平台提供支持,以实现高效的模型训练和部署。

让我们一起共建AI的未来!

开启您的机器学习未来之旅