词汇表

深度估计

了解深度估计如何为计算机视觉增添3D立体感。探索单目深度和立体视觉等技术，Ultralytics 模型进行实践。

深度估计是计算机视觉中的关键过程，用于确定物体与摄像机的距离，从而为二维图像有效增添第三维度。通过计算图像中每个像素的距离，该技术生成深度图——一种像素强度与距离相对应的表示形式。该能力模拟了人类的双眼视觉，使机器能够感知空间关系与几何结构。作为自主系统安全导航、理解环境及与实体物体交互的核心技术，深度感知为智能设备赋予了关键能力。

核心机制与技术

实现深度估计的方法多种多样，涵盖从基于硬件的解决方案到纯粹采用人工智能驱动的软件方法。

立体视觉系统：类似于人类双眼，立体视觉采用并排放置的双摄像头。算法通过分析左右图像间的细微差异（即视差），实现三角测距。该技术高度依赖精确的特征匹配，以识别两帧图像中的相同点位。
单目深度估计：这种先进方法通过单张图像推算深度。由于单张二维照片缺乏固有深度数据，深度学习模型需在海量数据集上训练，以识别透视、物体尺寸和遮挡等视觉线索。现代架构如卷积神经网络（CNN）在此任务中表现卓越，使普通相机也能推导出三维结构。
激光雷达与飞行时间（ToF）：主动式传感器如激光雷达（Light Detection and Ranging）和飞行时间相机通过发射光脉冲并测量其返回所需时间来工作。这些方法能生成高精度点云数据，常用于采集地面实测数据以训练机器学习模型。

实际应用

测距能力正在改变众多行业的格局，为需要空间感知能力的应用提供动力。

自动驾驶：自动驾驶汽车依赖深度估计技术来detect 、测量与其他车辆的距离，并安全地穿行于复杂的道路网络。该技术是三维物体检测的核心组成部分，用于识别行人与骑行者。
机器人与自动化：机器人利用深度感知完成路径规划和物体操作等任务。例如，仓库机器人需要精确判断货架距离，才能在取货时避免碰撞。
增强现实（AR）：为将虚拟物体逼真地置入现实场景，AR设备必须理解环境的3D几何结构。深度估算确保虚拟角色能隐藏在真实家具后方，这一概念称为遮挡处理。

代码示例：单目深度估计

虽然存在专门的深度模型，但在简单场景中，您通常可通过物体检测边界框来推断空间关系——将其作为距离的替代指标（边界框越大通常表示物体越近）。以下是使用 ultralytics 用于detect 包，这是许多深度感知管道中的第一步。

from ultralytics import YOLO

# Load the YOLO26 model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Process results
for result in results:
    # Get bounding boxes (xyxy format)
    boxes = result.boxes.xyxy

    # Iterate through detections
    for box in boxes:
        print(f"Detected object at: {box}")

与其他计算机视觉概念的关系

区分深度估计与相关术语至关重要。物体检测通过边界框识别物体在二维空间中的位置与类型，而深度估计则确定物体在Z轴方向上的距离。同样地，语义分割将像素分类为不同类别（如道路、天空、汽车），而深度估计则为相同像素赋予距离值。

空间人工智能的进展

生成式人工智能的最新进展正在弥合二维与三维视觉之间的鸿沟。诸如神经辐射场（NeRF）等技术通过多张二维图像重建复杂三维场景，其运作原理深度依赖于底层的深度感知机制。此外，随着模型优化技术的进步，在边缘AI设备上实现高精度深度估计正逐渐成为可能。这使得在无人机或智能眼镜等微型硬件上进行实时空间计算成为现实，Ultralytics 等工具则通过高效的模型训练与部署能力为其提供支持。

深度估计

培训Ultralytics YOLO 模型，以简化各行业的工作流程

灵活的企业许可解决方案，助力您的创新

使用Ultralytics YOLO在数秒内训练人工智能模型

核心机制与技术

实际应用

代码示例：单目深度估计

与其他计算机视觉概念的关系

空间人工智能的进展

阅读更多此类别的内容

12个基于计算机视觉的航拍影像应用场景

什么是单目深度估计？概述

Ultralytics YOLO 进行人工智能威胁检测

加入Ultralytics 社区