了解深度估计如何为计算机视觉添加3D视角。探索使用 Ultralytics YOLO26 模型进行单目深度和立体视觉等技术。
深度估计是计算机视觉中的一个关键过程,它确定物体与摄像机的距离,有效地为2D图像添加第三维度。通过计算图像中每个像素的距离,这种技术创建了一个 深度图,这是一种像素强度对应距离的表示。这种能力模仿了人类的 双目视觉,使机器能够感知空间关系和几何形状。它是使自主系统能够安全导航、理解环境并与物理对象交互的基石技术。
实现深度估计有几种方法,从基于硬件的解决方案到使用人工智能的纯软件驱动方法。
测量距离的能力在许多行业中具有变革性,为需要空间感知能力的应用提供支持。
尽管存在专门的深度模型,但在简单场景中,你通常可以使用目标检测边界框作为距离的代理来推断空间关系(更大的框通常意味着更近的物体)。以下是如何使用...加载模型 ultralytics 用于 detect 物体的包,这是许多深度感知管道中的第一步。
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("path/to/image.jpg")
# Process results
for result in results:
# Get bounding boxes (xyxy format)
boxes = result.boxes.xyxy
# Iterate through detections
for box in boxes:
print(f"Detected object at: {box}")
区分深度估计与相关术语至关重要。尽管目标检测识别2D空间中物体是什么以及在哪里(使用边界框),深度估计则识别物体距离多远(Z轴)。同样,语义分割将像素分类到不同类别(例如,道路、天空、汽车),而深度估计则为这些相同的像素分配距离值。
生成式 AI 的最新进展正在弥合 2D 和 3D 视觉之间的鸿沟。神经辐射场 (NeRF) 等技术利用多张 2D 图像重建复杂的 3D 场景,严重依赖底层的深度原理。此外,随着 模型优化 技术的改进,在 边缘 AI 设备 上运行高精度深度估计变得可行。这使得在无人机或智能眼镜等小型硬件上实现实时空间计算成为可能,并由 Ultralytics Platform 等平台提供支持,以实现高效的模型训练和部署。

开启您的机器学习未来之旅