了解深度估计如何为计算机视觉增添3D立体感。探索单目深度和立体视觉等技术,Ultralytics 模型进行实践。
深度估计是计算机视觉中的关键过程,用于确定物体与摄像机的距离, 从而为二维图像有效增添第三维度。通过计算图像中每个像素的距离, 该技术生成深度图——一种像素强度与距离相对应的表示形式。 该能力模拟了人类的双眼视觉,使机器能够感知空间关系与几何结构。作为自主系统安全导航、理解环境及与实体物体交互的核心技术,深度感知为智能设备赋予了关键能力。
实现深度估计的方法多种多样,涵盖从基于硬件的解决方案到纯粹采用人工智能驱动的软件方法。
测距能力正在改变众多行业的格局,为需要空间感知能力的应用提供动力。
虽然存在专门的深度模型,但在简单场景中,您通常可通过物体检测边界框来推断空间关系——将其作为距离的替代指标(边界框越大通常表示物体越近)。以下是使用 ultralytics 用于detect 包,这是许多深度感知管道中的第一步。
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("path/to/image.jpg")
# Process results
for result in results:
# Get bounding boxes (xyxy format)
boxes = result.boxes.xyxy
# Iterate through detections
for box in boxes:
print(f"Detected object at: {box}")
区分深度估计与相关术语至关重要。物体检测通过边界框识别物体在二维空间中的位置与类型,而深度估计则确定物体在Z轴方向上的距离。同样地,语义分割将像素分类为不同类别(如道路、天空、汽车),而深度估计则为相同像素赋予距离值。
生成式人工智能的最新进展正在弥合二维与三维视觉之间的鸿沟。诸如神经辐射场(NeRF)等技术通过多张二维图像重建复杂三维场景,其运作原理深度依赖于底层的深度感知机制。 此外,随着模型优化技术的进步,在边缘AI设备上实现高精度深度估计正逐渐成为可能。这使得在无人机或智能眼镜等微型硬件上进行实时空间计算成为现实,Ultralytics 等工具则通过高效的模型训练与部署能力为其提供支持。