敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

深度估计

了解深度估计如何从图像中创建深度图--立体图像、ToF、激光雷达和单目深度学习为机器人、AR/VR 和 3D 感知提供支持。

深度估计是计算机视觉中的一项核心任务,涉及从摄像机的视角计算场景中各种物体的距离。与只捕捉高度和宽度的标准二维图像不同,深度估计增加了第三个维度,使系统能够感知三维世界。这一过程会生成深度图,深度图本质上是一幅图像,其中每个像素的值都对应着它与摄像头之间的距离。这种能力是让机器理解空间关系并以更有意义的方式与环境互动的基础,类似于人类视觉。

深度估算的工作原理

实现深度估计的技术有多种,既有使用专用硬件的传统方法,也有由深度学习驱动的现代方法。

  • 立体视觉:这种方法通过两台相距不远的摄像机模拟人类的双眼视觉。通过分析两幅图像之间的细微差别(差异),可以三角测量场景中各点的距离。这是一种捕捉深度信息的经典而可靠的方法。
  • 飞行时间(ToF)照相机:这些专用传感器发射光信号(通常是红外线),并测量光从物体反弹到返回传感器所需的时间。ToF 相机可以实时绘制高度精确的深度图。
  • 激光雷达(LiDAR):激光雷达通常用于自动驾驶汽车,其工作原理是发射激光脉冲并测量其返回时间,以创建周围环境的详细三维点云。激光雷达技术可提供精确的深度数据,对安全导航具有重要价值。
  • 单目深度估算:人工智能领域的一项重大进展是通过单张 2D 图像估计深度。深度学习模型,尤其是卷积神经网络(CNN),是在大量数据集上训练出来的,可以从纹理、阴影和物体大小推断深度线索,这与人脑的工作原理非常相似。

深度估计的应用

深度感知能力对于各种需要空间感的应用来说至关重要。

机器人技术中,深度估计对于导航和操纵至关重要。装配线上的工业机器人利用深度数据准确地抓取和移动物体,从而提高了制造自动化的效率。同样,移动机器人也会使用深度图来避开障碍物,并在仓库等动态环境中规划路径。这种三维感知可以实现与物理世界精确而安全的交互。

增强现实(AR)和虚拟现实(VR)在很大程度上依赖深度估计来创造身临其境的体验。智能手机上的 AR 应用程序要在真实房间中放置虚拟家具,必须首先了解房间的几何形状。通过创建详细的深度图,系统可以确保虚拟物体逼真地遮挡真实世界中的物体并与之互动,使幻觉天衣无缝、真实可信。

深度估计与相关概念

重要的是,要将深度估算与计算机视觉中听起来相似的术语区分开来。

  • 距离计算:计算机视觉中的距离计算通常是指在二维图像平面内测量两个物体之间的距离(即像素)。相比之下,深度估算测量的是三维空间中物体与摄像机本身的距离。对于某些任务来说,简单的校准距离就足够了,而深度估计则能提供更详细的空间信息。
  • 3D 物体检测:深度估算是三维物体检测的关键因素。二维物体检测是在平面图像上围绕物体绘制一个边界框,而三维物体检测则是在物体周围放置一个三维立方体,定义物体在三维空间中的位置、大小和方向。只有准确的深度信息才能实现这种高级检测。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板