术语表

边界框

了解边界框如何实现物体检测、人工智能和机器学习系统。探索边界框在计算机视觉应用中的作用!

边界框是计算机视觉中的一种矩形标注,用于指示图像或视频帧中物体的位置。它是物体检测的基本组成部分,为确定物体的位置和比例提供了一种简单而有效的方法。在机器学习中,模型在带有标注边界框的大型图像数据集上进行训练,以学习如何自行识别和定位物体。这些模型的输出包括边框的坐标、类别标签(如 "汽车"、"人")以及表示模型预测确定性的置信度分数

边界框的工作原理

边界框通常由一组坐标定义,这些坐标指定了边界框的位置和大小。最常见的表示方法有

  • 左上角坐标及宽度和高度(x, y, w, h):此格式指定左上角的 x 和 y 坐标以及方框的宽度和高度。
  • 角点(x_min, y_min, x_max,y_max):此格式定义矩形左上角和右下角的坐标。

这些坐标被用于训练深度学习模型,而深度学习模型会学习预测新的、未见过的图像的这些值。预测边界框的准确性通常使用一种称为 "交集大于联合"(Intersection over Union,IoU)的指标进行评估,该指标用于测量预测边界框与地面实况边界框之间的重叠程度。现代物体检测模型(如Ultralytics YOLO11)经过高度优化,可实时生成精确的边界框。

边框类型

边界框主要有两种类型:

  1. 轴对齐边框:这是最常见的类型,矩形的边与图像的水平轴和垂直轴对齐。这种方框的表示和处理都很简单,但对于旋转或不规则形状的物体可能效率不高,因为方框中可能包含很大的背景区域。
  2. 定向边框 (OBB):这种边框包含一个用于旋转的附加参数,可以更紧密地贴合倾斜的物体。在卫星图像分析或无人机航拍图像等专业应用中,OBB 尤其有用,因为在这些应用中,通常需要从不同角度观察物体。YOLO11 等模型支持定向物体检测,可以更有效地处理这些场景。

与其他概念的关系

边界框与其他计算机视觉任务密切相关,但有其独特的作用。

  • 物体检测与图像分割:对象检测使用边界框来定位对象,而图像分割则能更详细地了解对象的形状。例如,实例分割可以更进一步,准确勾勒出每个不同对象的像素级边界,而不仅仅是在其周围画一个矩形。这对于需要精确形状信息的应用非常有用。更多信息,请参阅实例分割指南
  • 边界框与锚点框:在某些物体检测模型(即基于锚点的检测器)中,被称为 "锚点框 "的预定义框被用作帮助模型预测最终边界框的参考。相比之下,无锚检测器不需要这些预设值就能直接预测边界框,通常能简化模型架构。

在现实世界中的应用

边界框是众多人工智能实际应用中不可或缺的一部分:

  1. 自动驾驶汽车:自动驾驶汽车在很大程度上依赖于物体检测,利用边界框识别和定位行人、其他车辆和交通信号灯。这种空间感知通常通过深度学习模型实现,对于安全导航至关重要。Waymo等公司广泛展示了这一技术。Ultralytics 提供有关自动驾驶汽车中人工智能的见解。
  2. 零售分析:在零售业,边界框通过检测货架上的产品、监控库存水平以及通过人流模式(物体计数)分析顾客行为,帮助进行人工智能驱动的库存管理
  3. 安全和监控:边界框使自动监控系统能够实时检测和跟踪个人或物体,并对可疑活动发出警报。这对于安全警报系统等楼宇应用至关重要。
  4. 医学图像分析:在医疗保健领域,边界框可以帮助临床医生突出显示扫描图像中潜在的异常点(如肿瘤),从而加快诊断速度。您可以在放射学中看到这方面的例子:人工智能研究和我们的医学图像分析页面上。
  5. 农业:在精准农业 ,边界框可用于识别待收获的水果、监控作物健康状况或检测害虫等任务,详见我们的博客 "计算机视觉在农业中的应用"。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板