敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

边界框

了解边界框如何实现目标检测、人工智能和机器学习系统。探索它们在计算机视觉应用中的作用!

边界框是 计算机视觉 中使用的一种矩形注释,用于指示图像或视频帧中对象的位置。它是 目标检测 的基本组成部分,提供了一种简单而有效的方法来定义对象的位置和比例。在 机器学习 中,模型在带有标记边界框的大型图像 数据集 上进行训练,以学习如何自行识别和定位对象。这些模型的输出包括框的坐标、类标签(例如,“汽车”、“人”)和一个 置信度分数,指示模型对其预测的确定性。

边界框的工作原理

边界框通常由一组坐标定义,这些坐标指定其位置和大小。最常见的表示形式是:

  • 左上角坐标以及宽度和高度 (x, y, w, h):此格式指定左上角的 x 和 y 坐标,以及框的宽度和高度。
  • 角点 (x_min, y_min, x_max, y_max): 此格式定义了矩形左上角和右下角的坐标。

这些坐标用于训练深度学习模型,模型学习预测新图像中这些值。预测边界框的准确性通常使用称为交并比(IoU)的指标来评估,该指标衡量预测框和真实框之间的重叠程度。诸如Ultralytics YOLO11之类的现代目标检测模型经过高度优化,可以实时生成精确的边界框。

边界框的类型

边界框主要有两种类型:

  1. 轴对齐边界框:这是最常见的类型,其中矩形的边与图像的水平轴和垂直轴对齐。它们易于表示和处理,但对于旋转或不规则形状的物体效率低下,因为框可能包含大量的背景区域。
  2. 定向边界框 (OBB): 这种类型的框包含一个额外的旋转参数,使其能够更紧密地贴合倾斜的物体。OBB 在诸如卫星图像分析或无人机航拍图像等专业应用中特别有用,在这些应用中,物体通常从各种角度观察。像 YOLO11 这样的模型支持定向目标检测,以更有效地处理这些场景。

与其他概念的关系

边界框与其他计算机视觉任务密切相关,但具有不同的用途。

  • 对象检测与图像分割:虽然对象检测使用边界框来定位对象,但图像分割提供了对对象形状的更详细的理解。例如,实例分割更进一步,通过勾勒出每个不同对象的精确像素级边界,而不仅仅是在其周围绘制一个矩形。这对于需要精确形状信息的应用非常有用。 更多信息可以在这篇实例分割指南中找到。
  • 边界框 vs. Anchor Box: 在某些对象检测模型(称为 基于 anchor 的检测器)中,预定义的框(称为“anchor boxes”)用作参考,以帮助模型预测最终边界框。 相比之下,无 anchor 检测器 直接预测边界框,而无需这些预设,这通常简化了模型架构。

现实场景中的应用

边界框是众多实际 AI 应用不可或缺的一部分:

  1. 自动驾驶汽车:自动驾驶汽车严重依赖目标检测来识别和定位行人、其他车辆和使用边界框的交通信号灯。这种空间感知通常通过深度学习模型实现,对于安全导航至关重要。像 Waymo 这样的公司广泛展示了这项技术。Ultralytics 提供了关于 自动驾驶汽车中的 AI 的见解。
  2. 零售分析:在零售业中,边界框通过检测货架上的产品、监控库存水平以及通过客流量模式(对象计数)分析客户行为,从而在AI 驱动的库存管理中发挥作用。
  3. 安全与监控: 边界框使自动化监控系统能够实时检测和跟踪人员或物体,从而触发可疑活动的警报。这是构建诸如安全警报系统等应用的基础。
  4. 医学图像分析: 在医疗保健领域,边界框通过突出显示扫描图像中潜在的异常(如肿瘤)来辅助临床医生,从而加快诊断速度。您可以在放射学:人工智能研究和我们的医学图像分析页面上看到这方面的例子。
  5. 农业: 边界框用于精准农业,用于识别要收获的水果、监测作物健康状况或检测害虫等任务,详情请参阅我们关于农业计算机视觉的博客。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板