什么是定向边界框 (OBB) 检测?

5 分钟阅读

2025年6月9日

探索定向边界框 (OBB) 检测如何在现实世界的应用中通过精确识别图像中的旋转物体来增强物体检测。

作为人类,我们很自然地就能识别物体,无论它们是如何排列或朝向何方。无论是十字路口的汽车还是港口的船只,我们都能轻易分辨出它们是什么以及指向哪个方向。然而,对于人工智能(AI)系统来说,事情就没那么简单了。

例如,计算机视觉是人工智能的一个分支,专注于理解图像和视频,它可以完成物体检测等任务,帮助机器识别和定位场景中的物体。传统的物体检测依赖于轴对齐的边界框来绘制物体周围的方框。这些框具有直边和固定的直角。这种方法在物体直立且距离不太近的情况下效果很好。 

但当物体倾斜、旋转或靠近时,传统的物体检测往往难以准确捕捉。为了处理这些更复杂的情况,我们引入了定向边界框(OBB)检测等技术。与标准边界框不同,定向边界框可以根据物体的角度和形状进行旋转,从而实现更紧密、更精确的贴合。

Ultralytics YOLO11 这样支持 OBB 检测的计算机视觉模型可以实现一系列实时应用,尤其是在空中监控等需要考虑物体方位的场景中。除此之外,OBB 检测还可用于医疗保健、农业和文档分析。

在本文中,我们将探讨什么是 OBB 检测、它是如何工作的,以及它在实际场景中的应用。让我们开始吧!

__wf_保留继承
图 1.使用 YOLO11 对船只进行 OBB 检测的演示示例。

什么是定向包围盒?

定向边框是计算机视觉中的一种矩形框,用于表示图像中检测到的物体。标准边框与图像的水平轴和垂直轴对齐,而定向边框可以旋转,以符合物体的实际角度。

这种旋转能力带来了若干优势。OBB 可以更紧密地与物体的方向保持一致,使方框紧贴物体的形状和方向。因此,检测变得更加准确和精确。

当物体并非完全直立时,例如航拍镜头中在弯曲道路上转弯的汽车、桌子上倾斜的书本或医学扫描中旋转的肿瘤,OBB 尤其有用。通过更精确地匹配物体的角度,OBB 可以提高检测性能,减少背景干扰,尤其适用于物体方向与位置同等重要的应用。

__wf_保留继承
图 2.物体检测与 OBB 检测的比较

OBB 检测与物体检测

OBB 检测和传统的物体检测乍看起来可能很相似,但它们的使用方式和适用场合却不尽相同。让我们通过一个例子来详细了解它们之间的比较。

计算机视觉模型(如 YOLO11)经过训练后,可以在工业检测等各种实际应用中对物体进行检测和分类。在工厂装配线上,不同的机器零件沿着传送带移动。有些部件可能摆放整齐,但其他部件可能会因振动或速度而轻微旋转、倾斜或重叠。

传统的对象检测使用直立的矩形框,与图像的水平和垂直边缘保持一致。因此,当部件旋转时,方框可能无法正确贴合--可能会漏掉部分物体或包含过多背景。这会降低检测的准确性,使系统难以准确识别零件。

现在,假设您使用的是 OBB 检测。在这种情况下,模型可以根据每个部件的精确角度绘制一个可旋转的方框。倾斜的齿轮或有角度的部件将被一个符合其形状和方向的方框紧紧包围。这意味着精度更高、误差更小、结果更可靠,尤其是在自动质量控制或机器人分拣等使用案例中。

流行的 OBB 检测模型

既然我们已经对 OBB 检测有了更深入的了解,那就让我们来看看支持 OBB 检测的一些最广泛使用的视觉人工智能模型吧。

目前已开发出几种先进的计算机视觉模型,专门用于检测旋转或倾斜的物体。其中,Ultralytics YOLO 模型以其可靠高效的 OBB 检测能力而闻名。

Ultralytics YOLOv5等早期版本专为标准对象检测而设计。后来的迭代版本,如Ultralytics YOLOv8和最新的 YOLO11,则引入了对 OBB 检测的本地支持。特别是 YOLO11,它在不影响速度的情况下提供了最先进的准确性,使其成为实时应用的重要选择。

预训练的YOLO11 OBB 模型(如 YOLO11n-obb)是在 DOTAv1 等数据集上训练出来的,该数据集由航空图像组成,注释了飞机、轮船和网球场等一系列物体类别,这些物体以不同的角度和方向出现。 

此外,这些型号还提供五种不同的尺寸,从纳米(n-obb)到超大(x-obb),以满足不同的性能需求。这种多功能性使它们能够应用于各行各业--从监控城市基础设施和检查机械到读取扫描文件中倾斜的文本。

用于定向边界框检测的定制训练 YOLO11

在现实世界的许多情况下,您需要检测的对象可能与标准训练数据集中的对象完全不同。例如,生产线上的工具、产品包装或电路板上的元件等物体可能会旋转、摆放不规则或形状不同。 

要准确检测这些自定义对象,尤其是在方向非常重要的情况下,使用您自己的图像和标签来训练像 YOLO11 这样的模型非常重要。这一过程被称为自定义训练。 

下面将详细介绍训练 YOLO11 进行 OBB 检测的步骤:

  • 图像收集:收集从不同角度、位置和真实环境展示目标对象的图像。
  • 对象注释
  • 数据集准备:将图像和标签整理到 YOLO 目录结构中,并创建包含类名和数据集路径的 YAML 配置文件。
  • 模型训练
  • 评估和部署:在新图像上测试训练有素的模型,评估其准确性,并将其部署到实际应用中,如制造、空中监控或文档分析。

通过 OBB 检测实现的应用

偏离中心或倾斜的物体在现实生活中非常常见。让我们通过几个示例来了解 OBB 检测如何通过准确检测这些物体而发挥真正的作用。

利用 OBB 检测进行 X 射线图像分析

OBB 检测可以提高精确度,从而使医学图像分析更进一步。医学图像通常包括解剖结构,如肿瘤、器官或骨骼。这些结构经常以不规则的形状和不同的方向出现。由于 OBB 可以根据物体的角度进行旋转,因此可以提供更精确的定位和测量,这对诊断和治疗计划至关重要。

这种方法在分析骨折的 X 光图像时尤其有效,因为骨骼的位置和排列是关键因素。例如,OBB 检测被用于分析小儿肘部 X 光片。通过调整骨骼的方向,它有助于提高检测的准确性。 

__wf_保留继承
图 3.带有物体检测(b、e)和定向边界框检测(c、f)的 X 射线(a、d)。

利用 OBB 检测技术进行空中监控

空中监控是公共安全、环境监测和城市规划等领域的重要工具。无人机或卫星拍摄的图像有助于识别船只、车辆和建筑物等物体。然而,在这些图像中,物体往往看起来很小,角度也不寻常,因此更难准确探测。

OBB 检测通过倾斜边界框以匹配每个物体的角度来解决这个问题。这样就能更准确地测量物体的大小和方位,从而为城市规划、国防、灾难响应和环境监测等领域提供更好的决策支持。

OBB 检测的一个有趣例子是海上监控中的船舶跟踪。由于天气、光照或运动等原因,卫星图像经常会捕捉到不同角度和大小的船只。OBB 能够适应这些变化,从而提高探测效率,尤其是对于较小或部分被遮挡的船只。

__wf_保留继承
图 4.利用 OBB 检测进行海上监视的情况。

在农业中使用 OBB 检测

收获后对农作物进行分拣是确保农作物包装和上市前质量的关键步骤。虽然许多系统都能很好地处理苹果和橘子等圆形水果,但胡萝卜或茭白等狭长型作物却很难处理。它们的形状各不相同,而且经常以不同的角度出现,因此很难准确检测和分拣。

为了解决这个问题,研究人员开发了一套系统,利用定向边界框(OBB)检测来更准确地识别这些农作物并进行分级。该系统可以检测一张图像中的多种作物,即使它们是倾斜或重叠的,也能实时评估它们的质量和位置。

OBB 检测的利弊

以下是使用 OBB 检测的一些好处:

  • 改进下游任务的输入: 计算机视觉任务(如实例分割和物体跟踪)在获得更准确的物体检测结果后,就能执行得更好

  • 增强空间推理能力: 通过捕捉方位角度,OBB 可以了解物体的排列和方向。

  • 减少拥挤场景中的重叠:即使在繁忙或杂乱的场景中,OBB 也能更紧密地贴合物体,从而减少模糊性。

尽管 OBB 检测有助于提高复杂场景中的检测精度,但也有一些局限性需要考虑:

  • 对噪声更敏感: 角度预测中的微小误差会对检测精度产生较大影响,尤其是对于紧密排列或拉长的物体。
  • 需要专业工具:由于并非所有标签和培训平台都支持 OBB,因此使用它们可能需要额外的工具或设置。

  • 数据集可用性有限: 与标准物体检测相比,目前可公开获得的带有 OBB 注释的数据集较少,这使得开始使用或比较结果的难度略有增加。

主要收获

定向边框检测使计算机视觉解决方案更容易识别并非完全平直或对齐的物体。通过捕捉物体的位置和方向,定向边框检测提高了扫描医疗图像、监控农田或分析卫星照片等实际应用案例的准确性。

随着 YOLO11 等机型使 OBB 检测变得更容易使用,它正成为许多行业的实用选择。无论您处理的是倾斜、重叠还是奇形怪状的物体,OBB 检测都能为您带来额外的精确度,而标准方法往往会忽略这一点。

对人工智能感到好奇?探索我们的GitHub 存储库,与我们的社区建立联系,了解我们的许可选项,启动您的计算机视觉项目。在我们的解决方案页面了解更多有关零售业人工智能 物流业计算机视觉等创新的信息。

让我们共同打造人工智能的未来

开始您的未来机器学习之旅

免费开始
链接复制到剪贴板