了解 Ultralytics YOLO11 如何支持无锚框目标检测,以及这种模型架构为各种应用带来的好处。
%2525202.webp)
了解 Ultralytics YOLO11 如何支持无锚框目标检测,以及这种模型架构为各种应用带来的好处。
回顾视觉AI模型的历史,物体检测的概念——作为一项核心的计算机视觉任务,涉及识别和定位图像或视频中的物体——早在20世纪60年代就已出现。然而,它在当今尖端创新中具有重要意义的关键原因是,自那时以来,物体检测技术和模型架构已经进步并迅速改进。
在之前的一篇文章中,我们讨论了目标检测的演变以及通往Ultralytics YOLO模型的道路。今天,我们将重点探讨这一历程中一个更具体的里程碑:从基于Anchor的检测器到无Anchor检测器的飞跃。
基于 Anchor 的检测器依赖于预定义的框(称为“anchor”)来预测图像中物体的位置。相比之下,无 Anchor 检测器 跳过这些预定义的框,而是直接预测物体的位置。
虽然这种转变可能看起来像是一个简单、合乎逻辑的变化,但它实际上带来了对象检测准确性和效率的重大改进。在本文中,我们将了解无锚框检测器如何通过 Ultralytics YOLO11 等进步重塑计算机视觉。
基于Anchor的检测器使用预定义的框(称为anchor)来帮助定位图像中的对象。可以将这些anchor视为覆盖在图像上的不同大小和形状的框网格。然后,模型会调整这些框以适应其检测到的对象。例如,如果模型识别出一辆汽车,它将修改anchor框以更准确地匹配汽车的位置和大小。
每个锚框都与图像中可能存在的对象相关联,在训练期间,模型学习如何调整锚框,以更好地匹配对象的位置、大小和宽高比。这使得模型能够检测不同尺度和方向的对象。然而,选择正确的锚框集合可能非常耗时,并且微调过程容易出错。
虽然像 YOLOv4 这样的基于 anchor 的检测器在许多应用中表现良好,但它们确实存在一些缺点。例如,anchor 框并不总是与不同形状或大小的对象很好地对齐,这使得模型更难检测到小的或不规则形状的对象。选择和微调 anchor 框大小的过程也可能非常耗时,并且需要大量的人工。除此之外,基于 anchor 的模型通常难以检测到被遮挡或重叠的对象,因为预定义的框可能无法很好地适应这些更复杂的场景。
无 Anchor 检测器于 2018 年开始受到关注,出现了像 CornerNet 和 CenterNet 这样的模型,它们通过消除对预定义 Anchor 框的需求,从而采用了一种全新的目标检测方法。与依赖于不同大小和形状的 Anchor 框来预测物体位置的传统模型不同,无 Anchor 模型直接预测物体的位置。它们专注于物体的关键点或特征(如中心点),从而简化了检测过程,使其更快、更准确。
以下是无锚框模型的一般工作原理:
由于无锚框模型不依赖于锚框,因此它们的设计更简单,这意味着它们在计算上更有效率。由于它们不必处理多个锚框,因此可以更快地检测物体,这在自动驾驶和视频监控等实时应用中是一个重要的优势。
无 Anchor 模型在处理小型、不规则或被遮挡的物体方面也表现更好。由于它们专注于检测关键点而不是试图拟合 Anchor 框,因此它们更加灵活。这使它们能够在杂乱或复杂的环境中准确地检测物体,而基于 Anchor 的模型可能会失败。
YOLO 模型最初设计是为了速度和效率,现已逐渐从基于 anchor 的方法转向无 anchor 检测,这使得 YOLO11 等模型更快、更灵活,并且更适合各种实时应用。
以下是无锚框设计在不同 YOLO 版本中的演变过程的快速回顾:
使用 YOLO11 的无锚框检测的一个很好的例子是自动驾驶汽车。在自动驾驶汽车中,快速准确地检测行人、其他车辆和障碍物对于安全至关重要。YOLO11 的无锚框方法通过直接预测物体的关键点(例如行人的中心或另一辆车的边界)来简化检测过程,而不是依赖于预定义的锚框。
YOLO11 不需要调整或将锚框网格拟合到每个对象,这在计算上可能非常昂贵且缓慢。相反,它专注于关键特征,使其更快更有效。例如,当行人进入车辆的路径时,即使该人被部分隐藏或正在移动,YOLO11 也可以通过精确定位关键点来快速识别其位置。无需锚框即可适应不同形状和大小的能力使 YOLO11 能够更可靠、更快速地检测对象,这对于自动驾驶系统中的实时决策至关重要。
YOLO11 的无 anchor 能力真正脱颖而出的其他应用包括:
虽然像 YOLO11 这样的无 anchor 模型提供了许多优势,但它们也存在一定的局限性。需要考虑的一个主要实际因素是,即使是无 anchor 模型也可能难以处理遮挡或高度重叠的对象。这背后的原因是计算机视觉旨在复制人类视觉,就像我们有时难以识别被遮挡的对象一样,人工智能模型也会面临类似的挑战。
另一个有趣的因素与模型预测的处理有关。虽然无锚框模型的架构比基于锚框的模型更简单,但在某些情况下,需要进行额外的改进。例如,可能需要诸如 非极大值抑制 (NMS) 之类的后处理技术来清理重叠的预测或提高拥挤场景中的准确性。
从基于Anchor的检测到无Anchor的检测的转变是目标检测领域的一项重大进步。借助像YOLO11这样的无Anchor模型,流程得到了简化,从而提高了准确性和速度。
通过YOLO11,我们已经看到无锚框目标检测在实时应用(如自动驾驶汽车、视频监控和医疗成像)中表现出色,在这些应用中,快速而精确的检测至关重要。这种方法使YOLO11能够更容易地适应不同的物体大小和复杂的场景,从而在不同的环境中提供更好的性能。
随着计算机视觉的不断发展,对象检测只会变得更快、更灵活、更高效。
探索我们的GitHub 仓库并加入我们活跃的社区,以随时了解所有关于 AI 的信息。了解视觉 AI 如何影响制造业和农业等行业。