术语表

单级物体探测器

了解 YOLO 等单级物体检测器的速度和效率,它们是机器人和监控等实时应用的理想之选。

单级物体检测器是一类深度学习模型,旨在提高计算机视觉的速度和效率。它们通过一个统一的神经网络来完成物体定位和分类。这与更复杂的两阶段物体检测器形成鲜明对比,后者将任务分成两个不同的步骤。通过将物体检测视为一个简单的回归问题,单级模型可直接根据图像特征预测边界框和类概率,因此速度极快,适用于需要实时推理的应用。

单级探测器的工作原理

单级检测器通过一个卷积神经网络(CNN)一次性处理整个图像。该网络的架构设计可同时执行多项任务。首先,网络的骨干部分进行特征提取,以不同比例创建输入图像的丰富表征。然后将这些特征输入专门的检测头

这个头负责预测一组边界框、每个边界框的置信度分数(表示物体的存在)以及每个物体属于特定类别的概率。整个过程只需一次前向传递,这也是其高速运行的关键所在。然后,使用非最大抑制(NMS)等技术过滤掉多余和重叠的检测结果,以产生最终输出。模型使用专门的损失函数进行训练,该函数结合了定位损失(边界框的精确度)和分类损失(类别预测的精确度)。

与两级物体探测器的比较

主要区别在于方法。单级检测器以速度和简便性为目的,而两级检测器则以准确性为优先,不过这种区别在更新的型号中越来越不明显。

  • 单级检测器:这些型号,如YOLO(You Only Look Once)系列,只需一步即可完成检测。它们通常速度更快,结构更简单,是边缘设备和实时应用的理想选择。无锚检测器的开发进一步提高了它们的性能和简易性。
  • 两级物体探测器:R-CNN 系列及其更快速的变体等模型首先会生成一组稀疏的区域建议,物体可能就位于这些建议中。在第二阶段,一个单独的网络会对这些建议进行分类,并完善边界框坐标。这种两步法通常能获得更高的准确度,尤其是对小物体而言,但代价是推理速度大大降低。掩码 R-CNN是将这种方法扩展到实例分割的一个著名例子。

关键架构和模型

目前已开发出几种有影响力的单级架构,每种架构都有独特的贡献:

  • YOLO(你只看一次):YOLO 在2015 年的一篇开创性论文中提出,将物体检测作为一个单一的回归问题。随后的版本,包括YOLOv8和最先进的Ultralytics YOLO11,都不断改进了速度和准确性之间的平衡。
  • 单发多箱探测器(SSD)SSD 架构是另一种开创性的单级模型,它使用多尺度特征图来检测各种大小的物体,与最初的 YOLO 相比,精度有所提高。
  • 视网膜网络(RetinaNet):该模型引入了 "焦点损失"(Focal Loss),这是一种新颖的损失函数,旨在解决密集检测器训练过程中遇到的极端类别不平衡问题,使其能够超越当时许多两阶段检测器的准确性。
  • EfficientDet由谷歌研究院开发的模型系列,通过使用复合缩放方法和新颖的 BiFPN 特征网络,专注于可扩展性和效率。您可以查看它与其他模型的比较,如YOLO11 与 EfficientDet

实际应用

单级探测器的速度和效率使其在众多人工智能驱动的应用中不可或缺:

  1. 自动驾驶汽车:在自动驾驶汽车的人工智能中,单级探测器对于实时感知环境至关重要。它们可以即时识别和跟踪行人、骑车人、其他车辆和交通标志,使汽车导航系统能够在瞬间做出关键决策。特斯拉等公司的自动驾驶系统也采用了类似的原理。
  2. 智能安防和监控:单级模型通过分析视频馈送来检测未经授权的进入或可疑活动等威胁,从而为现代安防系统提供动力。例如,可以对系统进行培训,使其能够实时计算排队人数,进行排队管理或识别机场中被遗弃的行李。

优势和局限

单级检测器的主要优势在于其惊人的速度,可以在各种硬件(包括英伟达 JetsonRaspberry Pi 等低功耗边缘 AI设备)上实现实时物体检测。它们更简单的端到端架构也使它们更容易使用PyTorchTensorFlow 等框架进行训练和部署。

一直以来,两级检测器的主要局限是精度较低,尤其是在处理非常小或严重遮挡的物体时。不过,最近在模型架构和训练技术方面取得的进步(如YOLO11 等模型)已经大大缩小了这一性能差距,为各种计算机视觉任务提供了速度和高精度的强大组合。Ultralytics HUB等平台进一步简化了针对特定需求训练定制模型的过程。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板