了解像 YOLO 这样的单阶段目标检测器的速度和效率,它是机器人技术和监控等实时应用的理想选择。
单阶段目标检测器是一类为提高计算机视觉的速度和效率而设计的深度学习模型。它们通过神经网络的单次统一传递来执行目标定位和分类。这与更复杂的双阶段目标检测器形成对比,后者将任务分解为两个不同的步骤。通过将目标检测视为一个直接的回归问题,单阶段模型直接从图像特征预测边界框和类别概率,使其速度极快,适合需要实时推理的应用。
单阶段检测器通过单个卷积神经网络 (CNN)一次性处理整个图像。该网络的架构旨在同时执行多项任务。首先,网络的主干网络执行特征提取,创建输入图像在各种尺度上的丰富表示。然后,这些特征被馈送到专门的检测头中。
此 head 负责预测一组边界框,每个框的置信度分数(指示对象是否存在),以及每个对象属于特定类别的概率。整个过程在一次前向传递中完成,这是它们速度快的关键。然后使用诸如非极大值抑制 (NMS)之类的技术来滤除冗余和重叠的检测,以生成最终输出。这些模型使用专门的损失函数进行训练,该函数结合了定位损失(边界框的准确程度)和分类损失(类别预测的准确程度)。
主要区别在于方法。单阶段检测器专为速度和简单性而构建,而两阶段检测器则优先考虑准确性,尽管随着新型号的出现,这种区别正变得越来越不明显。
已经开发了几种有影响力的单阶段架构,每种架构都有其独特的贡献:
单阶段检测器的速度和效率使其在众多 AI 驱动的应用程序中不可或缺:
单阶段检测器的主要优点是其惊人的速度,这使得在各种硬件上实现实时对象检测成为可能,包括低功耗边缘 AI 设备,如 NVIDIA Jetson 或 Raspberry Pi。它们更简单的端到端架构也使它们更容易使用 PyTorch 或 TensorFlow 等框架进行训练和部署。
从历史上看,主要的限制是与两阶段检测器相比,精度较低,尤其是在处理非常小或严重遮挡的物体时。然而,正如在 YOLO11 等模型中所见,模型架构和训练技术的最新进展已显着缩小了这种性能差距,为各种 计算机视觉任务 提供了速度和高精度的强大组合。诸如 Ultralytics HUB 之类的平台进一步简化了针对特定需求训练自定义模型的过程。