了解 YOLO 等单级物体检测器的速度和效率,它们是机器人和监控等实时应用的理想之选。
单级物体检测器是一类深度学习模型,旨在提高计算机视觉的速度和效率。它们通过一个统一的神经网络来完成物体定位和分类。这与更复杂的两阶段物体检测器形成鲜明对比,后者将任务分成两个不同的步骤。通过将物体检测视为一个简单的回归问题,单级模型可直接根据图像特征预测边界框和类概率,因此速度极快,适用于需要实时推理的应用。
单级检测器通过一个卷积神经网络(CNN)一次性处理整个图像。该网络的架构设计可同时执行多项任务。首先,网络的骨干部分进行特征提取,以不同比例创建输入图像的丰富表征。然后将这些特征输入专门的检测头。
这个头负责预测一组边界框、每个边界框的置信度分数(表示物体的存在)以及每个物体属于特定类别的概率。整个过程只需一次前向传递,这也是其高速运行的关键所在。然后,使用非最大抑制(NMS)等技术过滤掉多余和重叠的检测结果,以产生最终输出。模型使用专门的损失函数进行训练,该函数结合了定位损失(边界框的精确度)和分类损失(类别预测的精确度)。
主要区别在于方法。单级检测器以速度和简便性为目的,而两级检测器则以准确性为优先,不过这种区别在更新的型号中越来越不明显。
目前已开发出几种有影响力的单级架构,每种架构都有独特的贡献:
单级探测器的速度和效率使其在众多人工智能驱动的应用中不可或缺:
单级检测器的主要优势在于其惊人的速度,可以在各种硬件(包括英伟达 Jetson或Raspberry Pi 等低功耗边缘 AI设备)上实现实时物体检测。它们更简单的端到端架构也使它们更容易使用PyTorch或TensorFlow 等框架进行训练和部署。
一直以来,两级检测器的主要局限是精度较低,尤其是在处理非常小或严重遮挡的物体时。不过,最近在模型架构和训练技术方面取得的进步(如YOLO11 等模型)已经大大缩小了这一性能差距,为各种计算机视觉任务提供了速度和高精度的强大组合。Ultralytics HUB等平台进一步简化了针对特定需求训练定制模型的过程。