探索两阶段目标检测器的强大功能——专注于精度的解决方案,可在复杂的计算机视觉任务中实现精确的目标检测。
双阶段目标检测器是一类 计算机视觉 模型,通过顺序的两步过程来识别和定位图像或视频中的目标。这种方法以其高准确性而闻名,尤其是在精确定位目标方面,尽管它通常以更高的推理延迟为代价。其基本思想是首先识别潜在的感兴趣区域,然后仅对这些有希望的区域执行详细的分类和定位。
两阶段检测器的操作分为不同的顺序阶段:
区域提议生成: 在第一阶段,模型扫描图像以生成一组候选区域,称为“感兴趣区域”(RoI)或提议,这些区域可能包含对象。这通常由一个名为区域提议网络(RPN)的子模块完成,正如在Faster R-CNN架构中著名地引入的那样。此阶段的目标不是对对象进行分类,而是简单地减少第二阶段需要分析的位置数量。
对象分类和边界框细化: 在第二阶段,每个提议的区域都传递到分类头和回归头。分类头确定 RoI 中对象的类别(例如,“人”、“汽车”、“狗”),或将其指定为背景。同时,回归头细化边界框的坐标,以更准确地拟合对象。这种对预选区域的集中分析使模型能够实现高定位精度。
主要区别在于它们的操作流程。两阶段检测器将定位和分类的任务分开,而单阶段对象检测器在一次传递中同时执行这两个任务。
双阶段检测器的发展历程中涌现了多个具有影响力的模型:
双阶段检测器的高精度使其在需要极高精度的场景中具有重要价值:
训练这些模型通常涉及大型标记数据集,例如 COCO 数据集,以及仔细的调优。Ultralytics 提供了用于 模型训练 和理解 性能指标 的资源。虽然 Ultralytics 专注于高效的单阶段模型(如 Ultralytics YOLO),但理解双阶段检测器可以在更广泛的目标检测领域中提供有价值的背景知识。