敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

两阶段目标检测器

探索两阶段目标检测器的强大功能——专注于精度的解决方案,可在复杂的计算机视觉任务中实现精确的目标检测。

双阶段目标检测器是一类 计算机视觉 模型,通过顺序的两步过程来识别和定位图像或视频中的目标。这种方法以其高准确性而闻名,尤其是在精确定位目标方面,尽管它通常以更高的推理延迟为代价。其基本思想是首先识别潜在的感兴趣区域,然后仅对这些有希望的区域执行详细的分类和定位。

两阶段过程

两阶段检测器的操作分为不同的顺序阶段:

  1. 区域提议生成: 在第一阶段,模型扫描图像以生成一组候选区域,称为“感兴趣区域”(RoI)或提议,这些区域可能包含对象。这通常由一个名为区域提议网络(RPN)的子模块完成,正如在Faster R-CNN架构中著名地引入的那样。此阶段的目标不是对对象进行分类,而是简单地减少第二阶段需要分析的位置数量。

  2. 对象分类和边界框细化: 在第二阶段,每个提议的区域都传递到分类头和回归头。分类头确定 RoI 中对象的类别(例如,“人”、“汽车”、“狗”),或将其指定为背景。同时,回归头细化边界框的坐标,以更准确地拟合对象。这种对预选区域的集中分析使模型能够实现高定位精度。

两阶段检测器 vs. 单阶段检测器

主要区别在于它们的操作流程。两阶段检测器将定位和分类的任务分开,而单阶段对象检测器在一次传递中同时执行这两个任务。

  • 两阶段检测器(例如,R-CNN 系列): 优先考虑准确性。两步过程允许对每个潜在对象进行更详细的特征提取和细化,从而在具有许多小型或重叠对象的复杂场景中获得更好的性能。然而,它们的复杂性使得它们在计算上密集且速度较慢。
  • 单阶段检测器(例如,Ultralytics YOLO、SSD): 优先考虑速度和效率。通过将目标检测视为一个单一的回归问题,它们实现了适用于边缘 AI设备上的实时推理速度。虽然像YOLO11这样的现代单阶段模型已经显著缩小了准确性差距,但对于需要尽可能高精度的任务,可能仍然首选两阶段检测器。

主要架构

双阶段检测器的发展历程中涌现了多个具有影响力的模型:

  • R-CNN(基于区域的卷积神经网络): 第一个提出将区域提议与 卷积神经网络 (CNN) 结合使用的开创性模型。它使用一种称为选择性搜索的外部算法来生成提议。
  • Fast R-CNN: 一种改进方案,通过 CNN 一次性处理整个图像,共享计算资源并显著加快处理速度。
  • Faster R-CNN: 引入了区域提议网络 (RPN),将区域提议机制集成到 神经网络 本身中,形成端到端的深度学习解决方案。
  • Mask R-CNN: 通过添加第三个分支来扩展 Faster R-CNN,该分支为每个对象输出像素级掩码,从而实现实例分割

实际应用

双阶段检测器的高精度使其在需要极高精度的场景中具有重要价值:

  • 医学图像分析: 检测医学扫描(CT、MRI)中细微的异常,如小肿瘤、病变或息肉,需要高精度才能辅助诊断。精确定位对于治疗计划至关重要。请参阅有关医疗保健人工智能的更多信息以及 Radiology: Artificial Intelligence 等期刊中的研究。您可以浏览像 脑肿瘤数据集 这样的数据集以了解相关任务。
  • 自动驾驶: 精确检测和定位行人、骑自行车的人、其他车辆和交通标志,尤其是小型或部分遮挡的物体,对于自动驾驶汽车的安全系统至关重要。像 Waymo 这样的公司严重依赖强大的感知系统。
  • 详细的场景理解: 需要精细理解对象交互或精确计数的应用受益于更高的精度。
  • 制造业中的质量控制: 在复杂组件中识别小缺陷或验证组件位置通常需要高精度。了解更多关于制造业中的人工智能的信息。

训练这些模型通常涉及大型标记数据集,例如 COCO 数据集,以及仔细的调优。Ultralytics 提供了用于 模型训练 和理解 性能指标 的资源。虽然 Ultralytics 专注于高效的单阶段模型(如 Ultralytics YOLO),但理解双阶段检测器可以在更广泛的目标检测领域中提供有价值的背景知识。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板