术语表

两级物体探测器

探索两级物体检测器的强大功能--在复杂的计算机视觉任务中实现精确物体检测的高精度解决方案。

两阶段物体检测器是一类计算机视觉模型,它通过一个连续的两步过程来识别和定位图像或视频中的物体。这种方法以其高精度而著称,尤其是在精确定位物体方面,但其代价往往是较高的推理延迟。其基本思想是首先确定潜在的感兴趣区域,然后仅对这些有希望的区域进行详细分类和定位。

两阶段过程

两级探测器的运行分为不同的连续阶段:

  1. 区域建议生成:在第一阶段,模型对图像进行扫描,生成一组可能包含物体的候选区域,即 "感兴趣区域"(RoIs)或建议。这通常是由一个称为 "区域建议网络"(RPN)的子模块完成的,该模块在Faster R-CNN架构中得到了广泛应用。这一阶段的目标不是对物体进行分类,而只是减少第二阶段需要分析的位置数量。

  2. 对象分类和边界框细化:在第二阶段,每个提议的区域都会被传递给一个分类头和一个回归头。分类头确定 RoI 中的对象类别(如 "人"、"车"、"狗")或将其指定为背景。与此同时,回归头会完善边界框的坐标,以便更准确地匹配对象。这种对预选区域的集中分析可使模型达到很高的定位精度。

双级检测器与单级检测器的比较

它们的主要区别在于操作流水线。两级检测器将定位和分类任务分开,而单级物体检测器则一次同时完成这两项任务。

  • 两级检测器(如 R-CNN 系列):优先考虑准确性。两步法可以对每个潜在物体进行更详细的特征提取和细化,从而在有许多小物体或重叠物体的复杂场景中发挥更好的性能。不过,它们的复杂性使其计算密集,速度较慢。
  • 单级检测器(如Ultralytics YOLO、SSD):优先考虑速度和效率。通过将物体检测视为单一回归问题,它们实现了适合边缘人工智能设备应用的实时推理速度。虽然像YOLO11这样的现代单级模型已经大大缩小了精度差距,但对于要求尽可能高精度的任务,两级检测器可能仍然是首选。

著名建筑

两级探测器的发展以几种有影响力的模型为标志:

  • R-CNN(基于区域的卷积神经网络):首次提出将区域建议与卷积神经网络(CNN)结合使用的开创性模型。它使用一种名为 "选择性搜索 "的外部算法来生成建议。
  • 快速 R-CNN:这是一种改进,它只需通过 CNN 处理一次整个图像,从而分担了计算量并大大加快了处理速度。
  • 更快的 R-CNN:引入区域建议网络(RPN),将区域建议机制整合到神经网络本身,提供端到端的深度学习解决方案。
  • 掩码 R-CNN扩展快速 R-CNN,增加第三个分支,为每个对象输出像素级掩码,实现实例分割

实际应用

两级探测器的高精度使其在精度要求极高的情况下非常有价值:

  • 医学图像分析在医学扫描(CT、核磁共振成像)中检测小肿瘤、病变或息肉等细微异常需要高精确度来帮助诊断。精确定位对于制定治疗计划至关重要。更多有关人工智能在医疗保健和研究领域的应用,请参阅《放射学》等期刊:人工智能。您可以探索脑肿瘤数据集等相关任务的数据
  • 自动驾驶准确检测和定位行人、骑车人、其他车辆和交通标志,尤其是小型或部分遮挡的交通标志,对于自动驾驶汽车的安全系统至关重要。Waymo等公司在很大程度上依赖于强大的感知系统。
  • 详细了解场景:需要精细了解物体相互作用或精确计数的应用可从更高的精度中获益。
  • 制造过程中的质量控制:在复杂的装配中识别微小缺陷或验证部件位置往往需要很高的精度。进一步了解人工智能在制造业中的应用

训练这些模型通常需要大量标注数据集(如COCO 数据集)和仔细的调整。Ultralytics 为模型训练和了解性能指标提供了资源。Ultralytics 专注于高效的单级模型(如 Ultralytics YOLO),而了解两级检测器则为更广泛的物体检测领域提供了宝贵的背景资料。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板