术语表

物体检测架构

探索对象检测架构的强大功能,这是理解图像的人工智能支柱。立即了解类型、工具和实际应用!

物体检测架构是执行物体检测深度学习模型的基础蓝图。这项计算机视觉(CV)任务涉及识别图像或视频中物体的存在和位置,通常是在物体周围画一个边界框,并指定一个类别标签。架构定义了模型的结构,包括如何处理视觉信息和进行预测。架构的选择至关重要,因为它直接影响到模型的速度、准确性和计算要求。

物体检测架构的工作原理

大多数现代物体检测架构都由三个依次工作的主要组件组成:

  • 骨干网这是一个卷积神经网络(CNN),通常在大型图像分类数据集(如ImageNet 上进行预训练。它的主要作用是充当特征提取器,将输入图像转换成一系列捕捉分层视觉信息的特征图。流行的骨干网络包括ResNet和 CSPDarknet,后者用于许多 YOLO 模型。您可以从IBM 的详细概述等资料中进一步了解 CNN 的基本原理。
  • 颈部颈部:这一可选组件位于主干和头部之间。它的作用是汇总和完善主干网生成的特征图,通常结合不同尺度的特征来改进对不同大小物体的检测。例如特征金字塔网络(FPN)。
  • 探测头:探测头是负责进行预测的最后一个组件。它从颈部(或直接从主干)获取经过处理的特征图,并输出每个检测到的物体的类别概率和边界框坐标。

架构类型

物体检测架构可根据其预测方法进行大致分类,从而在速度和准确性之间进行权衡。您可以探索详细的模型比较,以了解这些权衡的实际效果。

  • 两阶段物体检测器这些模型(如 R-CNN 系列)首先识别一组候选对象区域(区域建议),然后对每个区域进行分类。这种两步法可以达到很高的准确率,但通常速度较慢。
  • 单级物体检测器Ultralytics YOLO(只看一次)系列这样的架构将物体检测视为一个单一的回归问题。它们直接从完整图像中一次性预测边界框和类概率,从而实现实时推理
  • 无锚检测器无锚检测器是单级检测器的最新发展,Ultralytics YOLO11等无锚架构无需预定义锚框。这就简化了训练过程,通常能建立更快、更高效的模型。

实际应用

物体检测架构为各行各业的众多人工智能应用提供了支持:

工具和技术

开发和部署基于这些架构的模型通常需要专门的工具和框架:

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板