敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

目标检测架构

探索目标检测架构的强大功能,这是图像理解的 AI 支柱。 立即了解类型、工具和实际应用!

目标检测架构是执行目标检测深度学习模型的基础蓝图。这项计算机视觉 (CV)任务涉及识别图像或视频中是否存在物体及其位置,通常通过在物体周围绘制边界框并分配类别标签来实现。该架构定义了模型的结构,包括它如何处理视觉信息并进行预测。架构的选择至关重要,因为它直接影响模型的速度、准确性和计算要求。

目标检测架构的工作原理

大多数现代目标检测架构由按顺序工作的三个主要组件组成:

  • Backbone(主干网络): 这是一个卷积神经网络(CNN),通常在大型图像分类数据集(如ImageNet)上进行预训练。它的主要作用是充当特征提取器,将输入图像转换为一系列特征图,这些特征图捕获分层的视觉信息。流行的主干网络包括ResNet和CSPDarknet,后者用于许多YOLO模型。您可以从IBM的详细概述等来源了解有关CNN基础知识的更多信息。
  • Neck(颈部): 这是一个可选组件,位于主干网络(backbone)和头部(head)之间。它的作用是聚合和优化主干网络生成的特征图,通常结合来自不同尺度的特征,以提高对各种大小物体的检测。例如特征金字塔网络(FPN)。
  • 检测头: 检测头是负责进行预测的最终组件。它从颈部(或直接从主干)获取处理后的特征图,并输出每个检测到的对象的类别概率和边界框坐标。

架构类型

目标检测架构根据其预测方法大致分类,从而在速度和准确性之间进行权衡。您可以浏览详细的模型比较,以了解这些权衡的实际效果。

  • 两阶段目标检测器: 这些模型(如R-CNN系列)首先识别一组候选对象区域(区域提议),然后对每个区域进行分类。这种两步过程可以实现高精度,但通常速度较慢。
  • One-Stage Object Detectors:Ultralytics YOLO(You Only Look Once)系列这样的架构将目标检测视为一个单一的回归问题。 它们通过一次传递直接从完整图像预测边界框和类别概率,从而实现实时推理
  • 无Anchor检测器: 作为单阶段检测器中较新的演变,像Ultralytics YOLO11这样的无anchor架构消除了对预定义anchor框的需求。这简化了训练过程,并且通常会产生更快、更高效的模型。

实际应用

目标检测架构为各个领域中众多的 AI 应用程序提供支持:

工具与技术

开发和部署基于这些架构的模型通常需要专门的工具和框架:

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板