深圳Yolo 视觉
深圳
立即加入
词汇表

目标检测架构

探索目标检测架构,从主干网络到检测头。了解Ultralytics YOLO26如何为实时计算机视觉提供卓越的速度和精度。

目标 detect 架构是用于识别和定位视觉数据中物体的神经网络的结构蓝图。在 计算机视觉 (CV) 这一更广阔的领域中,这些架构通过将原始像素数据处理成有意义的洞察来定义机器如何“看”。与仅对图像进行简单 classify 的基本 classify 模型不同,目标 detect 架构旨在为每个检测到的独立物体输出一个 bounding box、一个类别标签和一个 置信度分数。这种结构设计决定了模型的速度、准确性和计算效率,使其成为选择用于 实时推理 或高精度分析模型的关键因素。

架构的核心组件

尽管具体设计各不相同,大多数现代架构都共享三个基本组件:主干网络、颈部网络和头部网络。主干网络 作为主要的特征提取器。它通常是一个在 ImageNet 等大型数据集上预训练的 卷积神经网络 (CNN),负责识别基本形状、边缘和纹理。常见的主干网络选择包括 ResNet 和 CSPDarknet。

颈部网络 连接主干网络和最终输出层。它的作用是混合和组合来自主干网络不同阶段的特征,以确保模型能够 detect 不同大小的物体——这一概念被称为多尺度特征融合。架构通常在此处利用 特征金字塔网络 (FPN) 或路径聚合网络 (PANet) 来丰富传递给预测层的语义信息。最后,检测头 处理这些融合的特征,以预测每个物体的具体类别和坐标位置。

演进:两阶段与单阶段

从历史上看,架构主要分为两大类。两阶段检测器,例如 R-CNN 系列,首先提出可能存在物体的感兴趣区域 (RoIs),然后在第二步中对这些区域进行 classify。尽管通常很准确,但它们通常计算量过大,不适用于边缘设备。

相比之下,单阶段检测器 将检测视为一个简单的回归问题,在单次通过中将图像像素直接映射到 bounding box 坐标和类别概率。这种由 YOLO (You Only Look Once) 系列开创的方法,通过实现实时性能彻底改变了行业。现代进展最终形成了 YOLO26 等模型,这些模型不仅提供卓越的速度,还采用了端到端、NMS-free 的架构。通过消除对 非极大值抑制 (NMS) 后处理的需求,这些新架构减少了延迟的可变性,这对于安全关键系统至关重要。

实际应用

架构的选择直接影响 AI 解决方案在各个行业中的成功。

  • 零售自动化:智能超市 中,高效的单阶段架构支持自动化结账系统,能够即时识别传送带或购物车中的商品,从而减少等待时间和人为错误。
  • 医学诊断:高精度架构用于 医学图像分析,以detectX光片或MRI扫描中的异常,例如肿瘤。在此,架构保留细粒度细节的能力比原始处理速度更为关键。

区分相关术语

区分检测架构与类似的计算机视觉任务很重要:

  • 对比图像分类: 图像分类 架构(如 VGG 或 EfficientNet)为整张图像分配一个单一标签(例如,“猫”)。它不会告诉你 猫在哪里 或者是否有不止一只猫,而这正是检测架构的主要功能。
  • 对比实例分割: 检测是在对象周围放置一个框,而 实例分割 则识别每个对象的精确像素级轮廓(掩码)。分割架构通常是检测架构的扩展(例如,在检测头中添加一个掩码分支)。

利用Ultralytics实施

现代框架已经抽象了这些架构的复杂性,允许开发人员以最少的代码利用最先进的设计。使用 ultralytics 包,您可以加载一个预训练的 YOLO26 模型并立即运行推理。对于希望在云端管理数据集并训练自定义架构的团队, Ultralytics 平台 简化了整个 MLOps 流程。

from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Run inference on an image source
# This uses the model's architecture to detect objects
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

让我们一起共建AI的未来!

开启您的机器学习未来之旅