探索目标检测架构,从主干网络到检测头。了解Ultralytics YOLO26如何为实时计算机视觉提供卓越的速度和精度。
目标 detect 架构是用于识别和定位视觉数据中物体的神经网络的结构蓝图。在 计算机视觉 (CV) 这一更广阔的领域中,这些架构通过将原始像素数据处理成有意义的洞察来定义机器如何“看”。与仅对图像进行简单 classify 的基本 classify 模型不同,目标 detect 架构旨在为每个检测到的独立物体输出一个 bounding box、一个类别标签和一个 置信度分数。这种结构设计决定了模型的速度、准确性和计算效率,使其成为选择用于 实时推理 或高精度分析模型的关键因素。
尽管具体设计各不相同,大多数现代架构都共享三个基本组件:主干网络、颈部网络和头部网络。主干网络 作为主要的特征提取器。它通常是一个在 ImageNet 等大型数据集上预训练的 卷积神经网络 (CNN),负责识别基本形状、边缘和纹理。常见的主干网络选择包括 ResNet 和 CSPDarknet。
颈部网络 连接主干网络和最终输出层。它的作用是混合和组合来自主干网络不同阶段的特征,以确保模型能够 detect 不同大小的物体——这一概念被称为多尺度特征融合。架构通常在此处利用 特征金字塔网络 (FPN) 或路径聚合网络 (PANet) 来丰富传递给预测层的语义信息。最后,检测头 处理这些融合的特征,以预测每个物体的具体类别和坐标位置。
从历史上看,架构主要分为两大类。两阶段检测器,例如 R-CNN 系列,首先提出可能存在物体的感兴趣区域 (RoIs),然后在第二步中对这些区域进行 classify。尽管通常很准确,但它们通常计算量过大,不适用于边缘设备。
相比之下,单阶段检测器 将检测视为一个简单的回归问题,在单次通过中将图像像素直接映射到 bounding box 坐标和类别概率。这种由 YOLO (You Only Look Once) 系列开创的方法,通过实现实时性能彻底改变了行业。现代进展最终形成了 YOLO26 等模型,这些模型不仅提供卓越的速度,还采用了端到端、NMS-free 的架构。通过消除对 非极大值抑制 (NMS) 后处理的需求,这些新架构减少了延迟的可变性,这对于安全关键系统至关重要。
架构的选择直接影响 AI 解决方案在各个行业中的成功。
区分检测架构与类似的计算机视觉任务很重要:
现代框架已经抽象了这些架构的复杂性,允许开发人员以最少的代码利用最先进的设计。使用 ultralytics 包,您可以加载一个预训练的
YOLO26 模型并立即运行推理。对于希望在云端管理数据集并训练自定义架构的团队,
Ultralytics 平台 简化了整个 MLOps 流程。
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Run inference on an image source
# This uses the model's architecture to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()

开启您的机器学习未来之旅