探索目标检测架构,从骨干网络到检测头。了解Ultralytics 如何为实时计算机视觉提供卓越的速度与精度。
目标检测架构是用于识别和定位视觉数据中物体的神经网络结构蓝图。在更广阔的计算机视觉(CV)领域中,这些架构通过将原始像素数据处理为有意义的洞察,定义了机器"视觉"的实现方式。 不同于仅对图像进行标注的基本分类模型,物体检测架构旨在为每个检测到的独立物体输出边界框、类别标签及置信度评分。这种结构设计决定了模型的运行速度、识别精度与计算效率,使其成为选择实时推理或高精度分析模型时的关键考量因素。
尽管具体设计各不相同,但大多数现代架构都包含三个基本组件:主干、颈部和头部。主干作为主要特征提取器,通常采用卷积神经网络(CNN)架构,该网络预先在大型数据集(如ImageNet)上进行训练。 ImageNet, 负责识别基础形状、边缘和纹理。主流骨干网络选择包括 ResNet和CSPDarknet。
颈部连接主干网络与最终输出层,其作用是混合融合主干网络不同阶段的特征,确保模型能detect 不同尺寸的detect ——这一概念称为多尺度特征融合。 架构通常在此处采用特征金字塔网络(FPN)或路径聚合网络(PANet)来丰富传递至预测层的语义信息。最终,检测头处理这些融合特征,从而预测每个目标的具体类别及坐标位置。
历史上,架构主要分为两大类。两阶段检测器(如R-CNN家族)首先提出可能存在目标的感兴趣区域(RoI),然后在第二阶段classify 区域classify 。虽然这类方法通常准确,但其计算量往往过大,难以在边缘设备上运行。
相比之下,单阶段检测器将检测视为简单的回归问题,通过单次遍历直接将图像像素映射到边界框坐标和类别概率。这种由YOLO (You Only Look Once)家族开创的方法,通过实现实时性能彻底改变了行业格局。 现代技术发展最终催生了YOLOv6等模型,不仅提供卓越速度,更采用了端到端、NMS架构。通过消除后处理中非最大抑制(NMS)的需求,这些新型架构显著降低了延迟波动性——这对安全关键型系统至关重要。
架构的选择直接影响着人工智能解决方案在各行业的成功。
区分检测架构与类似计算机视觉任务至关重要:
现代框架已将这些架构的复杂性抽象化,使开发者能够以最少的代码量利用最先进的设计。使用 ultralytics 包,你可以加载一个预训练的
YOLO26 立即构建模型并运行推理。对于希望在云端管理数据集并训练自定义架构的团队,
Ultralytics 平台 简化了整个机器学习运维(MLOps)流程。
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Run inference on an image source
# This uses the model's architecture to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()