深圳Yolo 视觉
深圳
立即加入
词汇表

目标检测架构

探索目标检测架构的强大功能,这是图像理解的 AI 支柱。 立即了解类型、工具和实际应用!

物体检测架构是深度学习模型的结构框架。 深度学习模型的结构框架。 的结构框架。与标准的 图像分类给整张图片贴上单一 不同的是,这些架构能让机器识别多个实体,用边界框定义它们的精确位置,并为它们分配特定的标签。 定义它们的精确位置,并为每个实体分配一个特定的 类标签。架构有效地决定了神经网络如何将像素数据处理成有意义的洞察力,直接影响模型的性能。 洞察力,直接影响模型的准确性、 速度和计算效率。

检测架构的关键组成部分

大多数现代检测系统都采用模块化设计,包括三个主要阶段。了解这些组件 有助于研究人员和工程师为从医学图像分析到工业生产的各种任务选择合适的工具。 医疗图像分析到工业 自动化。

  • 骨干网:这是网络的初始部分,负责特征提取。它 通常是 卷积神经网络(CNN) 处理原始图像,以识别边缘、纹理和形状等模式。常用的骨干网络包括 残差网络 (ResNet)和交叉 阶段部分网络(CSP)。要深入了解特征提取,您可以查看 斯坦福大学 CS231n 笔记
  • 颈部颈部:位于脊柱和头部之间,汇集了不同阶段的特征图谱。 不同阶段的特征图。这样,模型就能detect 不同尺度(小、中、大)的物体。这里常用的 技术是 特征金字塔网络 (FPN)。 它可以创建图像的多尺度表示。
  • 探测头:最后一个组件是探测头。 检测头,用于生成最终 预测。它输出边界框的具体坐标和每个类别的 每个类别的置信度分数。

架构类型

架构一般按其处理方法分类,而处理方法通常代表了推理速度和检测精度之间的权衡。 推理速度和检测精度之间的权衡。

单级与双级探测器

  • 两阶段物体检测器 这些模型(如 R-CNN 系列)分两个不同的步骤运行:首先生成区域建议(物体可能存在的区域),然后对这些区域进行分类。 可能存在物体的区域),然后对这些区域进行分类。虽然历来以高精度著称,但它们 计算密集。您可以阅读原始的 Faster R-CNN 论文,了解这种方法的根源。
  • 单级物体检测器 架构,如 Ultralytics YOLO系列等架构将检测作为一个 像 Ultralytics YOLO 系列这样的架构将检测视为单一回归问题,直接从图像中一次性预测边界框和类概率。 这种结构可实现实时推理、 使其成为视频流和边缘设备的理想选择。

有锚与无锚

旧架构通常依赖于 锚点框--模型尝试调整以适应对象的预定义形状。 调整以适应对象。然而,现代的 无锚检测器,如 YOLO11等现代无锚检测器则不需要手动调整超参数。这就简化了训练管道 并提高了泛化能力。展望未来,即将开展的研发项目(如YOLO26)旨在进一步 这些无锚概念,以实现更高效的端到端架构为目标。

实际应用

物体检测架构的多功能性推动了许多领域的创新:

  • 自动驾驶汽车 自动驾驶汽车使用高速架构实时detect 行人、交通标志和其他车辆。 实时。Waymo等公司利用这些先进的视觉系统,在复杂的城市环境中安全导航。 复杂的城市环境。
  • 零售分析:在零售业,架构被部署用于 智能超市 管理库存和分析顾客行为。通过跟踪货架上产品的移动,商店可以自动 补货流程。
  • 精准农业:农民利用这些模型 农业人工智能来识别作物病害或 进行自动杂草检测,从而大大减少化学品的使用。

实施物体检测

使用像YOLO11 这样的现代架构,只需使用高级Python API 即可。下面的示例 演示了如何加载预训练模型并对图像进行推理。

from ultralytics import YOLO

# Load the YOLO11n model (nano version for speed)
model = YOLO("yolo11n.pt")

# Perform object detection on a remote image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results (bounding boxes and labels)
results[0].show()

对于那些有兴趣比较不同架构选择如何影响性能的用户,您可以探索详细的 模型比较,查看YOLO11 和其他 系统(如 RT-DETR.此外,了解 此外,了解交叉联合 (IoU)等指标对评估架构执行任务的能力也至关重要。 对于评估架构执行任务的能力至关重要。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入