深圳Yolo 视觉
深圳
立即加入

YOLO12 详解:现实应用和用例

探索最新的计算机视觉模型 YOLO12!了解其以注意力为中心的架构和 FlashAttention 技术如何增强各行业的对象检测任务。

计算机视觉是人工智能(AI)的一个分支,可帮助机器理解图像和视频。由于人工智能研究人员和开发人员不断挑战极限,该领域的发展速度令人难以置信。人工智能界一直致力于让模型更快、更智能、更高效。最新的突破之一是 2025 年 2 月 18 日发布的YOLO (你只看一次)模型系列的最新成员YOLO 。

YOLO12 由纽约州立大学布法罗分校 (SUNY) 和中国科学院大学的研究人员开发。YOLO12 采用了一种独特的新方法,引入了注意力机制,使模型能够专注于图像中最重要的部分,而不是平等地处理所有内容。 

它还具有 FlashAttention,这是一种在减少内存使用的同时加快处理速度的技术,以及一种区域注意力机制,旨在模仿人类自然地关注中心对象的方式。

这些改进使 YOLO12n 比 YOLOv10n 准确率高 2.1%,YOLO12m 比 YOLO11m 准确率高 1.0%。然而,这也带来了一个权衡——YOLO12n 比 YOLOv10n 慢 9%,YOLO12m 比 YOLO11m 慢 3%。

__wf_reserved_inherit
图 1.YOLO12 用于detect 物体的示例。

在本文中,我们将探讨 YOLO12 的不同之处,它与以前版本的比较,以及它可以应用在哪些领域。

YOLO12 的发布之路

YOLO 模型系列是专为实时物体检测而设计的计算机视觉模型集合,这意味着它们可以快速识别和定位图像和视频中的物体。随着时间的推移,每个版本在速度、准确性和效率方面都有所提高。

例如 Ultralytics YOLOv5于 2020 年发布,因其快速、易于定制培训和部署而被广泛使用。后来 Ultralytics YOLOv8在此基础上进行了改进,为实例分割和对象跟踪等计算机视觉任务提供了额外支持。 

最近 Ultralytics YOLO11侧重于改进实时处理,同时保持速度和准确性之间的平衡。例如,与YOLOv8m 相比,YOLOv8m 的参数减少了 22%,但在COCO 数据集(一个广泛用于评估物体检测模型的基准)上仍然提供了更好的检测性能。

在这些进步的基础上,YOLO12 引入了一种处理视觉信息方式的转变。它不是平等地对待图像的所有部分,而是优先考虑最相关的区域,从而提高检测精度。简而言之,YOLO12 在之前的改进基础上,力求更加精确。

YOLO12 的主要特性

YOLO12 引入了几项改进,在保持实时处理速度的同时,增强了计算机视觉任务。以下是 YOLO12 的主要功能概述:

  • 以注意力为中心的架构:YOLO12 并非平等对待图像的每个部分,而是专注于最重要的区域。这提高了准确性并减少了不必要的处理,即使在杂乱的图像中也能使检测更清晰、更高效。
  • FlashAttention: YOLO12 加快了图像分析速度,同时减少了内存使用。借助 FlashAttention(一种内存高效算法),它可以优化数据处理,减少硬件压力,并使实时任务更流畅、更可靠。
  • 残差高效层聚合网络 (R-ELAN):YOLO12 使用 R-ELAN 更有效地组织其层,从而改进了模型处理和学习数据的方式。这使得训练更加稳定,对象识别更加清晰,并且降低了计算要求,因此它可以在不同的环境中高效运行。

要了解这些功能在现实生活中是如何发挥作用的,不妨考虑一下购物中心。YOLO12 可以帮助track 购物者,识别盆栽或促销标志等商店装饰,并发现放错位置或被遗弃的物品。 

其以注意力为中心的架构有助于它专注于最重要的细节,而 FlashAttention 确保它快速处理所有内容而不会使系统过载。这使得商场运营商更容易提高安全性、组织商店布局并改善整体购物体验。

__wf_reserved_inherit
图 2. 使用 YOLO12 检测购物中心中的物体。

然而,YOLO12 也存在一些需要考虑的局限性:

  • 较慢的培训时间:
  • 导出挑战: 一些用户在导出 YOLO12 模型时可能会遇到困难,尤其是在将其集成到特定的部署环境中时。

理解 YOLO12 的性能基准

YOLO12 有多个变体,每个变体都针对不同的需求进行了优化。较小的版本(nano 和 small)优先考虑速度和效率,使其成为移动设备和边缘计算的理想选择。中型和大型版本在速度和准确性之间取得了平衡,而 YOLO12x(超大型)则专为高精度应用而设计,如工业自动化、医学影像和高级监控系统。

通过这些变体,YOLO12 可根据模型大小提供不同级别的性能。基准测试表明,YOLO12 的某些变体在精度上优于YOLOv10 和YOLO11 ,达到了更高的平均精度mAP)。 

不过,有些模型,如 YOLO12m、YOLO12l 和 YOLO12x,处理图像的速度比YOLO11 慢,这表明在检测精度和速度之间需要权衡。尽管如此,YOLO12 仍然很高效,所需的参数比许多其他模型要少,尽管它使用的参数仍然比YOLO11 多。因此,对于精度比原始速度更重要的应用来说,YOLO12 是一个不错的选择。

__wf_reserved_inherit
图 3. Ultralytics YOLO11 和 YOLO12 的比较。

通过Ultralytics Python 软件包使用 YOLO12

YOLO12 由Ultralytics Python 软件包支持,易于使用,初学者和专业人士都可以使用。只需几行代码,用户就可以加载预训练模型,在图像和视频上运行各种计算机视觉任务,还可以在自定义数据集上训练 YOLO12。Ultralytics Python 软件包简化了这一过程,省去了复杂的设置步骤。

例如,以下是您 使用 YOLO12 进行目标检测 的步骤:

  • 安装Ultralytics 软件包:首先,安装Ultralytics Python 软件包,它提供了高效运行 YOLO12 所需的工具。
  • 加载预训练的YOLO12模型: 根据任务所需的准确性和速度级别,选择合适的YOLO12变体(nano、small、medium、large或extra large)。
  • 提供图像或视频: 输入您想要分析的图像或视频文件。YOLO12 还可以处理实时视频流以进行实时检测。
  • 运行检测过程:模型扫描视觉数据,识别对象,并在它们周围放置边界框。它用预测的类别和置信度分数标记每个检测到的对象。
  • 调整检测设置: 您还可以修改置信度阈值等参数,以微调检测准确性和性能。
  • 保存或使用输出: 处理后的图像或视频(现在包含检测到的对象)可以保存或集成到应用程序中,以进行进一步的分析、自动化或决策。

这些步骤使 YOLO12 易于用于各种应用,从监控和零售跟踪到医学成像和自动驾驶汽车。

YOLO12 的实际应用

YOLO12 支持对象检测、实例分割、图像分类、姿势估计 和定向对象检测旋转框检测),因此可用于各种实际应用。 

__wf_reserved_inherit
图 4. YOLO12 支持诸如目标检测和实例分割之类的任务。

然而,正如我们前面讨论的那样,YOLO12 模型优先考虑准确性而不是速度,这意味着与早期版本相比,它们处理图像的时间稍长。这种权衡使 YOLO12 成为精度比实时速度更重要的应用的理想选择,例如:

  • 医学影像:可以对 YOLO12 进行定制培训,以高精度detect X 射线和 MRI 中的肿瘤或异常,使其成为需要精确图像分析诊断的医生和放射科医生的有用工具。
  • 制造业中的质量控制:它可以帮助识别生产过程中的产品缺陷,确保只有高质量的产品进入市场,同时减少浪费并提高效率。
  • 法医分析:执法机构可以微调 YOLO12 以分析监控录像并收集证据。在刑事调查中,精确识别关键细节至关重要。
  • 精准农业:农民可以使用 YOLO12 分析作物健康状况、detect 病虫害并监测土壤条件。准确的评估有助于优化耕作策略,从而提高产量和改善资源管理。

YOLO12 入门

在运行 YOLO12 之前,请务必确保您的系统满足必要的配置要求。

从技术上讲,YOLO12 可以在任何专用GPU (图形处理器)上运行。默认情况下,它不需要 FlashAttention,因此无需 FlashAttention 也能在大多数GPU 系统上运行。不过,在处理大型数据集或高分辨率图像时,启用 FlashAttention 尤其有用,因为它有助于防止速度变慢、减少内存使用并提高处理效率。 

要使用 FlashAttention,您需要使用以下系列中的NVIDIA ®)GPU :图灵(T4、Quadro RTX)、安培(RTX 30 系列、A30、A40、A100)、Ada Lovelace(RTX 40 系列)或 Hopper(H100、H200)。

考虑到可用性和可访问性,Ultralytics Python 软件包尚不支持 FlashAttention 推理,因为其安装在技术上相当复杂。要进一步了解如何开始使用 YOLO12 和优化其性能,请查看 Ultralytics 官方文档

主要要点

随着计算机视觉的进步,模型正变得越来越精确和高效。YOLO12 通过以注意力为中心的处理和 FlashAttention 改进了对象检测、实例分割和图像分类等计算机视觉任务,从而提高了准确性,同时优化了内存使用。

与此同时,计算机视觉技术比以往任何时候都更易于使用。通过Ultralytics Python 软件包,YOLO12 很容易使用,它注重精度而非速度,非常适合医疗成像、工业检测和机器人技术这些精度至关重要的应用。

对 AI 感兴趣吗?访问我们的 GitHub 仓库 并与 我们的社区 互动。在我们的解决方案页面上探索 自动驾驶汽车中的 AI农业中的计算机视觉 等领域的创新。查看 我们的许可选项,让您的视觉 AI 项目成为现实。🚀

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始