YOLO12 解析:现实世界应用与用例
探索最新的计算机视觉模型 YOLO12!了解其以注意力为中心的架构和 FlashAttention 技术如何增强各行业的对象检测任务。

计算机视觉是人工智能 (AI) 的一个分支,旨在帮助机器理解图像和视频。由于 AI 研究人员和开发者不断突破极限,该领域正以惊人的速度发展。AI 社区始终致力于使模型更快速、更智能、更高效。最新的突破之一是YOLO12,这是 YOLO (You Only Look Once) 模型系列的最新成员,于 2025 年 2 月 18 日发布。
YOLO12 由纽约州立大学布法罗分校和中国科学院大学的研究人员共同开发。YOLO12 采用了一种独特的新方法,引入了注意力机制,使模型能够专注于图像中最关键的部分,而不是同等处理所有区域。
它还具有 FlashAttention 功能,这是一种在减少内存占用的同时加快处理速度的技术,以及旨在模仿人类自然关注中心物体方式的区域注意力机制。
这些改进使得 YOLO12n 比 YOLOv10n 的准确率高出 2.1%,YOLO12m 比 YOLO11m 的准确率高出 1.0%。然而,这也伴随着一定的权衡——YOLO12n 比 YOLOv10n 慢 9%,YOLO12m 比 YOLO11m 慢 3%。

图 1. 使用 YOLO12 进行目标检测的示例。
在本文中,我们将探讨 YOLO12 的独特之处、它与先前版本的对比,以及它的应用场景。
Link to this sectionYOLO12 的发布历程#
YOLO 模型系列是一系列专为实时目标检测而设计的计算机视觉模型,这意味着它们可以快速识别并定位图像和视频中的物体。随着时间的推移,每个版本在速度、准确性和效率方面都有所提升。
例如,2020 年发布的Ultralytics YOLOv5因其快速且易于自定义训练和部署而得到广泛使用。随后,Ultralytics YOLOv8通过为实例分割和目标跟踪等计算机视觉任务提供额外支持,在此基础上进行了改进。
最近,Ultralytics YOLO11专注于在保持速度和准确性平衡的同时,提升实时处理性能。例如,YOLO11m 的参数比 YOLOv8m 少 22%,但在 COCO 数据集(一个广泛用于评估目标检测模型的基准)上仍提供了更好的检测性能。
在这些进步的基础上,YOLO12 改变了处理视觉信息的方式。它不再平等对待图像的所有部分,而是优先处理最相关的区域,从而提高检测准确率。简单来说,YOLO12 在原有改进的基础上,力求更精准。
Link to this sectionYOLO12 的关键特性#
YOLO12 引入了多项改进,在保持实时处理速度的同时增强了计算机视觉任务。以下是 YOLO12 关键特性的概述:
- 以注意力为中心的架构:YOLO12 不再平等地对待图像的每个部分,而是专注于最重要的区域。这提高了准确性并减少了不必要的处理,使得即使在杂乱的图像中,检测也更加清晰、高效。
- FlashAttention: YOLO12 在使用更少内存的同时加速了图像分析。借助 FlashAttention(一种内存高效算法),它优化了数据处理,减少了硬件压力,使实时任务更加顺畅可靠。
- 残差高效层聚合网络 (R-ELAN):YOLO12 利用 R-ELAN 更高效地组织其层级,改善了模型处理和学习数据的方式。这使得训练更稳定,物体识别更清晰,计算需求更低,从而在不同环境中都能高效运行。
要理解这些特性在现实生活中的作用,可以设想一个购物中心。YOLO12 可以帮助追踪购物者、识别盆栽或促销标志等商店装饰,并发现被乱放或遗弃的物品。
其以注意力为中心的架构有助于它专注于最重要的细节,而 FlashAttention 确保它能快速处理所有信息而不会使系统超负荷。这使得购物中心运营者能够更轻松地提升安全性、优化商店布局并改善整体购物体验。

图 2. 使用 YOLO12 在购物中心检测物体。
然而,YOLO12 也有一些需要考虑的局限性:
- 训练时间更长: 由于其架构的原因,与 YOLO11 相比,YOLO12 需要更长的训练时间。
- 导出挑战:一些用户在导出 YOLO12 模型时可能会遇到困难,特别是在将其集成到特定部署环境中时。
Link to this section了解 YOLO12 的性能基准#
YOLO12 拥有多个变体,每个变体都针对不同需求进行了优化。较小的版本(nano 和 small)优先考虑速度和效率,使其成为移动设备和边缘计算的理想选择。中型和大型版本在速度和准确性之间取得了平衡,而 YOLO12x(超大号)专为高精度应用而设计,例如工业自动化、医学影像和高级监控系统。
有了这些变体,YOLO12 根据模型大小提供不同级别的性能。基准测试显示,YOLO12 的某些变体在准确性上优于 YOLOv10 和 YOLO11,实现了更高的平均精度均值 (mAP)。
然而,YOLO12m、YOLO12l 和 YOLO12x 等某些模型处理图像的速度比 YOLO11 慢,显示出检测准确性与速度之间的权衡。尽管如此,YOLO12 依然保持高效,所需的参数比许多其他模型都少,尽管它使用的参数仍多于 YOLO11。这使其成为对准确性要求高于原始速度的应用程序的绝佳选择。

图 3. 比较 Ultralytics YOLO11 和 YOLO12。
Link to this section通过 Ultralytics Python 包使用 YOLO12#
YOLO12 受 Ultralytics Python 包支持且易于使用,无论初学者还是专业人士都能轻松上手。只需几行代码,用户即可加载预训练模型,在图像和视频上运行各种计算机视觉任务,还可以对自定义数据集训练 YOLO12。Ultralytics Python 包简化了这一流程,无需复杂的设置步骤。
例如,以下是你使用 YOLO12 进行目标检测需要遵循的步骤:
- 安装 Ultralytics 包: 首先,安装 Ultralytics Python 包,它提供了高效运行 YOLO12 所需的工具。这确保了所有依赖项都已正确设置。
- 加载预训练的 YOLO12 模型: 根据你的任务所需的准确性和速度水平,选择合适的 YOLO12 变体(nano、small、medium、large 或 extra large)。
- 提供图像或视频: 输入你想要分析的图像或视频文件。YOLO12 还可以处理实时视频流以进行实时检测。
- 运行检测过程: 模型扫描视觉数据,识别物体并在其周围放置边界框。它会为每个检测到的物体标注预测类别和置信度分数。
- 调整检测设置: 你还可以修改置信度阈值等参数,以微调检测的准确性和性能。
- 保存或使用输出: 处理后的图像或视频(现在包含已检测到的物体)可以被保存或集成到应用程序中,以进行进一步的分析、自动化或决策。
这些步骤使 YOLO12 可以轻松应用于各种场景,从监控和零售跟踪到医学影像和自动驾驶汽车。
Link to this sectionYOLO12 的实际应用#
由于支持目标检测、实例分割、图像分类、姿态估计和定向目标检测 (OBB),YOLO12 可用于各种现实应用。

图 4. YOLO12 支持目标检测和实例分割等任务。
然而,正如我们之前讨论的那样,YOLO12 模型优先考虑准确性而非速度,这意味着与早期版本相比,它们处理图像的时间略长。这种权衡使得 YOLO12 成为那些对精度要求高于实时速度的应用程序的理想选择,例如:
- 医学影像:YOLO12 可以经过自定义训练,以高准确度检测 X 光片和核磁共振成像中的肿瘤或异常情况,这使其成为需要精确图像分析来进行诊断的医生和放射科医师的有用工具。
- 制造业中的质量控制:它可以帮助在生产过程中识别产品缺陷,确保只有高质量的物品投放市场,同时减少浪费并提高效率。
- 司法取证分析:执法机构可以微调 YOLO12 来分析监控录像并收集证据。在刑事调查中,精度对于识别关键细节至关重要。
- 精准农业:农民可以使用 YOLO12 分析作物健康状况、检测疾病或虫害,并监测土壤状况。准确的评估有助于优化农业策略,从而获得更好的产量和资源管理。
Link to this section开始使用 YOLO12#
在运行 YOLO12 之前,请务必确保你的系统符合必要的要求。
从技术上讲,YOLO12 可以在任何专用 GPU (图形处理单元) 上运行。默认情况下,它不需要 FlashAttention,因此可以在大多数不支持该技术的 GPU 系统上工作。然而,当处理大数据集或高分辨率图像时,启用 FlashAttention 会特别有用,因为它有助于防止减速、减少内存使用并提高处理效率。
要使用 FlashAttention,你需要以下系列的 NVIDIA GPU:Turing (T4, Quadro RTX)、Ampere (RTX 30 系列, A30, A40, A100)、Ada Lovelace (RTX 40 系列) 或 Hopper (H100, H200)。
考虑到易用性和可访问性,Ultralytics Python 包目前还不支持 FlashAttention 推理,因为其安装过程可能相当复杂。要了解更多关于开始使用 YOLO12 并优化其性能的信息,请查阅官方 Ultralytics 文档。
Link to this section关键要点#
随着计算机视觉的进步,模型正变得越来越精确和高效。YOLO12 通过以注意力为中心的处理和 FlashAttention 改进了目标检测、实例分割和图像分类等计算机视觉任务,在优化内存使用的同时提高了准确性。
同时,计算机视觉比以往任何时候都更容易获得。YOLO12 通过 Ultralytics Python 包易于使用,并且由于它侧重于准确性而非速度,因此非常适合医学影像、工业检测和机器人技术——这些对精度要求极高的应用领域。
对 AI 感兴趣吗?请访问我们的 GitHub 仓库并与我们的社区交流。在我们的解决方案页面上探索自动驾驶汽车中的 AI 和农业中的计算机视觉等领域的创新。查看我们的许可选项并让你的视觉 AI 项目变为现实。🚀






