探索最新的计算机视觉模型 YOLO12!了解其以注意力为中心的架构和 FlashAttention 技术如何增强各行业的对象检测任务。
探索最新的计算机视觉模型 YOLO12!了解其以注意力为中心的架构和 FlashAttention 技术如何增强各行业的对象检测任务。
计算机视觉是人工智能 (AI) 的一个分支,可帮助机器理解图像和视频。这是一个以惊人的速度发展的领域,因为人工智能研究人员和开发人员不断突破极限。人工智能社区始终致力于使模型更快、更智能、更高效。最新的突破之一是YOLO12,它是 YOLO(You Only Look Once)模型系列的最新成员,于 2025 年 2 月 18 日发布。
YOLO12 由纽约州立大学布法罗分校 (SUNY) 和中国科学院大学的研究人员开发。YOLO12 采用了一种独特的新方法,引入了注意力机制,使模型能够专注于图像中最重要的部分,而不是平等地处理所有内容。
它还具有 FlashAttention,这是一种在减少内存使用的同时加快处理速度的技术,以及一种区域注意力机制,旨在模仿人类自然地关注中心对象的方式。
这些改进使 YOLO12n 比 YOLOv10n 准确率高 2.1%,YOLO12m 比 YOLO11m 准确率高 1.0%。然而,这也带来了一个权衡——YOLO12n 比 YOLOv10n 慢 9%,YOLO12m 比 YOLO11m 慢 3%。

在本文中,我们将探讨 YOLO12 的不同之处,它与以前版本的比较,以及它可以应用在哪些领域。
YOLO模型系列是一系列专为实时目标检测而设计的计算机视觉模型,这意味着它们可以快速识别和定位图像和视频中的目标。随着时间的推移,每个版本在速度、准确性和效率方面都得到了改进。
例如,于 2020 年发布的 Ultralytics YOLOv5 因其快速且易于自定义训练和部署而被广泛使用。后来,Ultralytics YOLOv8 通过为计算机视觉任务(如实例分割和目标跟踪)提供额外的支持,在此基础上进行了改进。
最近,Ultralytics YOLO11 专注于提高实时处理能力,同时保持速度和准确性之间的平衡。例如,YOLO11m 的参数比 YOLOv8m 少 22%,但在 COCO 数据集(一个广泛用于评估目标检测模型的基准)上,仍然提供了更好的检测性能。
在这些进步的基础上,YOLO12 引入了一种处理视觉信息方式的转变。它不是平等地对待图像的所有部分,而是优先考虑最相关的区域,从而提高检测精度。简而言之,YOLO12 在之前的改进基础上,力求更加精确。
YOLO12 引入了几项改进,在保持实时处理速度的同时,增强了计算机视觉任务。以下是 YOLO12 的主要功能概述:
为了理解这些功能在现实生活中的运作方式,可以考虑一个购物中心。YOLO12 可以帮助跟踪购物者,识别商店装饰,如盆栽植物或促销标志,并发现放错位置或遗弃的物品。
其以注意力为中心的架构有助于它专注于最重要的细节,而 FlashAttention 确保它快速处理所有内容而不会使系统过载。这使得商场运营商更容易提高安全性、组织商店布局并改善整体购物体验。

然而,YOLO12 也存在一些需要考虑的局限性:
YOLO12 有多个变体,每个变体都针对不同的需求进行了优化。较小的版本(nano 和 small)优先考虑速度和效率,使其成为移动设备和边缘计算的理想选择。中型和大型版本在速度和准确性之间取得了平衡,而 YOLO12x(超大型)则专为高精度应用而设计,如工业自动化、医学影像和高级监控系统。
YOLO12 具有多种变体,可根据模型大小提供不同的性能水平。基准测试表明,YOLO12 的某些变体在准确性方面优于 YOLOv10 和 YOLO11,实现了更高的平均精度均值 (mAP)。
然而,像YOLO12m、YOLO12l和YOLO12x等一些模型处理图像的速度比YOLO11慢,这表明检测精度和速度之间存在权衡。尽管如此,YOLO12仍然高效,所需的参数比许多其他模型少,但仍然比YOLO11多。这使得它成为精度比原始速度更重要的应用程序的绝佳选择。

Ultralytics Python 包支持 YOLO12,并且易于使用,这使得初学者和专业人士都可以轻松使用它。只需几行代码,用户就可以加载预训练模型,在图像和视频上运行各种计算机视觉任务,还可以在自定义数据集上训练 YOLO12。Ultralytics Python 包简化了流程,无需复杂的设置步骤。
例如,以下是您 使用 YOLO12 进行目标检测 的步骤:
这些步骤使 YOLO12 易于用于各种应用,从监控和零售跟踪到医学成像和自动驾驶汽车。
由于 YOLO12 支持目标检测、实例分割、图像分类、姿态估计和定向目标检测 (OBB),因此可以用于各种实际应用。

然而,正如我们前面讨论的那样,YOLO12 模型优先考虑准确性而不是速度,这意味着与早期版本相比,它们处理图像的时间稍长。这种权衡使 YOLO12 成为精度比实时速度更重要的应用的理想选择,例如:
在运行 YOLO12 之前,请务必确保您的系统满足必要的配置要求。
从技术上讲,YOLO12 可以在任何专用 GPU(图形处理器) 上运行。默认情况下,它不需要 FlashAttention,因此可以在大多数没有它的 GPU 系统上工作。但是,当处理大型数据集或高分辨率图像时,启用 FlashAttention 尤其有用,因为它可以帮助防止速度减慢、减少内存使用并提高处理效率。
要使用 FlashAttention,您需要以下系列之一的 NVIDIA GPU:Turing (T4, Quadro RTX)、Ampere (RTX 30 系列, A30, A40, A100)、Ada Lovelace (RTX 40 系列) 或 Hopper (H100, H200)。
考虑到可用性和可访问性,Ultralytics Python 包目前尚不支持 FlashAttention 推理,因为它的安装在技术上可能非常复杂。要了解更多关于 YOLO12 入门和优化其性能的信息,请查看Ultralytics 官方文档。
随着计算机视觉的进步,模型正变得越来越精确和高效。YOLO12 通过以注意力为中心的处理和 FlashAttention 改进了对象检测、实例分割和图像分类等计算机视觉任务,从而提高了准确性,同时优化了内存使用。
与此同时,计算机视觉比以往任何时候都更容易获得。YOLO12 可以通过 Ultralytics Python 包轻松使用,并且由于它侧重于精度而不是速度,因此非常适合医疗成像、工业检测和机器人技术 - 在这些应用中,精度是关键。
对 AI 感兴趣吗?访问我们的 GitHub 仓库 并与 我们的社区 互动。在我们的解决方案页面上探索 自动驾驶汽车中的 AI 和 农业中的计算机视觉 等领域的创新。查看 我们的许可选项,让您的视觉 AI 项目成为现实。🚀