YOLO12 解读：真实世界的应用 |Ultralytics

计算机视觉是人工智能（AI）的一个分支，可帮助机器理解图像和视频。由于人工智能研究人员和开发人员不断挑战极限，该领域的发展速度令人难以置信。人工智能界一直致力于让模型更快、更智能、更高效。最新的突破之一是 2025 年 2 月 18 日发布的YOLO （你只看一次）模型系列的最新成员YOLO 。

YOLO12 由纽约州立大学布法罗分校 (SUNY) 和中国科学院大学的研究人员开发。YOLO12 采用了一种独特的新方法，引入了注意力机制，使模型能够专注于图像中最重要的部分，而不是平等地处理所有内容。

它还具有 FlashAttention，这是一种在减少内存使用的同时加快处理速度的技术，以及一种区域注意力机制，旨在模仿人类自然地关注中心对象的方式。

这些改进使 YOLO12n 比 YOLOv10n 准确率高 2.1%，YOLO12m 比 YOLO11m 准确率高 1.0%。然而，这也带来了一个权衡——YOLO12n 比 YOLOv10n 慢 9%，YOLO12m 比 YOLO11m 慢 3%。

__wf_reserved_inherit — 图 1.YOLO12 用于detect 物体的示例。

在本文中，我们将探讨 YOLO12 的不同之处，它与以前版本的比较，以及它可以应用在哪些领域。

YOLO12 的发布之路

YOLO 模型系列是专为实时物体检测而设计的计算机视觉模型集合，这意味着它们可以快速识别和定位图像和视频中的物体。随着时间的推移，每个版本在速度、准确性和效率方面都有所提高。

例如 Ultralytics YOLOv5于 2020 年发布，因其快速、易于定制培训和部署而被广泛使用。后来 Ultralytics YOLOv8在此基础上进行了改进，为实例分割和对象跟踪等计算机视觉任务提供了额外支持。

最近 Ultralytics YOLO11侧重于改进实时处理，同时保持速度和准确性之间的平衡。例如，与YOLOv8m 相比，YOLOv8m 的参数减少了 22%，但在COCO 数据集（一个广泛用于评估物体检测模型的基准）上仍然提供了更好的检测性能。

在这些进步的基础上，YOLO12 引入了一种处理视觉信息方式的转变。它不是平等地对待图像的所有部分，而是优先考虑最相关的区域，从而提高检测精度。简而言之，YOLO12 在之前的改进基础上，力求更加精确。

YOLO12 的主要特性

YOLO12 引入了几项改进，在保持实时处理速度的同时，增强了计算机视觉任务。以下是 YOLO12 的主要功能概述：

以注意力为中心的架构：YOLO12 并非平等对待图像的每个部分，而是专注于最重要的区域。这提高了准确性并减少了不必要的处理，即使在杂乱的图像中也能使检测更清晰、更高效。
‍
FlashAttention： YOLO12 加快了图像分析速度，同时减少了内存使用。借助 FlashAttention（一种内存高效算法），它可以优化数据处理，减少硬件压力，并使实时任务更流畅、更可靠。
‍
残差高效层聚合网络 (R-ELAN)：YOLO12 使用 R-ELAN 更有效地组织其层，从而改进了模型处理和学习数据的方式。这使得训练更加稳定，对象识别更加清晰，并且降低了计算要求，因此它可以在不同的环境中高效运行。

要了解这些功能在现实生活中是如何发挥作用的，不妨考虑一下购物中心。YOLO12 可以帮助track 购物者，识别盆栽或促销标志等商店装饰，并发现放错位置或被遗弃的物品。

其以注意力为中心的架构有助于它专注于最重要的细节，而 FlashAttention 确保它快速处理所有内容而不会使系统过载。这使得商场运营商更容易提高安全性、组织商店布局并改善整体购物体验。

然而，YOLO12 也存在一些需要考虑的局限性：

较慢的培训时间：
‍
导出挑战: 一些用户在导出 YOLO12 模型时可能会遇到困难，尤其是在将其集成到特定的部署环境中时。

理解 YOLO12 的性能基准

YOLO12 有多个变体，每个变体都针对不同的需求进行了优化。较小的版本（nano 和 small）优先考虑速度和效率，使其成为移动设备和边缘计算的理想选择。中型和大型版本在速度和准确性之间取得了平衡，而 YOLO12x（超大型）则专为高精度应用而设计，如工业自动化、医学影像和高级监控系统。

通过这些变体，YOLO12 可根据模型大小提供不同级别的性能。基准测试表明，YOLO12 的某些变体在精度上优于YOLOv10 和YOLO11 ，达到了更高的平均精度mAP）。

不过，有些模型，如 YOLO12m、YOLO12l 和 YOLO12x，处理图像的速度比YOLO11 慢，这表明在检测精度和速度之间需要权衡。尽管如此，YOLO12 仍然很高效，所需的参数比许多其他模型要少，尽管它使用的参数仍然比YOLO11 多。因此，对于精度比原始速度更重要的应用来说，YOLO12 是一个不错的选择。

通过Ultralytics Python 软件包使用 YOLO12

YOLO12 由Ultralytics Python 软件包支持，易于使用，初学者和专业人士都可以使用。只需几行代码，用户就可以加载预训练模型，在图像和视频上运行各种计算机视觉任务，还可以在自定义数据集上训练 YOLO12。Ultralytics Python 软件包简化了这一过程，省去了复杂的设置步骤。

例如，以下是您使用 YOLO12 进行目标检测的步骤：

安装Ultralytics 软件包：首先，安装Ultralytics Python 软件包，它提供了高效运行 YOLO12 所需的工具。
‍
加载预训练的YOLO12模型： 根据任务所需的准确性和速度级别，选择合适的YOLO12变体（nano、small、medium、large或extra large）。
‍
提供图像或视频： 输入您想要分析的图像或视频文件。YOLO12 还可以处理实时视频流以进行实时检测。
‍
运行检测过程：模型扫描视觉数据，识别对象，并在它们周围放置边界框。它用预测的类别和置信度分数标记每个检测到的对象。
‍
调整检测设置： 您还可以修改置信度阈值等参数，以微调检测准确性和性能。
‍
保存或使用输出： 处理后的图像或视频（现在包含检测到的对象）可以保存或集成到应用程序中，以进行进一步的分析、自动化或决策。

这些步骤使 YOLO12 易于用于各种应用，从监控和零售跟踪到医学成像和自动驾驶汽车。

YOLO12 的实际应用

YOLO12 支持对象检测、实例分割、图像分类、姿势估计和定向对象检测旋转框检测），因此可用于各种实际应用。

然而，正如我们前面讨论的那样，YOLO12 模型优先考虑准确性而不是速度，这意味着与早期版本相比，它们处理图像的时间稍长。这种权衡使 YOLO12 成为精度比实时速度更重要的应用的理想选择，例如：

医学影像:可以对 YOLO12 进行定制培训，以高精度detect X 射线和 MRI 中的肿瘤或异常，使其成为需要精确图像分析诊断的医生和放射科医生的有用工具。
‍
制造业中的质量控制：它可以帮助识别生产过程中的产品缺陷，确保只有高质量的产品进入市场，同时减少浪费并提高效率。
‍
法医分析：执法机构可以微调 YOLO12 以分析监控录像并收集证据。在刑事调查中，精确识别关键细节至关重要。
‍
精准农业：农民可以使用 YOLO12 分析作物健康状况、detect 病虫害并监测土壤条件。准确的评估有助于优化耕作策略，从而提高产量和改善资源管理。

YOLO12 入门

在运行 YOLO12 之前，请务必确保您的系统满足必要的配置要求。

从技术上讲，YOLO12 可以在任何专用GPU （图形处理器）上运行。默认情况下，它不需要 FlashAttention，因此无需 FlashAttention 也能在大多数GPU 系统上运行。不过，在处理大型数据集或高分辨率图像时，启用 FlashAttention 尤其有用，因为它有助于防止速度变慢、减少内存使用并提高处理效率。

要使用 FlashAttention，您需要使用以下系列中的NVIDIA ®）GPU ：图灵（T4、Quadro RTX）、安培（RTX 30 系列、A30、A40、A100）、Ada Lovelace（RTX 40 系列）或 Hopper（H100、H200）。

考虑到可用性和可访问性，Ultralytics Python 软件包尚不支持 FlashAttention 推理，因为其安装在技术上相当复杂。要进一步了解如何开始使用 YOLO12 和优化其性能，请查看 Ultralytics 官方文档。

主要要点

随着计算机视觉的进步，模型正变得越来越精确和高效。YOLO12 通过以注意力为中心的处理和 FlashAttention 改进了对象检测、实例分割和图像分类等计算机视觉任务，从而提高了准确性，同时优化了内存使用。

与此同时，计算机视觉技术比以往任何时候都更易于使用。通过Ultralytics Python 软件包，YOLO12 很容易使用，它注重精度而非速度，非常适合医疗成像、工业检测和机器人技术这些精度至关重要的应用。

对 AI 感兴趣吗？访问我们的 GitHub 仓库并与我们的社区互动。在我们的解决方案页面上探索自动驾驶汽车中的 AI 和农业中的计算机视觉等领域的创新。查看我们的许可选项，让您的视觉 AI 项目成为现实。🚀

YOLO12 详解：现实应用和用例

YOLO12 的发布之路

YOLO12 的主要特性

理解 YOLO12 的性能基准

通过Ultralytics Python 软件包使用 YOLO12

YOLO12 的实际应用

YOLO12 入门

主要要点

阅读更多此类别的内容

12个基于计算机视觉的航拍影像应用场景

医疗诊断用视觉人工智能工具

从数据到决策：运用视觉人工智能制定企业战略

让我们一起构建人工智能的未来！