实时视觉人工智能推理：速度与应用 |Ultralytics

我们都曾在某个时候经历过网速慢带来的挫败感。但是，想象一下，在高度紧张的情况下出现这种延迟，例如自动驾驶汽车对障碍物做出反应或医生分析关键扫描结果。多出几秒钟可能会产生严重的后果。

这就是实时 AI 推理可以发挥作用的地方。快速处理和实时预测使计算机视觉解决方案能够即时处理视觉数据并做出反应。这些瞬间决策可以提高安全性、效率和日常便利性。

例如，考虑一位外科医生使用机器人助手执行精细的手术。每一个动作都通过高速连接进行控制，机器人的视觉系统实时处理手术视野，为外科医生提供即时的视觉反馈。即使这个反馈回路中出现最轻微的延迟，也可能导致严重的错误，使患者面临风险。这是一个实时推理至关重要的完美例子；没有延迟的余地。

人工智能在实际应用中的推理取决于三个关键概念：推理引擎（有效运行人工智能模型的软件或硬件）、推理延迟（输入和输出之间的延迟）和实时推理（人工智能系统以最小延迟处理和响应的能力）。

在本文中，我们将探讨这些核心概念，以及计算机视觉模型（如 Ultralytics YOLO11等计算机视觉模型如何实现依赖即时预测的应用。

什么是AI推理？

运行推理是指使用经过训练的 AI 模型分析新数据，以进行预测或解决任务的过程。与训练（涉及通过处理大量标记数据来教导模型）不同，推理侧重于使用已训练的模型快速准确地生成结果。

例如，在野生动物保护领域，人工智能相机陷阱利用计算机视觉模型对动物进行实时识别和classify 。当摄像头检测到动物移动时，人工智能模型会立即识别出是鹿、捕食者，甚至是偷猎者，从而帮助研究人员track 动物种群并保护濒危物种，而无需人工干预。这种快速识别使实时监控和快速应对潜在威胁成为可能。

理解推理引擎

经过训练的机器学习模型并不总是能以原始形式直接部署。推理引擎是一种专门的软件或硬件工具，旨在高效地执行机器学习模型并针对实际部署对其进行优化。它使用模型压缩、量化和图转换等优化技术来提高性能并降低资源消耗，从而使模型可以部署在各种环境中。

推理引擎的核心在于减少计算开销、最大限度地减少延迟并提高效率，从而实现快速而准确的预测。经过优化后，该引擎在新数据上执行模型，从而能够高效地生成实时推理。这种优化确保了 AI 模型可以在高性能云服务器和资源受限的边缘设备（如智能手机、物联网设备和嵌入式系统）上平稳运行。

推理延迟导致的问题

推理延迟是指人工智能系统接收输入数据（例如来自相机的图像）到生成输出（例如检测图像中的对象）之间的时间延迟。即使是很小的延迟也会严重影响实时人工智能应用程序的性能和可用性。

推理延迟发生在三个关键阶段：

预处理时间：将输入数据馈送到模型之前准备输入数据所需的时间。这包括调整图像大小以匹配模型的输入尺寸，标准化像素值以提高准确性，以及转换格式（例如，RGB到灰度或视频到帧序列）。
‍
计算时间：模型执行推理的实际时间。这涉及到深度网络中的逐层计算、矩阵乘法、卷积以及内存和处理单元之间的数据传输等操作。
‍
后处理时间：将原始模型输出转换为有意义的结果所需的时间。这可以包括在对象检测中绘制边界框、在图像识别中过滤误报或在异常检测中应用阈值。

推理延迟在实时应用中至关重要。例如，在装配线上的自动缺陷检测中，可以使用计算机视觉来检查在传送带上移动的产品。

系统必须在产品进入下一阶段之前快速识别并标记缺陷。如果模型处理图像的时间过长，则可能无法及时发现有缺陷的物品，从而导致材料浪费、成本高昂的返工或有缺陷的产品到达客户手中。通过减少延迟，制造商可以提高质量控制，提高效率并减少损失。

如何减少推理延迟

在许多计算机视觉应用中，保持最低的推理延迟至关重要。可以使用各种技术来实现这一目标。让我们讨论一些用于减少推理延迟的最常用技术。

模型剪枝

模型剪枝通过移除不必要的连接（权重）来简化神经网络，使其更小、更快。此过程减少了模型的计算负载，从而提高了速度，而不会对准确性产生太大影响。

通过仅保留最重要的连接，剪枝可确保高效的推理和更好的性能，尤其是在处理能力有限的设备上。它广泛应用于移动 AI、机器人和边缘计算等实时应用中，以提高效率，同时保持可靠性。

模型量化

模型量化是一种通过简化 AI 模型用于计算的数字，使其运行更快并使用更少内存的技术。通常，这些模型使用 32 位浮点数，这种数字非常精确，但需要大量的处理能力。量化将这些数字减少到 8 位整数，这种整数更容易处理并占用更少的空间。

使用高效的模型

人工智能模型的设计对其预测速度有很大影响。像YOLO11 这样为高效推理而设计的模型，非常适合对处理速度要求极高的应用。

在构建AI解决方案时，根据可用资源和性能需求选择合适的模型非常重要。如果你从一个过于庞大的模型开始，你更有可能遇到诸如处理时间慢、功耗高以及难以在资源有限的设备上部署等问题。轻量级模型可确保流畅的性能，尤其是在实时和边缘应用中。

速度与准确性：优化实时推理

虽然有各种技术可以减少延迟，但实时推理的关键部分是平衡速度和准确性。仅仅加快模型速度是不够的——需要在不影响准确性的前提下优化推理速度。产生快速但不正确预测的系统是无效的。这就是为什么彻底的测试对于确保模型在实际情况下表现良好至关重要。在测试期间看起来很快但在实际条件下失败的系统并不是真正优化的。

利用实时推理的视觉 AI 应用

接下来，让我们了解一些实际应用，在这些应用中，实时推理通过支持对视觉输入的即时响应来改变行业。

零售商店的自助结账系统

像YOLO11 这样的计算机视觉模型可以更快、更准确地识别商品，从而帮助改进自助结账系统。YOLO11 支持对象检测和实例分割等各种计算机视觉任务，即使条形码丢失或损坏，也能识别商品。视觉人工智能可以减少人工输入，加快结账流程。

除产品识别外，计算机视觉还可集成到自助结账系统中，以核实价格、防止欺诈并提高客户便利性。人工智能驱动的摄像头可以自动区分同类产品，并detect 结账时的可疑行为。这包括识别 "非扫描"（即顾客或收银员无意中遗漏了一件商品）和更多蓄意欺诈行为，如 "商品调包"（即在较贵的商品上贴上较便宜的条形码）。

美国主要零售商 Kroger 就是一个很好的例子，它已将计算机视觉和人工智能集成到其自助结账系统中。通过使用实时视频分析，Kroger 已经能够自动纠正超过 75% 的结账错误，从而改善客户体验和商店运营。

使用计算机视觉进行质量检测

手动检查产品以进行质量控制可能很慢且并不总是准确。这就是为什么越来越多的制造商正在转向使用计算机视觉的视觉检测工作流程，以便在生产过程中更早地发现缺陷。

高分辨率摄像头和视觉人工智能可以发现人类可能忽略的微小瑕疵，YOLO11 等机型可以帮助进行实时质量检查、分类和计数，确保只有完美的产品才能送到客户手中。这一过程的自动化可以节省时间、降低成本、减少浪费，使生产更加顺畅、高效。

主要要点

实时推理帮助人工智能模型做出即时决策，这在许多行业中至关重要。无论是自动驾驶汽车避免事故、医生快速分析医学扫描，还是工厂检测产品缺陷，快速准确的 AI 响应都会产生重大影响。

通过提高 AI 模型的速度和效率，我们可以创建更智能、更可靠的系统，使其在现实环境中无缝运行。随着技术的进步，实时 AI 解决方案将继续塑造未来，使日常流程更快、更安全、更高效。

要了解更多信息，请访问我们的 GitHub 存储库并与我们的社区互动。在我们的解决方案页面上探索自动驾驶汽车中的 AI 和农业中的计算机视觉等领域的创新。查看我们的许可选项，让您的视觉 AI 项目成为现实。

视觉人工智能解决方案中的实时推理正在产生影响