了解推理引擎如何通过提供实时预测、优化模型和实现跨平台部署为人工智能提供动力。
在人工智能(AI)和机器学习(ML)领域,推理引擎是一个重要的软件或硬件组件,负责执行训练有素的模型,对新的、未见过的数据进行预测。模型在训练阶段学习到模式后,推理引擎会将这个训练有素的模型应用到现实世界的输入中。这一过程被称为推理,它使人工智能系统能够在实际应用中执行物体检测、图像分类或自然语言处理(NLP)等任务。从本质上讲,它是已部署的人工智能模型的运行核心,可将所学知识高效地转化为可操作的输出。
推理引擎利用预先训练好的模型,该模型通常使用深度学习(DL)框架开发,如 PyTorch或 TensorFlow等深度学习(DL)框架开发的,该模型封装了特定任务所需的知识。当输入新数据(如图像、音频片段或文本句子)时,推理引擎会通过模型的计算结构(通常是神经网络)对其进行处理。由此产生输出,例如识别图像中带有边界框的物体、转录语音或进行情感分类。 Ultralytics YOLO模型依赖于高效的推理引擎,以便在各种平台(从功能强大的云服务器到资源有限的边缘设备)上实现实时对象检测和分割。推理引擎的性能直接影响应用的速度和响应能力,通常以推理延迟和吞吐量来衡量。
现代推理引擎的一个关键作用是优化。直接运行一个经过训练的大型深度学习模型,计算成本高且速度慢。推理引擎采用各种技术使模型更快、更高效,从而可以在不同的硬件上部署。常见的模型优化策略包括
许多推理引擎还支持标准化的模型格式,如ONNX (开放神经网络交换),它允许在一个框架(如 PyTorch等)训练的模型可以在不同的引擎或平台上运行。流行的推理引擎包括 NVIDIA TensorRT、Intel的OpenVINO 和TensorFlow Lite。Ultralytics 模型支持导出为与这些引擎兼容的各种格式,详见模型部署选项指南。
必须将推理引擎与训练框架区分开来。
推理引擎对于在实际场景中部署人工智能至关重要:
从本质上讲,推理引擎是训练有素的人工智能模型与其实际应用之间的桥梁,可确保在各种设备和平台上高效地提供复杂的人工智能功能,包括通过Ultralytics HUB 等平台管理模型。