了解推理引擎如何通过提供实时预测、优化模型和实现跨平台部署为人工智能提供动力。
在人工智能(AI)和机器学习(ML)领域,推理引擎是一个重要的软件或硬件组件,负责执行训练有素的模型,对新的、未见过的数据进行预测。模型在训练阶段学习到模式后,推理引擎会将这个训练有素的模型应用到现实世界的输入中。这一过程被称为推理,它使人工智能系统能够在实际应用中执行物体检测、图像分类或自然语言处理(NLP)等任务。从本质上讲,它是已部署的人工智能模型的运行核心,可将所学知识高效地转化为可操作的输出。
推理引擎利用预先训练好的模型,该模型通常使用PyTorch或TensorFlow 等深度学习(DL)框架开发,封装了特定任务所需的知识。当新数据(如图像、音频片段或文本句子)作为输入提供时,推理引擎会通过模型的计算结构(通常是神经网络)对其进行处理。这样就会产生输出,例如识别图像中带有边框的物体、转录语音或进行情感分类。例如,Ultralytics YOLO模型依赖于高效的推理引擎,在各种平台(从功能强大的云服务器到资源有限的边缘设备)上实现实时对象检测和分割。推理引擎的性能直接影响应用的速度和响应能力,通常以推理延迟和吞吐量来衡量。
现代推理引擎的一个关键作用是优化。直接运行一个经过训练的大型深度学习模型,计算成本高且速度慢。推理引擎采用各种技术使模型更快、更高效,从而可以在不同的硬件上部署。常见的模型优化策略包括
许多推理引擎还支持ONNX(开放神经网络交换)等标准化模型格式,这使得在一个框架(如PyTorch)中训练的模型可以在不同的引擎或平台上运行。流行的推理引擎包括英伟达 TensorRT、英特尔 OpenVINO 和TensorFlow Lite。Ultralytics 模型支持导出为与这些引擎兼容的各种格式,详见模型部署选项指南。
必须将推理引擎与训练框架区分开来。
推理引擎对于在实际场景中部署人工智能至关重要:
从本质上讲,推理引擎是训练有素的人工智能模型与其实际应用之间的桥梁,可确保在各种设备和平台上高效地提供复杂的人工智能功能,包括通过Ultralytics HUB 等平台管理模型。