Neural Processing Unit (NPU)
学习神经处理单元 (NPU) 如何加速 AI。发现如何将 Ultralytics YOLO26 部署在 NPU 上,以实现高效、低功耗的边缘计算和推理。
神经网络处理单元 (NPU) 是一种专门的硬件电路,旨在加速人工智能和机器学习算法的执行。与通用处理器不同,NPU 的架构原生支持处理 深度学习 模型中核心的复杂并行矩阵运算。通过极高的计算效率,NPU 大幅降低了功耗,同时显著改善了 推理延迟。这使其成为现代手机、笔记本电脑和专用 IoT 设备中的关键组件,在这些设备上,高效部署复杂模型且不快速消耗电池至关重要。
Link to this sectionNPU 与其他处理器的对比#
为了理解 NPU 的价值,将其与 AI 领域中其他常见的硬件加速器区分开来会有所帮助:
- 中央处理器 (CPU): 计算机的通用“大脑”。虽然 CPU 可以运行机器学习代码,但它们以串行方式处理任务,这使得它们在处理现代视觉模型所需的繁重矩阵乘法时速度缓慢且效率低下。
- 图形处理器 (GPU): 专为并行处理而设计,GPU 在处理大规模深度学习工作负载方面表现卓越。然而,它们会消耗大量功率并产生相当大的热量,这使得它们比电池供电的 边缘计算 更适合云端训练。
- 张量处理单元 (TPU): Google 为机器学习开发的一种专用集成电路。虽然在概念上与 NPU 相似,但 TPU 通常与大规模 云计算 服务器机架关联,而 NPU 通常直接集成到消费级系统级芯片 (SoC) 中。
Link to this sectionNPU 的实际应用#
NPU 的兴起使人们能够在不依赖持续云连接的情况下,直接在用户设备上运行 人工智能 (AI)。
- 智能手机与移动视觉:现代移动设备大量利用内部 NPU(如 Apple Neural Engine 或 Qualcomm Hexagon NPU)来支持计算摄影、实时人脸识别和本地文本翻译。通过在设备上处理图像数据,它们既节省了电池寿命,又确保了 数据隐私。
- 支持 AI 的笔记本电脑:先进的 PC 处理器现在内置了 NPU,用于管理后台任务(如 视频会议 中的背景模糊和视线矫正),而不会占用主 CPU,从而让你可以流畅地进行多任务处理。
- 边缘 AI 部署:智能监控摄像头和机器人利用专用 NPU(如 Google Coral Edge TPU 或嵌入式 Intel 硬件)直接在源头执行瞬时 目标检测。这消除了带宽瓶颈,实现了秒级决策。
Link to this section将 NPU 与 Ultralytics YOLO 配合使用#
对于希望利用 NPU 的开发者来说,部署计算机视觉模型已变得极其简单。使用强大的 Ultralytics YOLO26 模型,你可以将训练好的网络导出为针对各种硬件加速器优化的格式。为了简化整个生命周期,Ultralytics Platform 提供了强大的工具,用于云数据集管理、自动标注,并将优化后的模型部署到几乎任何 模型部署 环境中。
在本地工作时,你可以使用 ONNX Runtime、PyTorch ExecuTorch 或 TensorFlow Lite 等框架集成来针对 NPU。下面是一个快速的 Python 示例,演示了如何将 YOLO 模型导出为 OpenVINO 格式,该格式可无缝地将计算工作负载委托给 Intel NPU,从而加速 实时推理。
from ultralytics import YOLO
# Load the highly recommended Ultralytics YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Export to OpenVINO with int8 quantization for optimal NPU performance
model.export(format="openvino", int8=True)
# Run highly efficient, accelerated inference on the edge device
results = model("path/to/environment_image.jpg")





