词汇表

神经处理单元（NPU）

了解神经处理单元（NPU）如何加速人工智能。探索如何在 NPU 上部署Ultralytics ，以实现高效、低功耗的边缘计算和推理。

神经处理单元（NPU）是一种专门设计的专用硬件电路，旨在加速人工智能和机器学习算法的执行。与通用处理器不同，NPU采用的架构能够原生处理深度学习模型中至关重要的复杂并行矩阵运算。通过以极高的效率执行这些计算，NPU在大幅降低功耗的同时，显著缩短了推理延迟。这使得NPU成为现代智能手机、笔记本电脑以及专用物联网设备中不可或缺的组件——在这些设备中，高效部署复杂模型且不导致电池快速耗尽至关重要。

NPU 与其他处理器的对比

要理解NPU的价值，不妨将其与人工智能领域中的其他常见硬件加速器进行区分：

中央处理器（CPU）： 计算机的通用“大脑”。虽然CPU能够运行机器学习代码，但它处理任务的方式是顺序执行的，这使得它在处理现代视觉模型所需的繁重矩阵乘法运算时，速度较慢且效率低下。
图形处理单元（GPU）： GPU专为并行处理而设计，在处理海量深度学习工作负载方面表现卓越。然而，它们功耗巨大且发热量显著，因此更适合用于云端训练，而非电池供电的边缘计算。
Tensor 单元（TPU）： Google 机器学习开发的一种专用集成电路。虽然其概念与 NPU相似，但TPU通常与大型云计算服务器机架相关联，而NPU则通常直接集成到消费级系统级芯片（SoC）中。

NPU的实际应用

NPU的兴起使得人工智能（AI）能够直接在用户设备上运行，而无需依赖持续的云连接。

智能手机与移动视觉：现代移动设备大量利用内部神经处理单元（NPU），例如苹果神经引擎或高通Hexagon NPU，以支持计算摄影、实时人脸识别以及本地文本翻译。通过在设备端处理图像数据，既能延长电池续航时间，又能确保数据隐私。
支持人工智能的笔记本电脑：先进的个人电脑处理器现已集成NPU，可在视频会议期间处理背景虚化、视线校正等后台任务，而不会占用主CPU，从而让用户能够流畅地进行多任务处理。
边缘AI部署：智能监控摄像头和机器人利用专用神经处理单元（NPU），例如Google EdgeTPU 嵌入式 Intel ，直接在源头进行即时物体检测。这消除了带宽瓶颈，并实现了瞬时决策。

在Ultralytics YOLO中使用 NPU

对于希望利用 NPU 的开发者而言，部署计算机视觉模型已变得异常简单。借助功能强大的Ultralytics 模型，您可以将训练好的神经网络导出为针对各种硬件加速器优化的格式。为了简化整个生命周期Ultralytics 提供了强大的工具，用于云端数据集管理、自动标注，以及将优化后的模型部署到几乎任何模型部署环境中。

在本地开发时，您可以使用诸如 ONNX 、 PyTorch 或 TensorFlow 等框架集成方案来调用 NPU。以下是一个简短的Python ，演示了如何将YOLO 导出为 OpenVINO ，该格式能将计算任务无缝委派Intel ，从而实现加速的实时推理。

from ultralytics import YOLO

# Load the highly recommended Ultralytics YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Export to OpenVINO with int8 quantization for optimal NPU performance
model.export(format="openvino", int8=True)

# Run highly efficient, accelerated inference on the edge device
results = model("path/to/environment_image.jpg")

神经处理单元（NPU）

导出至17+种格式。部署至全球43个区域。

以每小时2.39美元的价格在H100 GPU上训练YOLO26。

灵活的企业级许可，为您的视觉AI项目赋能。

专为赋能您的下一个项目而设计的企业级许可

智能标注可将标注速度提升高达10倍

标注。训练。部署。一站式平台。

NPU 与其他处理器的对比

NPU的实际应用

在Ultralytics YOLO中使用 NPU

阅读更多此类别的内容

Ultralytics 多边形标注指南

Ultralytics 2026 年德国汉诺威工业博览会的亮点

TensorFlow 计算机视觉项目TensorFlow 选择PyTorch TensorFlow

让我们一起共建AI的未来！