深圳Yolo 视觉
深圳
立即加入
词汇表

神经处理单元(NPU)

了解神经处理单元(NPU)如何加速人工智能。探索如何在 NPU 上部署Ultralytics ,以实现高效、低功耗的边缘计算和推理。

神经处理单元(NPU)是一种专门设计的专用硬件电路,旨在加速 人工智能和机器学习算法的执行。 与通用处理器不同,NPU采用的 架构能够原生处理深度学习模型中至关重要的复杂并行矩阵运算。通过以极高的效率执行这些 计算,NPU在大幅降低功耗的同时,显著缩短了 推理延迟。这使得NPU成为现代智能手机、笔记本电脑以及专用物联网设备中不可或缺的 组件——在这些设备中,高效部署复杂模型 且不导致电池快速耗尽至关重要。

NPU 与其他处理器的对比

要理解NPU的价值,不妨将其与人工智能领域中的其他常见硬件加速器 进行区分:

  • 中央处理器(CPU) 计算机的通用“大脑”。虽然CPU能够运行机器学习代码,但它处理任务 的方式是顺序执行的,这使得它在处理现代视觉模型所需的繁重矩阵乘法运算时,速度较慢且效率低下。
  • 图形处理单元(GPU) GPU专为并行处理而设计,在处理海量深度学习工作负载方面表现卓越。然而,它们 功耗巨大且发热量显著,因此更适合用于云端训练,而非 电池供电的边缘计算
  • Tensor 单元(TPU) Google 机器学习开发的一种专用集成电路。虽然其概念与 NPU相似,但TPU通常与大型 云计算服务器机架相关联,而NPU则 通常直接集成到消费级系统级芯片(SoC)中。

NPU的实际应用

NPU的兴起使得 人工智能(AI)能够直接在 用户设备上运行,而无需依赖持续的云连接。

  • 智能手机与移动视觉:现代移动设备大量利用内部神经处理单元(NPU),例如苹果神经引擎或 高通Hexagon NPU,以支持计算摄影、 实时人脸识别以及本地文本翻译。通过在设备端处理图像数据,既能延长电池 续航时间,又能确保数据隐私
  • 支持人工智能的笔记本电脑:先进的个人电脑处理器现已集成NPU,可在视频会议期间处理背景虚化、视线校正等后台任务, 而不会占用主CPU,从而让用户能够流畅地进行多任务处理。
  • 边缘AI部署:智能监控摄像头和机器人利用专用神经处理单元(NPU),例如Google EdgeTPU 嵌入式 Intel ,直接在源头进行即时 物体检测。这 消除了带宽瓶颈,并实现了瞬时决策。

在Ultralytics YOLO中使用 NPU

对于希望利用 NPU 的开发者而言,部署计算机视觉模型已变得异常简单。借助 功能强大的Ultralytics 模型,您可以 将训练好的神经网络导出为针对各种硬件加速器优化的格式。为了简化整个 生命周期Ultralytics 提供了强大的工具,用于云端 数据集管理、自动标注,以及将优化后的模型部署到几乎任何 模型部署环境中。

在本地开发时,您可以使用诸如 ONNX PyTorch TensorFlow 等框架集成方案来调用 NPU。以下是一个简短的Python , 演示了如何将YOLO 导出为 OpenVINO ,该格式能将 计算任务无缝委派Intel ,从而实现 加速的实时推理

from ultralytics import YOLO

# Load the highly recommended Ultralytics YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Export to OpenVINO with int8 quantization for optimal NPU performance
model.export(format="openvino", int8=True)

# Run highly efficient, accelerated inference on the edge device
results = model("path/to/environment_image.jpg")

让我们一起共建AI的未来!

开启您的机器学习未来之旅