Neural Processing Unit (NPU)
Apprends comment une unité de traitement neuronal (NPU) accélère l'IA. Découvre comment déployer Ultralytics YOLO26 sur des NPU pour une informatique et une inférence de bord efficaces et à faible consommation.
Une Neural Processing Unit (NPU) est un circuit matériel spécialisé conçu spécifiquement pour accélérer l'exécution d'algorithmes d'intelligence artificielle et d'apprentissage automatique. Contrairement aux processeurs à usage général, les NPU sont conçus avec une architecture qui gère nativement les opérations matricielles complexes et parallèles au cœur des modèles de deep learning. En exécutant ces calculs avec une efficacité extrême, un NPU réduit considérablement la consommation d'énergie tout en améliorant significativement la latence d'inférence. Cela en fait un composant essentiel des téléphones portables modernes, des ordinateurs portables et des appareils IoT spécialisés où le déploiement efficace de modèles complexes sans épuisement rapide de la batterie est crucial.
Link to this sectionNPU par rapport aux autres processeurs#
Pour comprendre la valeur d'un NPU, il est utile de le distinguer des autres accélérateurs matériels courants dans le paysage de l'IA :
- Central Processing Unit (CPU) : Le « cerveau » polyvalent d'un ordinateur. Bien qu'ils soient capables d'exécuter du code d'apprentissage automatique, les CPU traitent les tâches de manière séquentielle, ce qui les rend lents et inefficaces pour la multiplication matricielle lourde requise par les modèles de vision modernes.
- Graphics Processing Unit (GPU) : Conçus pour le traitement parallèle, les GPU sont exceptionnels pour gérer des charges de travail massives de deep learning. Cependant, ils consomment beaucoup d'énergie et génèrent une chaleur considérable, ce qui les rend mieux adaptés à l'entraînement dans le cloud qu'au edge computing alimenté par batterie.
- Tensor Processing Unit (TPU) : Un circuit intégré spécifique à une application développé par Google pour l'apprentissage automatique. Bien que similaire en concept à un NPU, les TPU sont généralement associés à des racks de serveurs de cloud computing massifs, alors que les NPU sont typiquement intégrés directement dans les System-on-Chips (SoCs) grand public.
Link to this sectionApplications réelles des NPU#
L'essor du NPU a débloqué la capacité d'exécuter l'intelligence artificielle (AI) directement sur les appareils des utilisateurs sans dépendre d'une connectivité cloud constante.
- Smartphones And Mobile Vision : Les appareils mobiles modernes exploitent fortement les NPU internes, tels que l'Apple Neural Engine ou le Qualcomm Hexagon NPU, pour alimenter la photographie computationnelle, la reconnaissance faciale en temps réel et la traduction de texte locale. En traitant les données d'image sur l'appareil, ils préservent l'autonomie de la batterie et garantissent la data privacy.
- AI-Enabled Laptops : Les processeurs PC avancés intègrent désormais des NPU pour gérer les tâches de fond comme le floutage d'arrière-plan et la correction du regard pendant la vidéoconférence sans solliciter le CPU principal, permettant aux utilisateurs de travailler en multitâche de manière fluide.
- Edge AI Deployments : Les caméras de surveillance intelligentes et la robotique utilisent des NPU spécialisés, comme le Google Coral Edge TPU ou le matériel Intel, pour effectuer une détection d'objets instantanée directement à la source. Cela élimine les goulots d'étranglement de la bande passante et permet une prise de décision en une fraction de seconde.
Link to this sectionUtilisation des NPU avec Ultralytics YOLO#
Pour les développeurs cherchant à exploiter les NPU, le déploiement de modèles de vision par ordinateur est devenu incroyablement simple. En utilisant le puissant modèle Ultralytics YOLO26, tu peux exporter ton réseau entraîné dans des formats optimisés pour divers accélérateurs matériels. Pour rationaliser tout ce cycle de vie, la Ultralytics Platform fournit des outils robustes pour la gestion des datasets dans le cloud, l'annotation automatisée et le déploiement de modèles optimisés vers pratiquement n'importe quel environnement de déploiement de modèles.
Lorsque tu travailles localement, tu peux utiliser des intégrations de framework comme ONNX Runtime, PyTorch ExecuTorch ou TensorFlow Lite pour cibler le NPU. Voici ci-dessous un exemple rapide en Python démontrant comment exporter un modèle YOLO au format OpenVINO, qui délègue de manière transparente les charges de calcul aux NPU Intel pour une inférence en temps réel accélérée.
from ultralytics import YOLO
# Load the highly recommended Ultralytics YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Export to OpenVINO with int8 quantization for optimal NPU performance
model.export(format="openvino", int8=True)
# Run highly efficient, accelerated inference on the edge device
results = model("path/to/environment_image.jpg")





