Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Unité de traitement neuronal (NPU)

Découvrez comment une unité de traitement neuronal (NPU) accélère l'IA. Découvrez comment déployer Ultralytics sur des NPU pour bénéficier d'un traitement et d'une inférence en périphérie efficaces et à faible consommation d'énergie.

Une unité de traitement neuronal (NPU) est un circuit matériel spécialisé conçu spécifiquement pour accélérer l'exécution des algorithmes d'intelligence artificielle et d'apprentissage automatique. Contrairement aux processeurs à usage général, les NPU sont conçues avec une architecture qui gère nativement les opérations matricielles parallèles complexes, essentielles aux modèles d’apprentissage profond. En exécutant ces calculs avec une efficacité extrême, une NPU réduit considérablement la consommation d’énergie tout en améliorant significativement la latence d’inférence. Cela en fait un composant essentiel des téléphones mobiles, ordinateurs portables et appareils IoT spécialisés modernes, où il est crucial de déployer efficacement des modèles complexes sans épuiser rapidement la batterie.

Le NPU par rapport aux autres processeurs

Pour bien saisir l'intérêt d'une NPU, il est utile de la distinguer des autres accélérateurs matériels courants dans le domaine de l'IA :

  • Unité centrale de traitement (CPU): le « cerveau » polyvalent d'un ordinateur. Bien qu'elles soient capables d'exécuter du code d'apprentissage automatique, les CPU traitent les tâches de manière séquentielle, ce qui les rend lentes et inefficaces pour les multiplications matricielles intensives requises par les modèles de vision modernes.
  • Processeur graphique (GPU): Conçus pour le traitement parallèle, les GPU sont particulièrement efficaces pour gérer des charges de travail massives en apprentissage profond. Cependant, ils consomment beaucoup d'énergie et génèrent une chaleur considérable, ce qui les rend plus adaptés à l'entraînement dans le cloud qu'à l'informatique en périphérie alimentée par batterie.
  • UnitéTensor (TPU): Circuit intégré spécifique à une application développé par Google l'apprentissage automatique. Bien que leur concept soit similaire à celui d'une NPU, les TPU sont généralement associées à d'énormes racks de serveurs de cloud computing, tandis que les NPU sont généralement intégrées directement dans des systèmes sur puce (SoC) grand public.

Applications concrètes des NPU

L'essor des NPU a permis d'exécuter des tâches d'intelligence artificielle (IA) directement sur les appareils des utilisateurs, sans avoir besoin d'une connexion permanente au cloud.

  • Smartphones et vision mobile: Les appareils mobiles modernes exploitent largement les NPU internes, telles que l'Apple Neural Engine ou le Qualcomm Hexagon NPU, pour prendre en charge la photographie computationnelle, la reconnaissance faciale en temps réel et la traduction de texte locale. En traitant les données d'image directement sur l'appareil, ils préservent l'autonomie de la batterie et garantissent la confidentialité des données.
  • Ordinateurs portables équipés d'IA: Les processeurs PC avancés intègrent désormais des NPU pour gérer les tâches en arrière-plan, telles que le flou d'arrière-plan et la correction du regard lors des vidéoconférences sans solliciter le CPU principal, ce qui permet aux utilisateurs d'effectuer plusieurs tâches simultanément en toute fluidité.
  • Déploiements d'IA en périphérie: Les caméras de surveillance intelligentes et la robotique utilisent des NPU spécialisées, telles que le Google Edge TPU Intel intégré, pour effectuer une détection instantanée des objets directement à la source. Cela élimine les goulots d'étranglement au niveau de la bande passante et permet une prise de décision en une fraction de seconde.

Utilisation des NPU avec Ultralytics YOLO

Pour les développeurs qui souhaitent tirer parti des NPU, le déploiement de modèles de vision par ordinateur est devenu incroyablement simple. Grâce au puissant modèle Ultralytics , vous pouvez exporter votre réseau entraîné dans des formats optimisés pour divers accélérateurs matériels. Afin de rationaliser l'ensemble de ce cycle de vie, la Ultralytics fournit des outils robustes pour la gestion des ensembles de données dans le cloud, l'annotation automatisée et le déploiement de modèles optimisés vers pratiquement n'importe quel environnement de déploiement de modèles.

Lorsque vous travaillez en local, vous pouvez utiliser des intégrations de frameworks telles que ONNX , PyTorch ou TensorFlow pour exploiter le NPU. Vous trouverez ci-dessous un bref Python montrant comment exporter un YOLO au OpenVINO , qui délègue de manière transparente les charges de travail de calcul aux Intel pour une inférence en temps réel accélérée.

from ultralytics import YOLO

# Load the highly recommended Ultralytics YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Export to OpenVINO with int8 quantization for optimal NPU performance
model.export(format="openvino", int8=True)

# Run highly efficient, accelerated inference on the edge device
results = model("path/to/environment_image.jpg")

Construisons ensemble l'avenir de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique