Découvrez comment une unité de traitement neuronal (NPU) accélère l'IA. Découvrez comment déployer Ultralytics sur des NPU pour bénéficier d'un traitement et d'une inférence en périphérie efficaces et à faible consommation d'énergie.
Une unité de traitement neuronal (NPU) est un circuit matériel spécialisé conçu spécifiquement pour accélérer l'exécution des algorithmes d'intelligence artificielle et d'apprentissage automatique. Contrairement aux processeurs à usage général, les NPU sont conçues avec une architecture qui gère nativement les opérations matricielles parallèles complexes, essentielles aux modèles d’apprentissage profond. En exécutant ces calculs avec une efficacité extrême, une NPU réduit considérablement la consommation d’énergie tout en améliorant significativement la latence d’inférence. Cela en fait un composant essentiel des téléphones mobiles, ordinateurs portables et appareils IoT spécialisés modernes, où il est crucial de déployer efficacement des modèles complexes sans épuiser rapidement la batterie.
Pour bien saisir l'intérêt d'une NPU, il est utile de la distinguer des autres accélérateurs matériels courants dans le domaine de l'IA :
L'essor des NPU a permis d'exécuter des tâches d'intelligence artificielle (IA) directement sur les appareils des utilisateurs, sans avoir besoin d'une connexion permanente au cloud.
Pour les développeurs qui souhaitent tirer parti des NPU, le déploiement de modèles de vision par ordinateur est devenu incroyablement simple. Grâce au puissant modèle Ultralytics , vous pouvez exporter votre réseau entraîné dans des formats optimisés pour divers accélérateurs matériels. Afin de rationaliser l'ensemble de ce cycle de vie, la Ultralytics fournit des outils robustes pour la gestion des ensembles de données dans le cloud, l'annotation automatisée et le déploiement de modèles optimisés vers pratiquement n'importe quel environnement de déploiement de modèles.
Lorsque vous travaillez en local, vous pouvez utiliser des intégrations de frameworks telles que ONNX , PyTorch ou TensorFlow pour exploiter le NPU. Vous trouverez ci-dessous un bref Python montrant comment exporter un YOLO au OpenVINO , qui délègue de manière transparente les charges de travail de calcul aux Intel pour une inférence en temps réel accélérée.
from ultralytics import YOLO
# Load the highly recommended Ultralytics YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Export to OpenVINO with int8 quantization for optimal NPU performance
model.export(format="openvino", int8=True)
# Run highly efficient, accelerated inference on the edge device
results = model("path/to/environment_image.jpg")
Commencez votre parcours avec l'avenir de l'apprentissage automatique