Glossaire

Moteur d'inférence

Découvrez comment les moteurs d'inférence alimentent l'IA en fournissant des prédictions en temps réel, en optimisant les modèles et en permettant un déploiement multiplateforme.

Un moteur d'inférence est un composant logiciel spécialisé qui exécute un modèle d'apprentissage automatique formé pour générer des prédictions à partir de nouvelles données inédites. Après l'entraînement d'un modèle à l'aide d'un cadre comme PyTorch ou TensorFlow, le moteur d'inférence prend le relais pour l'exécuter efficacement dans un environnement de production. Son objectif principal est d'optimiser le modèle en termes de vitesse et d'utilisation des ressources, ce qui permet d'obtenir une inférence en temps réel sur différentes plateformes matérielles, des puissants serveurs en nuage aux appareils en périphérie dont les ressources sont limitées.

Le rôle d'un moteur d'inférence

La fonction principale d'un moteur d'inférence est de combler le fossé entre un modèle formé et son application dans le monde réel. Il effectue plusieurs optimisations critiques pour minimiser la latence de l'inférence et maximiser le débit sans compromettre de manière significative la précision.

Les principales techniques d'optimisation sont les suivantes :

  • Optimisation du graphe : Le moteur analyse le graphe de calcul du modèle et applique des optimisations telles que la "fusion de couches", qui combine plusieurs opérations séquentielles en une seule afin de réduire la charge de calcul.
  • Optimisation spécifique au matériel : Elle compile le modèle pour qu'il fonctionne sur un matériel spécifique, tel que les CPU, les GPU ou les accélérateurs d'IA spécialisés comme les TPU de Google. Cela implique l'utilisation de noyaux de calcul hautement optimisés, adaptés à l'architecture du matériel.
  • Réduction de la précision : Des techniques telles que la quantification de modèle sont utilisées pour convertir les poids d'un modèle de nombres à virgule flottante de 32 bits en nombres entiers de 16 ou 8 bits plus efficaces. Cela permet de réduire considérablement l'utilisation de la mémoire et d'accélérer les calculs, ce qui est particulièrement important pour l'informatique de pointe.
  • Élagage des modèles : Un moteur d'inférence peut faciliter l'exécution de modèles dont les poids inutiles ont été supprimés grâce à l'élagage du modèle, ce qui réduit encore la taille du modèle et la demande de calcul.

Moteurs d'inférence populaires

De nombreuses organisations ont développé des moteurs d'inférence performants pour accélérer les modèles d'apprentissage profond. Parmi les choix les plus populaires, on peut citer :

  • NVIDIA TensorRT: un optimiseur et un moteur d'exécution de haute performance pour les GPU NVIDIA, fournissant des vitesses d'inférence de pointe. Ultralytics offre une intégration transparente avec TensorRT pour le déploiement de modèles YOLO.
  • OpenVINO d'Intel: une boîte à outils open-source pour l'optimisation et le déploiement de modèles sur le matériel Intel, y compris les CPU et les GPU intégrés. Les modèles Ultralytics peuvent être facilement exportés vers OpenVINO.
  • ONNX Runtime: Un moteur multiplateforme développé par Microsoft qui peut exécuter des modèles au format ONNX (Open Neural Network Exchange) sur une large gamme de matériel.
  • TensorFlow Lite (TFLite): Une solution légère conçue spécifiquement pour déployer des modèles sur des appareils mobiles et embarqués, tels que ceux fonctionnant sous Android et iOS.
  • Apache TVM: Un compilateur de machine learning open-source qui permet d'optimiser les modèles pour différents matériels.

Applications dans le monde réel

Les moteurs d'inférence constituent l'épine dorsale opérationnelle d'innombrables applications d'intelligence artificielle.

  1. Dans les solutions d'IA pour l'automobile, un moteur d'inférence fonctionne sur l'ordinateur de bord d'un véhicule pour traiter les données des caméras et des capteurs. Il exécute un modèle de détection d'objets tel que Ultralytics YOLO11 pour identifier les piétons, les panneaux de signalisation et les autres véhicules en quelques millisecondes, ce qui permet d'activer des fonctions de sécurité essentielles.
  2. Pour la fabrication intelligente, un moteur d'inférence installé dans une usine alimente un système de vision par ordinateur pour le contrôle de la qualité. Il analyse les images d'une chaîne de production en temps réel pour détecter les défauts, garantissant ainsi que les produits répondent aux normes de qualité avec une rapidité et une fiabilité élevées.

Moteur d'inférence et concepts connexes

Il est utile de distinguer un moteur d'inférence d'autres termes apparentés dans MLOps.

  • Cadre d'apprentissage automatique et moteur d'inférence : Un cadre d'apprentissage automatique tel que PyTorch est une bibliothèque complète pour l'entraînement et le déploiement de modèles. Il comprend des outils permettant de construire des réseaux neuronaux, de gérer des ensembles de données et d'exécuter des boucles d'entraînement. Un moteur d'inférence, en revanche, est un outil hautement spécialisé qui se concentre exclusivement sur l'étape de déploiement. Alors qu'un framework possède des capacités d'inférence de base, un moteur d'inférence dédié offre des performances supérieures grâce à des optimisations agressives et spécifiques au matériel.

  • Model Serving vs. Inference Engine (moteur d'inférence) : Le service de modèle fait référence à l'infrastructure plus large permettant de rendre un modèle disponible sur un réseau, qui comprend des composants tels que les points d'extrémité API, les équilibreurs de charge et les outils de surveillance. Le moteur d'inférence est le composant central d'un système de service de modèle qui exécute les demandes de prédiction. Vous pouvez explorer diverses options de déploiement de modèles pour voir comment les moteurs d'inférence s'intègrent dans l'ensemble. Des plateformes comme Ultralytics HUB rationalisent l'ensemble du processus, de la formation au déploiement optimisé.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers