Glossaire

Moteur d'inférence

Découvre comment les moteurs d'inférence alimentent l'IA en fournissant des prédictions en temps réel, en optimisant les modèles et en permettant un déploiement multiplateforme.

Dans le domaine de l'intelligence artificielle (IA) et de l'apprentissage automatique (ML), un moteur d'inférence est un composant logiciel ou matériel crucial chargé d'exécuter des modèles formés pour faire des prédictions sur de nouvelles données inédites. Après qu'un modèle a appris des modèles pendant la phase de formation, le moteur d'inférence prend ce modèle formé et l'applique aux entrées du monde réel. Ce processus, connu sous le nom d'inférence, permet aux systèmes d'IA d'effectuer des tâches telles que la détection d'objets, la classification d'images ou le traitement du langage naturel (NLP) dans des applications pratiques. C'est essentiellement le cœur opérationnel d'un modèle d'IA déployé, qui traduit efficacement les connaissances apprises en résultats exploitables.

Comment fonctionnent les moteurs de déduction

Un moteur d'inférence utilise un modèle pré-entraîné, souvent développé à l'aide de frameworks d'apprentissage profond (DL) comme PyTorch ou TensorFlow, qui encapsule les connaissances nécessaires à une tâche spécifique. Lorsque de nouvelles données (par exemple, une image, un clip audio ou une phrase de texte) sont fournies en entrée, le moteur d'inférence les traite à travers la structure de calcul du modèle (souvent un réseau neuronal). Cela génère un résultat, tel que l'identification d'objets avec des boîtes de délimitation dans une image, la transcription de la parole ou la classification des sentiments. Ultralytics YOLO par exemple, dépendent de moteurs d'inférence efficaces pour réaliser la détection et la segmentation d' objets en temps réel sur différentes plateformes, qu'il s'agisse de puissants serveurs dans le nuage ou d'appareils périphériques aux ressources limitées. Les performances du moteur d'inférence ont un impact direct sur la vitesse et la réactivité de l'application, souvent mesurées par la latence et le débit de l'inférence.

Optimisations et caractéristiques principales

Un rôle clé des moteurs d'inférence modernes est l'optimisation. L'exécution directe d'un grand modèle d'apprentissage profond formé peut être coûteuse en calcul et lente. Les moteurs d'inférence emploient diverses techniques pour rendre les modèles plus rapides et plus efficaces, ce qui permet de les déployer sur divers matériels. Les stratégies courantes d'optimisation des modèles comprennent :

Quantification du modèle: Réduction de la précision des poids du modèle (par exemple, de 32 bits à virgule flottante à des entiers de 8 bits) pour diminuer la taille du modèle et accélérer le calcul, souvent avec un impact minimal sur la précision.
Élagage du modèle: Suppression des connexions (poids) redondantes ou sans importance au sein du réseau neuronal pour créer un modèle plus petit et plus rapide.
Optimisation du graphique : Fusionner les couches ou réorganiser les opérations dans le graphe de calcul du modèle pour améliorer l'efficacité de l'exécution sur un matériel spécifique.
Accélération matérielle : Exploitation de processeurs spécialisés comme les GPU, les TPU ou les accélérateurs d'IA dédiés que l'on trouve sur des appareils comme le Google Edge TPU ou le NVIDIA Jetson.

De nombreux moteurs d'inférence prennent également en charge des formats de modèles standardisés comme ONNX (Open Neural Network Exchange), qui permet aux modèles formés dans un cadre (comme PyTorch) d'être exécutés à l'aide d'un autre moteur ou d'une autre plateforme. Les moteurs d'inférence les plus populaires sont les suivants NVIDIA TensorRTde Intel, OpenVINO d'Intel et TensorFlow Lite. Les modèles Ultralytics prennent en charge l'exportation vers différents formats compatibles avec ces moteurs, détaillés dans le guide Options de déploiement des modèles.