Découvre comment les moteurs d'inférence alimentent l'IA en fournissant des prédictions en temps réel, en optimisant les modèles et en permettant un déploiement multiplateforme.
Dans le domaine de l'intelligence artificielle (IA) et de l'apprentissage automatique (ML), un moteur d'inférence est un composant logiciel ou matériel crucial chargé d'exécuter des modèles formés pour faire des prédictions sur de nouvelles données inédites. Après qu'un modèle a appris des modèles pendant la phase de formation, le moteur d'inférence prend ce modèle formé et l'applique aux entrées du monde réel. Ce processus, connu sous le nom d'inférence, permet aux systèmes d'IA d'effectuer des tâches telles que la détection d'objets, la classification d'images ou le traitement du langage naturel (NLP) dans des applications pratiques. C'est essentiellement le cœur opérationnel d'un modèle d'IA déployé, qui traduit efficacement les connaissances apprises en résultats exploitables.
Un rôle clé des moteurs d'inférence modernes est l'optimisation. L'exécution directe d'un grand modèle d'apprentissage profond formé peut être coûteuse en calcul et lente. Les moteurs d'inférence emploient diverses techniques pour rendre les modèles plus rapides et plus efficaces, ce qui permet de les déployer sur divers matériels. Les stratégies courantes d'optimisation des modèles comprennent :
De nombreux moteurs d'inférence prennent également en charge des formats de modèles standardisés comme ONNX (Open Neural Network Exchange), qui permet aux modèles formés dans un cadre (comme PyTorch) d'être exécutés à l'aide d'un autre moteur ou d'une autre plateforme. Les moteurs d'inférence les plus populaires sont les suivants NVIDIA TensorRTde Intel, OpenVINO d'Intel et TensorFlow Lite. Les modèles Ultralytics prennent en charge l'exportation vers différents formats compatibles avec ces moteurs, détaillés dans le guide Options de déploiement des modèles.
Il est important de distinguer les moteurs d'inférence des cadres de formation.
Les moteurs d'inférence sont essentiels pour déployer l'IA dans des scénarios pratiques :
Essentiellement, les moteurs d'inférence comblent le fossé entre les modèles d'IA formés et leur application pratique, en veillant à ce que les capacités d'IA sophistiquées puissent être fournies de manière efficace sur un large éventail d'appareils et de plateformes, y compris la gestion des modèles via des plateformes telles qu'Ultralytics HUB.
Comment fonctionnent les moteurs de déduction
Un moteur d'inférence utilise un modèle pré-entraîné, souvent développé à l'aide de frameworks d'apprentissage profond (DL) comme PyTorch ou TensorFlow, qui encapsule les connaissances nécessaires à une tâche spécifique. Lorsque de nouvelles données (par exemple, une image, un clip audio ou une phrase de texte) sont fournies en entrée, le moteur d'inférence les traite à travers la structure de calcul du modèle (souvent un réseau neuronal). Cela génère un résultat, tel que l'identification d'objets avec des boîtes de délimitation dans une image, la transcription de la parole ou la classification des sentiments. Ultralytics YOLO par exemple, dépendent de moteurs d'inférence efficaces pour réaliser la détection et la segmentation d' objets en temps réel sur différentes plateformes, qu'il s'agisse de puissants serveurs dans le nuage ou d'appareils périphériques aux ressources limitées. Les performances du moteur d'inférence ont un impact direct sur la vitesse et la réactivité de l'application, souvent mesurées par la latence et le débit de l'inférence.