Modèle Servir
Apprenez l'essentiel du service de modèles - déployez des modèles d'IA pour des prédictions en temps réel, l'évolutivité et l'intégration transparente dans les applications.
Le service de modèle est le processus qui consiste à rendre un modèle d'apprentissage machine (ML) formé disponible pour recevoir des données d'entrée et renvoyer des prédictions dans un environnement de production. Une fois le modèle formé et validé, la mise à disposition est l'étape critique qui le transforme d'un fichier statique en un outil actif et opérationnel qui peut alimenter des applications du monde réel. Il s'agit de déployer le modèle sur un serveur et de créer une interface, généralement une API, qui permet à d'autres systèmes logiciels de communiquer avec lui pour une inférence en temps réel.
Bien qu'étroitement lié, le service de modèle est une composante spécifique du processus plus large de déploiement de modèle. Le déploiement englobe l'ensemble du processus d'intégration d'un modèle dans un environnement de production, y compris la mise en place et la surveillance de l'infrastructure. Le service de modèle se réfère spécifiquement à la partie de cette infrastructure responsable de l'exécution du modèle et du traitement efficace des demandes d'inférence.
Principaux éléments du service modèle
Un système de service de modèle robuste se compose de plusieurs éléments intégrés qui fonctionnent ensemble pour fournir des prédictions rapides et fiables.
- Format du modèle: Avant d'être utilisé, un modèle doit être présenté dans un format normalisé. Des formats comme ONNX assurent l'interopérabilité entre différents frameworks. Pour des performances maximales, les modèles peuvent être optimisés à l'aide d'outils tels que TensorRT pour les GPU NVIDIA.
- Cadre de service: Logiciel spécialisé qui charge le modèle, gère les ressources matérielles comme les GPU et traite les demandes d'inférence. Les frameworks les plus populaires sont TensorFlow Serving, PyTorch Serve et le serveur d'inférence haute performance NVIDIA Triton, qui peut être utilisé avec les modèles Ultralytics grâce à notre guide d'intégration Triton.
- Point de terminaison API: Il s'agit de la passerelle de communication qui permet aux applications clientes d'envoyer des données (comme une image ou un texte) et de recevoir la prédiction du modèle. REST et gRPC sont des protocoles API couramment utilisés à cette fin.
- Infrastructure: Le matériel physique ou virtuel sur lequel le modèle fonctionne. Il peut s'agir de serveurs sur site ou de plateformes d'informatique en nuage comme Amazon SageMaker et Google Cloud AI Platform. Pour les applications nécessitant une faible latence, les modèles sont souvent servis sur des dispositifs d'IA périphériques. La conteneurisation avec des outils comme Docker est essentielle pour créer des environnements de service portables et évolutifs.
- Surveillance et journalisation: Suivi continu des performances du modèle et de l'état du système. Il s'agit notamment de surveiller des mesures telles que la latence d'inférence et le débit, ainsi que des problèmes tels que la dérive des données, qui peut dégrader la précision du modèle au fil du temps. Pour en savoir plus, consultez notre guide sur la surveillance des modèles.
Applications dans le monde réel
Le service de modèles est le moteur d'innombrables fonctions alimentées par l'IA.
- Gestion des stocks assistée par l'IA: Une entreprise de vente au détail utilise un modèle YOLO11 d'Ultralytics pour la gestion des stocks en temps réel. Le modèle est présenté dans un format ONNX et servi sur un petit ordinateur périphérique à l'intérieur du magasin. Une caméra envoie un flux vidéo au point de service, qui effectue une détection d'objets pour compter les articles sur les étagères et envoie des alertes lorsque le stock est faible.
- Analyse d'images médicales dans le nuage: Un système hospitalier déploie un modèle sophistiqué de vision par ordinateur pour l'analyse d'images médicales. En raison de la taille importante du modèle et des besoins de calcul, il est servi sur un puissant serveur en nuage doté de plusieurs GPU. Les radiologues téléchargent des scans à haute résolution via un portail sécurisé, qui appelle l'API de service. Le modèle renvoie des prédictions qui aident à identifier les anomalies potentielles, améliorant ainsi la rapidité et la précision du diagnostic.
Le rôle des MLOps
Le service de modèles est la pierre angulaire des opérations d'apprentissage automatique (MLOps). Une bonne stratégie MLOps garantit que l'ensemble du cycle de vie - du prétraitement des données et de l'entraînement des modèles au service et à la surveillance - estautomatisé, fiable et évolutif. Des plateformes comme Ultralytics HUB sont conçues pour simplifier l'ensemble de ce flux de travail, en fournissant une solution intégrée pour former, vérifier et servir les modèles de vision artificielle de manière efficace.