Service de modèles
Découvrez les bases du service de modèles : déployez des modèles d'IA pour des prédictions en temps réel, une évolutivité et une intégration transparente dans les applications.
Le service de modèles est le processus qui consiste à mettre un modèle d'apprentissage automatique (ML) entraîné à disposition pour recevoir des données d'entrée et renvoyer des prédictions dans un environnement de production. Une fois qu'un modèle est entraîné et validé, le service est l'étape essentielle qui le transforme d'un fichier statique en un outil opérationnel actif qui peut alimenter des applications du monde réel. Il implique le déploiement du modèle sur un serveur et la création d'une interface, généralement une API, qui permet à d'autres systèmes logiciels de communiquer avec lui pour l'inférence en temps réel.
Bien qu'étroitement lié, le service de modèles est une composante spécifique du processus plus large de déploiement de modèles. Le déploiement englobe l'ensemble du flux de travail d'intégration d'un modèle dans un environnement de production, y compris la configuration de l'infrastructure et la surveillance. Le service de modèles fait spécifiquement référence à la partie de cette infrastructure responsable de l'exécution du modèle et de la gestion efficace des requêtes d'inférence.
Composants clés du service de modèles
Un système de service de modèles robuste se compose de plusieurs composants intégrés qui fonctionnent ensemble pour fournir des prédictions rapides et fiables.
- Format du modèle : Avant de servir, un modèle doit être empaqueté dans un format standardisé. Les formats comme ONNX assurent l'interopérabilité entre les différents frameworks. Pour une performance maximale, les modèles peuvent être optimisés à l'aide d'outils comme TensorRT pour les GPU NVIDIA.
- Framework de service : Logiciel spécialisé qui charge le modèle, gère les ressources matérielles comme les GPU et traite les requêtes d'inférence. Les frameworks populaires incluent TensorFlow Serving, PyTorch Serve, et le NVIDIA Triton Inference Server haute performance, qui peut être utilisé avec les modèles Ultralytics via notre guide d'intégration Triton.
- Point de terminaison API : Il s'agit de la passerelle de communication qui permet aux applications clientes d'envoyer des données (comme une image ou du texte) et de recevoir la prédiction du modèle. REST et gRPC sont des protocoles API courants utilisés à cette fin.
- Infrastructure : le matériel physique ou virtuel sur lequel le modèle s'exécute. Cela peut aller des serveurs sur site aux plateformes d'informatique en nuage comme Amazon SageMaker et Google Cloud AI Platform. Pour les applications nécessitant une faible latence, les modèles sont souvent servis sur des appareils d'IA en périphérie. La Conteneurisation avec des outils comme Docker est essentielle pour créer des environnements de service portables et évolutifs.
- Surveillance et journalisation : Suivi continu des performances du modèle et de la santé du système. Cela comprend la surveillance des métriques telles que la latence d'inférence et le débit, ainsi que la surveillance des problèmes tels que la dérive des données, qui peut dégrader la précision du modèle au fil du temps. Vous pouvez en apprendre davantage dans notre guide de surveillance des modèles.
Applications concrètes
Le service de modèles est le moteur de nombreuses fonctionnalités basées sur l'IA.
- Gestion des stocks basée sur l'IA : Une entreprise de vente au détail utilise un modèle Ultralytics YOLO11 pour la gestion des stocks en temps réel. Le modèle est conditionné au format ONNX et servi sur un petit ordinateur périphérique à l'intérieur du magasin. Une caméra envoie un flux vidéo au point de terminaison de service, qui effectue la détection d'objets pour compter les articles sur les étagères et envoie des alertes lorsque les stocks sont bas.
- Analyse d’images médicales dans le nuage : Un système hospitalier déploie un modèle de vision artificielle sophistiqué pour l’analyse d’images médicales. En raison de la grande taille du modèle et des besoins de calcul, il est hébergé sur un serveur nuage puissant doté de plusieurs GPU. Les radiologues téléchargent des images haute résolution via un portail sécurisé, qui appelle l’API de service. Le modèle renvoie des prédictions qui aident à identifier les anomalies potentielles, améliorant ainsi la vitesse et la précision du diagnostic.
Le rôle du MLOps
Le service de modèles est une pierre angulaire des opérations d'apprentissage automatique (MLOps). Une bonne stratégie MLOps garantit que l'ensemble du cycle de vie, de le prétraitement des données et l'entraînement des modèles au service et à la surveillance, est automatisé, fiable et évolutif. Les plateformes comme Ultralytics HUB sont conçues pour simplifier l'ensemble de ce flux de travail, en fournissant une solution intégrée pour entraîner, versionner et servir efficacement les modèles de vision par ordinateur.