Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Déploiement de modèles

Découvrez les éléments essentiels du déploiement de modèles, transformant les modèles de ML en outils concrets pour les prédictions, l'automatisation et les informations basées sur l'IA.

Le déploiement du modèle représente la phase cruciale du cycle de vie de l'apprentissage automatique, au cours de laquelle un modèle d'apprentissage automatique (MA) formé est intégré dans le système de gestion de l'information. d 'apprentissage machine (ML) est intégré dans un dans un environnement de production pour agir sur des données réelles. Il comble le fossé entre le développement - où les modèles sont entraînés et validés dans des environnements contrôlés - et l'application dans le monde réel, où ils génèrent de la valeur en fournissant des informations exploitables. d'action. Sans un déploiement efficace, même le réseau le plus sophistiqué reste un fichier statique, incapable d'interagir d'interagir avec les utilisateurs finaux ou les systèmes logiciels externes. L'objectif premier est de rendre les capacités prédictives du modèle prédictives du modèle accessibles, fiables et évolutives pour des applications allant des applications mobiles aux services d'entreprise en nuage. d'entreprise.

Le pipeline de déploiement

Le passage d'un modèle d'un environnement de recherche à un environnement de production implique généralement un pipeline structuré conçu pour garantir la performance et la stabilité. assurer la performance et la stabilité.

  1. Optimisation du modèle: Avant qu'un modèle ne quitte l'environnement de formation, il subit souvent une optimisation du modèle pour d'améliorer la vitesse d'exécution et de réduire l'utilisation de la mémoire. Des techniques telles que la quantification réduisent la précision des poids du des poids du modèle (par exemple, de 32 bits en virgule flottante à 8 bits en nombres entiers), ce qui réduit considérablement les besoins de calcul avec un impact minimal sur la précision. avec un impact minimal sur la précision.
  2. Exportation du modèle: Le modèle optimisé est converti dans un format standard indépendant du cadre de formation. cadre de formation. Des formats tels que ONNX (Open Neural Network Exchange) permettent aux modèles formés dans PyTorch de fonctionner sur différents moteurs d'inférence. Pour une accélération spécifique au matériel, les développeurs peuvent exporter vers TensorRT pour les GPU NVIDIA ou OpenVINO pour les CPU CPU Intel .
  3. Conteneurisation: Pour s'assurer que le modèle fonctionne de manière cohérente dans différents environnements informatiques, il est courant d'utiliser la conteneurisation. pratique courante d'utiliser la conteneurisation. Des outils comme Docker regroupent le modèle, ses dépendances et l'environnement d'exécution en une seule unité légère. dépendances et l'environnement d'exécution en une seule unité légère, ce qui élimine les problèmes liés au fait que le modèle machine".
  4. Orchestration et mise à l'échelle: Dans les scénarios à forte demande, les conteneurs déployés sont gérés par des systèmes d'orchestration tels que Kubernetes. systèmes d'orchestration tels que Kubernetes. Ces plateformes gèrent l 'évolutivité, en créant automatiquement de nouvelles instances pour gérer les pics de trafic et assurer une haute disponibilité.

Environnements de déploiement

Le choix de l'environnement dépend fortement des exigences de l'application en ce qui concerne la latence de l'inférence, la confidentialité des données et connectivité.

  • Déploiement dans le nuage: Hébergement de modèles sur des plates-formes en nuage telles que AWS SageMaker ou Google Vertex AI offre une puissance de calcul virtuellement illimitée et une et une évolutivité aisée. Cette solution est idéale pour les modèles de langage complexes (LLM) ou les tâches de traitement par lots où la réponse en temps réel est moins critique.
  • Edge AI: pour les applications nécessitant l'inférence en temps réel sans dépendance internet, les modèles sont déployés directement sur des appareils locaux. L'Edge AI utilise du matériel compact, tel que le NVIDIA Jetson ou Raspberry Pi, pour traiter les données à la source. Cette approche minimise latence et améliore la confidentialité des données en conservant données en conservant les informations sensibles sur l'appareil.
  • Basé sur le navigateur: Des frameworks comme TensorFlow.js permettent aux modèles de fonctionner entièrement dans un navigateur web en utilisant le matériel du client. Cette approche sans installation est excellente pour les pour les applications web interactives et les tâches tâches légères de vision artificielle (CV).

Applications concrètes

  • Contrôle de la qualité de la fabrication automatisée: Dans une usine, un YOLO11 est déployé sur un dispositif périphérique connecté à une caméra au-dessus d'un tapis roulant. Au fur et à mesure que les produits passent, le modèle effectue une en temps réel pour identifier les défauts tels que les des fissures ou des étiquettes mal alignées. Le système déclenche instantanément un bras mécanique pour retirer les articles défectueux, ce qui augmente considérablement l'efficacité par rapport à l'inspection manuelle. l'efficacité par rapport à une inspection manuelle. En savoir plus sur l L 'IA dans la fabrication.
  • Analyse intelligente de la vente au détail: Les détaillants déploient modèles de suivi d'objets pour analyser le comportement pour analyser le comportement des clients dans les magasins. En traitant les flux vidéo sur un serveur local, le système génère des cartes thermiques des zones à fort trafic et surveille la longueur des files d'attente. et surveille la longueur des files d'attente. Ces données permettent aux responsables d'optimiser l'agencement des magasins et les effectifs. Voir comment l 'IA dans le commerce de détail transforme l'expérience l'expérience d'achat.

Concepts connexes : Déploiement vs. service vs. MLOps

Il est important de distinguer le "déploiement de modèles" des termes apparentés dans l'écosystème :

  • Déploiement du modèle et mise en service du modèle: Le déploiement fait référence au processus global de mise en production d'un modèle. Le service de modèle est le mécanisme ou le mécanisme ou logiciel spécifique (tel que NVIDIA Triton Inference Server ou TorchServe) qui écoute les requêtes de l'API et exécute le modèle pour générer des prédictions. Le service est un composant du déploiement.
  • Déploiement du modèle vs. MLOps: Le déploiement est une phase unique dans le cadre plus large de MLOps. MLOps (Machine Learning Operations) englobe l'ensemble du cycle de vie. l'ensemble du cycle de vie, y compris la collecte de données, la formation, l'évaluation, le déploiement et la et la surveillance continue du modèle pour detect problèmes tels que la dérive des données. la dérive des données.

Exportation d'un modèle pour le déploiement

La première étape du déploiement consiste souvent à exporter un modèle entraîné dans un format hautement compatible. L'exemple suivant montre comment exporter un modèle YOLO11 au format ONNX à l'aide de la commande ultralytics et le rend prêt à être déployé sur à être déployé sur différentes plateformes.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Export the model to ONNX format for broad compatibility
# This creates 'yolo11n.onnx' which can be used in deployment environments
model.export(format="onnx")

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant