Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Déploiement de modèles

Apprenez à déployer des modèles d'apprentissage automatique dans des environnements cloud ou périphériques. Découvrez comment la Ultralytics rationalise l'exportation et la production pour YOLO26.

Le déploiement du modèle est la phase critique au cours de laquelle un modèle d'apprentissage automatique entraîné est intégré dans un environnement de production environnement de production afin de prendre des décisions pratiques ou de faire des prédictions basées sur de nouvelles données. Il représente la transition d'un cadre de recherche ou expérimental, souvent réalisé dans des ordinateurs portables isolés, vers une application en direct où le modèle interagit avec les utilisateurs et les systèmes du monde réel. Ce processus transforme un fichier statique de poids et d'architecture en un agent IA actif capable de générer de la valeur, comme l'identification d' objets dans un flux vidéo ou la recommandation de produits sur un site web.

Un déploiement efficace nécessite de relever des défis distincts de la formation des modèles, notamment la latence, l'évolutivité et la compatibilité matérielle . Les organisations utilisent souvent la Ultralytics pour rationaliser ce cycle de vie, en veillant à ce que les modèles formés dans le cloud puissent être déployés de manière transparente dans divers environnements, allant de serveurs puissants à des périphériques à ressources limitées.

Le paysage du déploiement

Les stratégies de déploiement se répartissent généralement en deux catégories : le déploiement dans le cloud et le déploiement en périphérie. Le choix dépend fortement des exigences spécifiques en matière de vitesse, de confidentialité et de connectivité.

  • Déploiement dans le cloud : le modèle réside sur des serveurs centralisés, souvent gérés par des services tels que AWS SageMaker ou Google AI. Les applications envoient des données via Internet au modèle via une REST API, qui traite la demande et renvoie le résultat. Cette méthode offre une puissance de calcul pratiquement illimitée, ce qui la rend idéale pour les modèles complexes et de grande taille, mais elle repose sur une connexion Internet stable.
  • Déploiement en périphérie : le modèle s'exécute localement sur l'appareil où les données sont générées, tel qu'un smartphone, un drone ou une caméra d'usine. Cette approche, connue sous le nom d' « edge computing »(informatique en périphérie), minimise la latence et améliore la confidentialité des données, car les informations ne quittent pas l'appareil. Des outils tels que TensorRT sont fréquemment utilisés pour optimiser les modèles pour ces environnements.

Préparation des modèles pour la production

Avant qu'un modèle puisse être déployé, il est généralement optimisé afin de garantir son bon fonctionnement sur le matériel cible . Ce processus implique l'exportation du modèle, où le format d'entraînement (comme PyTorch) est converti en un format adapté au déploiement, tel que ONNX (Open Neural Network Exchange) ou OpenVINO.

Les techniques d'optimisation telles que la quantification réduisent la taille du modèle et son empreinte mémoire sans sacrifier de manière significative la précision. Pour garantir la cohérence entre les différents environnements informatiques, les développeurs utilisent souvent des outils de conteneurisation tels que Docker, qui regroupent le modèle avec toutes ses dépendances logicielles nécessaires.

Voici un exemple illustrant comment exporter un modèle YOLO26 au ONNX , une étape courante dans la préparation du déploiement :

from ultralytics import YOLO

# Load the YOLO26 nano model
model = YOLO("yolo26n.pt")

# Export the model to ONNX format for broad compatibility
# This creates a file suitable for various inference engines
path = model.export(format="onnx")

print(f"Model successfully exported to: {path}")

Applications concrètes

Le déploiement de modèles alimente des systèmes de vision par ordinateur largement utilisés dans divers secteurs.

  • Contrôle qualité de la fabrication : dans le domaine de la fabrication intelligente, les modèles déployés surveillent les bandes transporteuses en temps réel. Un système de caméras fonctionnant avec un modèle optimisé pour les appareils NVIDIA peut detect instantanément detect des produits, déclenchant ainsi un bras robotisé qui retire les articles défectueux. Cela nécessite une latence ultra-faible que seul le déploiement de l'IA en périphérie peut fournir.
  • Analyse du commerce de détail : les magasins utilisent des modèles déployés pour analyser la fréquentation et le comportement des clients. En intégrant des modèles de suivi d'objets aux flux des caméras de sécurité , les détaillants peuvent générer des cartes thermiques des allées les plus fréquentées. Ces informations permettent d'optimiser l'agencement des magasins et d'améliorer la gestion des stocks, souvent à l'aide d'un déploiement basé sur le cloud pour agréger les données provenant de plusieurs emplacements.

Déploiement, inférence et formation

Il est important de distinguer le déploiement de modèle des termes connexes dans le cycle de vie de l'apprentissage automatique :

  • L'entraînement du modèle est la phase éducative au cours de laquelle l'algorithme apprend des modèles à partir d'un ensemble de données.
  • Le déploiement du modèle est la phase d'intégration au cours de laquelle le modèle entraîné est installé dans une infrastructure de production (serveurs, applications ou appareils).
  • L'inférence est la phase opérationnelle, c'est-à-dire l'action réelle du modèle déployé qui traite les données en temps réel pour produire une prédiction. Par exemple, le moteur d'inférence exécute les calculs définis par le modèle déployé.

Surveillance et maintenance

Le déploiement n'est pas une fin en soi. Une fois mis en service, les modèles doivent faire l'objet d'une surveillance continue afin de detect tels que la dérive des données, lorsque les données réelles commencent à diverger des données d'entraînement. Des outils tels que Prometheus ou Grafana sont souvent intégrés pour track les indicateurs track , garantissant ainsi la fiabilité du système au fil du temps. En cas de baisse des performances, le modèle peut devoir être réentraîné et redéployé, bouclant ainsi le cycle des MLOps.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant