La surveillance des modèles est le processus continu de suivi et d'évaluation des performances des modèles d'apprentissage automatique (ML) une fois qu'ils sont déployés en production. Il s'agit d'observer les mesures clés liées à la précision du modèle, à la santé opérationnelle et aux caractéristiques des données pour s'assurer que le modèle se comporte comme prévu au fil du temps. Cette pratique est une partie cruciale du cycle de vie des opérations d'apprentissage automatique (MLOps), garantissant que les systèmes d'intelligence artificielle (IA) déployés restent fiables, efficaces et dignes de confiance dans les environnements du monde réel. Sans surveillance, les performances des modèles peuvent se dégrader silencieusement, ce qui entraîne de mauvaises prédictions et des résultats commerciaux négatifs.
Pourquoi la surveillance des modèles est-elle importante ?
Les modèles ML sont formés sur des données historiques, mais le monde réel est dynamique. Les changements dans les modèles de données, le comportement des utilisateurs ou l'environnement peuvent entraîner une baisse des performances d'un modèle après son déploiement. Les principales raisons pour lesquelles il est nécessaire d'effectuer une surveillance sont les suivantes :
- Détecter la dégradation des performances : Les modèles peuvent devenir moins précis au fil du temps. La surveillance permet d'identifier les baisses des mesures de performance comme la précision, le rappel ou le score F1. Tu peux en savoir plus sur les mesures de performance deYOLO dans notre guide.
- Identifier la dérive des données : Les propriétés statistiques des données d'entrée peuvent changer, un phénomène connu sous le nom de dérive des données. Cela peut se produire lorsque les données que le modèle voit en production diffèrent considérablement des données de formation. La surveillance des caractéristiques d'entrée permet de détecter de tels changements.
- Repérer la dérive des concepts : La relation entre les caractéristiques d'entrée et la variable cible peut changer au fil du temps (dérive du concept). Par exemple, les préférences des clients peuvent évoluer, ce qui rend les anciens modèles de prédiction obsolètes. La dérive des concepts nécessite un recyclage ou une adaptation du modèle.
- Assurer la santé opérationnelle : La surveillance permet de suivre les mesures opérationnelles telles que la latence d'inférence, le débit et les taux d'erreur pour s'assurer que l'infrastructure de service demodèle (model serving) fonctionne sans problème.
- Maintien de l'équité et de l'éthique : La surveillance peut aider à détecter et à atténuer les préjugés dans l'IA en suivant les performances de différents groupes démographiques ou segments de données, ce qui favorise l'éthique de l'IA.
Quels sont les aspects contrôlés ?
Une surveillance efficace du modèle implique généralement le suivi de plusieurs catégories de mesures :
- Performance de la prédiction : Des mesures telles que la précision, la précision moyenne (mAP), l'AUC et les taux d'erreur, souvent comparées à des points de référence établis lors de la validation.
- Qualité et intégrité des données : Suivi des valeurs manquantes, des incohérences de type de données et des violations de plage dans les données d'entrée.
- Dérive des données d'entrée : Mesures statistiques (par exemple, indice de stabilité de la population, test de Kolmogorov-Smirnov) pour comparer la distribution des caractéristiques d'entrée de la production à la distribution des données d'entraînement.
- Dérive des prédictions et des sorties : Surveillance de la distribution des prédictions du modèle pour détecter les changements significatifs.
- Mesures opérationnelles : Mesures au niveau du système telles que CPU/GPU l'utilisation de la mémoire, la latence des requêtes et le débit. Des plateformes comme Prometheus sont souvent utilisées à cette fin.
- Mesures d'équité et de partialité : Évaluer les disparités de performance des modèles en fonction des attributs sensibles (par exemple, l'âge, le sexe, l'origine ethnique) en utilisant des mesures telles que la parité démographique ou les cotes égalisées.
Surveillance du modèle et concepts connexes
Il est important de distinguer la surveillance des modèles des termes similaires :
- Observabilité: Alors que la surveillance se concentre sur le suivi de métriques prédéfinies pour évaluer les modes de défaillance connus, l'observabilité fournit les outils (journaux, métriques, traces) pour explorer et comprendre les états et les comportements inconnus du système. L'observabilité permet une investigation plus approfondie lorsque la surveillance détecte une anomalie.
- MLOps: MLOps est un ensemble plus large de pratiques couvrant l'ensemble du cycle de vie ML, y compris la gestion des données, la formation des modèles, le déploiement, la gouvernance et la surveillance. La surveillance des modèles est un élément essentiel du cadre MLOps, qui se concentre spécifiquement sur la santé des modèles après leur déploiement.
- Évaluation du modèle : L'évaluation est généralement effectuée avant le déploiement à l'aide de données de validation statiques ou de données de test pour évaluer la qualité d'un modèle. Le suivi est un processus continu effectué sur des données de production en direct après le déploiement. Tu trouveras ici des informations sur l'évaluation et la mise au point des modèles.
Applications dans le monde réel
- Systèmes de recommandation pour le commerce électronique : Une plateforme de commerce électronique utilise un modèle ML pour les recommandations de produits(système de recommandation). La surveillance du modèle permet de suivre les taux de clics (CTR) et les taux de conversion des articles recommandés. Si la surveillance détecte une baisse soudaine du CTR (dégradation des performances) ou un changement dans les types de produits achetés (dérive du concept due à une nouvelle tendance), des alertes sont déclenchées. Cela incite à mener une enquête et éventuellement à recycler le modèle avec des données d'interaction plus récentes. Amazon Personalize comprend des fonctions permettant de contrôler l'efficacité des recommandations.
- Perception des véhicules autonomes : Les voitures auto-conduites s'appuient fortement sur des modèles de vision par ordinateur tels que Ultralytics YOLO d'Ultralytics pour la détection des objets. La surveillance du modèle permet de suivre en permanence la précision de la détectionYOLO métriques de performance deYOLO ) et les scores de confiance pour les objets tels que les piétons, les cyclistes et les autres véhicules. Il surveille également les caractéristiques des données d'entrée (par exemple, la luminosité de l'image, les conditions météorologiques) pour détecter les dérives. Si les performances du modèle se dégradent de manière significative dans des conditions spécifiques (par exemple, forte pluie, faible luminosité), le système peut passer à un mode opérationnel plus sûr ou signaler le besoin de mises à jour de modèles formés sur des données plus diversifiées(augmentation des données). Des entreprises comme Waymo investissent énormément dans la surveillance de leurs systèmes de perception.