Surveillance des modèles
Découvrez l'importance de la surveillance des modèles pour garantir la précision de l'IA, détecter la dérive des données et maintenir la fiabilité dans des environnements réels dynamiques.
La surveillance de modèle est le processus continu de suivi et d'évaluation des performances des modèles de machine learning (ML) une fois qu'ils sont déployés en production. Elle implique l'observation des métriques clés liées à la précision du modèle, à la santé opérationnelle et aux caractéristiques des données pour s'assurer que le modèle se comporte comme prévu au fil du temps. Cette pratique est un élément crucial du cycle de vie des opérations de machine learning (MLOps), garantissant que les systèmes d'intelligence artificielle (IA) déployés restent fiables, efficaces et dignes de confiance dans des environnements réels. Sans surveillance, les performances du modèle peuvent se dégrader silencieusement, entraînant de mauvaises prédictions et des résultats commerciaux négatifs.
Pourquoi la surveillance des modèles est-elle importante ?
Les modèles de ML sont entraînés sur des données historiques, mais le monde réel est dynamique. Les changements dans les modèles de données, le comportement des utilisateurs ou l'environnement peuvent entraîner une baisse des performances d'un modèle après son déploiement. Les principales raisons de la surveillance sont les suivantes :
- Détection de la dégradation des performances : Les modèles peuvent devenir moins précis avec le temps. La surveillance permet d'identifier les baisses des indicateurs de performance tels que la précision, le rappel ou le score F1. Vous pouvez en savoir plus sur les indicateurs de performance de YOLO dans notre guide.
- Identifier la dérive des données : Les propriétés statistiques des données d'entrée peuvent changer, un phénomène connu sous le nom de dérive des données. Cela peut se produire lorsque les données que le modèle voit en production diffèrent considérablement des données d'apprentissage.
- Détection de la dérive conceptuelle : La relation entre les caractéristiques d'entrée et la variable cible peut changer au fil du temps. Par exemple, les préférences des clients peuvent évoluer, rendant les anciens modèles de prédiction obsolètes. C'est ce qu'on appelle la dérive conceptuelle et cela nécessite souvent un réentraînement du modèle.
- Assurer la santé opérationnelle : La surveillance suit les métriques opérationnelles telles que la latence d'inférence, le débit et les taux d'erreur pour s'assurer que l'infrastructure de service de modèles fonctionne correctement.
- Maintien de l'équité et de l'éthique : La surveillance peut aider à détecter et à atténuer les biais dans l'IA en suivant les performances des différents groupes démographiques, en promouvant l'éthique de l'IA.
Quels aspects sont surveillés ?
Une surveillance efficace des modèles implique généralement le suivi de plusieurs catégories de métriques :
- Performance de prédiction : Métriques telles que la précision, la précision moyenne (mAP), l’AUC et les taux d’erreur, souvent comparées aux références établies lors de la validation.
- Qualité et intégrité des données : Suivi des valeurs manquantes, des incompatibilités de types de données et des violations de plage dans les données d'entrée.
- Dérive des données d'entrée : Mesures statistiques (par exemple, l'indice de stabilité de la population, le test de Kolmogorov-Smirnov) pour comparer la distribution des caractéristiques d'entrée de la production à la distribution des données d'apprentissage.
- Dérive de prédiction/sortie : Surveillance de la distribution des prédictions du modèle pour détecter les changements importants au fil du temps.
- Métriques opérationnelles : Métriques au niveau du système telles que l'utilisation du CPU/GPU, l'utilisation de la mémoire, la latence des requêtes et le débit. Des plateformes comme Prometheus sont souvent utilisées à cette fin.
- Mesures d'équité et de biais : Évaluation des disparités de performance des modèles en fonction d'attributs sensibles (par exemple, l'âge, le sexe) à l'aide de mesures telles que la parité démographique ou l'égalité des chances.
Surveillance de modèle vs. Concepts connexes
Il est important de distinguer la surveillance des modèles des termes similaires :
- Observabilité: Alors que la surveillance se concentre sur le suivi des métriques prédéfinies pour évaluer les modes de défaillance connus, l'observabilité fournit les outils (journaux, métriques, traces) pour explorer et comprendre les états du système inconnus. L'observabilité permet une enquête plus approfondie lorsque la surveillance détecte une anomalie.
- MLOps: MLOps est un ensemble plus large de pratiques couvrant l'ensemble du cycle de vie du ML. La surveillance des modèles est un composant essentiel du cadre MLOps, se concentrant spécifiquement sur la santé du modèle après le déploiement.
- Évaluation du modèle : L'évaluation est généralement effectuée avant le déploiement en utilisant des données de validation statiques ou des données de test pour évaluer la qualité d'un modèle. La surveillance est un processus continu effectué sur des données de production en direct après le déploiement. Trouvez des informations sur l'évaluation et le réglage fin du modèle ici.
Applications concrètes
- Systèmes de recommandation de commerce électronique : Une plateforme de commerce électronique utilise un modèle de ML pour son système de recommandation. La surveillance du modèle suit les taux de clics (CTR) et les taux de conversion. Si la surveillance détecte une baisse soudaine du CTR (dégradation des performances) ou un changement dans les types de produits achetés (dérive de concept), des alertes peuvent déclencher une enquête et potentiellement un réentraînement du modèle. Des services comme Amazon Personalize incluent des fonctionnalités de surveillance de l'efficacité des recommandations.
- Perception des véhicules autonomes : Les voitures autonomes s'appuient sur des modèles de vision par ordinateur comme Ultralytics YOLO pour la détection d'objets. La surveillance des modèles suit en permanence la précision de la détection et les scores de confiance pour les objets comme les piétons et les autres véhicules. Elle surveille également la dérive des données dans les images d'entrée (par exemple, les changements de luminosité ou de conditions météorologiques). Si les performances se dégradent dans des conditions spécifiques comme les fortes pluies, le système peut signaler la nécessité de mettre à jour le modèle en l'entraînant sur des données plus diversifiées, éventuellement créées à l'aide de l'augmentation de données. Des entreprises comme Waymo investissent massivement dans la surveillance de leurs systèmes de perception.
Outils et implémentation
La mise en œuvre de la surveillance des modèles implique l'utilisation d'outils et de plateformes spécialisés. Les options vont des bibliothèques open source comme Evidently AI et NannyML aux services gérés des fournisseurs de cloud comme AWS SageMaker Model Monitor, Google Vertex AI Model Monitoring et Azure Machine Learning. Les plateformes MLOps dédiées comme Arize AI ou WhyLabs offrent également de vastes capacités de surveillance. Des plateformes comme Ultralytics HUB prennent en charge le déploiement et la gestion des modèles, en s'intégrant à ces solutions de surveillance pour compléter le cycle MLOps. Des stratégies de maintenance des modèles efficaces reposent fortement sur une surveillance robuste.