Dérive des données
Découvrez les types, les causes et les solutions de dérive des données dans l'apprentissage automatique. Apprenez à détecter et à atténuer la dérive des données pour obtenir des modèles d'IA robustes.
La dérive des données est un défi courant dans l'apprentissage automatique qui se produit lorsque les propriétés statistiques des données qu'un modèle rencontre en production changent au fil du temps par rapport aux données d'entraînement sur lesquelles il a été construit. Ce changement signifie que le modèle fonctionne sur des données auxquelles il n'était pas préparé, ce qui peut entraîner une dégradation silencieuse mais significative de ses performances prédictives. La gestion efficace de la dérive des données est un élément essentiel du cycle de vie des MLOps, qui garantit que les systèmes d'intelligence artificielle (IA) restent fiables après le déploiement du modèle. Sans une surveillance proactive des modèles, ce problème peut ne pas être détecté et conduire à de mauvaises décisions et à des résultats commerciaux négatifs.
Dérive des données vs. dérive des concepts
Il est important de distinguer la dérive des données d'un problème connexe, la dérive des concepts. Bien que les deux puissent dégrader les performances du modèle, leurs causes sont différentes.
- Dérive des données : Également connue sous le nom de dérive des caractéristiques ou des covariables, cette dérive se produit lorsque la distribution des données d'entrée change, mais que la relation sous-jacente entre les entrées et les sorties reste constante. Par exemple, un modèle de vision par ordinateur formé sur des images provenant d'un type d'appareil photo peut donner de mauvais résultats sur des images provenant d'un nouvel appareil photo dont les propriétés du capteur sont différentes. La définition des objets à détecter est la même, mais les caractéristiques des données d'entrée ont changé.
- Dérive du concept : Ce phénomène se produit lorsque les propriétés statistiques de la variable cible changent au fil du temps. La relation fondamentale entre les caractéristiques d'entrée et la variable de sortie est modifiée. Dans un système de détection des fraudes financières, par exemple, les tactiques utilisées par les fraudeurs évoluent, modifiant ce qui constitue une transaction "frauduleuse". Une exploration détaillée de la dérive des concepts peut être trouvée dans la littérature académique.
Exemples concrets
- Gestion des stocks dans le commerce de détail : Un système de vente au détail piloté par l'IA utilise des flux de caméras et un modèle de détection d'objets comme Ultralytics YOLO11 pour surveiller les stocks en rayon. Le modèle est formé sur un ensemble spécifique d'emballages de produits. Si un fournisseur modifie la conception de l'emballage ou si le magasin modernise son éclairage, cela entraîne une dérive des données. Les nouvelles données visuelles diffèrent de l'ensemble de données d'entraînement initial, ce qui peut empêcher le modèle de reconnaître les produits, entraînant ainsi des inventaires inexacts.
- Véhicules autonomes : Les voitures autonomes utilisent des modèles formés à partir de grandes quantités de données de capteurs provenant de lieux géographiques et de conditions météorologiques spécifiques. Si une voiture est déployée dans une nouvelle ville ou rencontre pour la première fois un phénomène météorologique rare comme la neige, son système de perception est confronté à une dérive des données. La distribution des données (par exemple, les marquages routiers, les panneaux de signalisation, le comportement des piétons) diffère considérablement de son expérience de formation, ce qui peut compromettre la sécurité et nécessiter une attention immédiate. Waymo et d'autres entreprises de conduite autonome investissent massivement dans la détection et l'atténuation de ce phénomène.
Détecter et atténuer la dérive des données
La détection et le traitement de la dérive des données est un processus continu qui implique une combinaison de stratégies de surveillance et de maintenance.
Méthodes de détection
- Suivi des performances : Le suivi des mesures clés du modèle, telles que la précision, le rappel et le score F1 au fil du temps, peut indiquer une dégradation des performances potentiellement causée par la dérive. Des outils comme TensorBoard peuvent aider à visualiser ces mesures.
- Suivi statistique : Application de tests statistiques pour comparer la distribution des données entrantes avec les données de formation. Les méthodes courantes comprennent le test de Kolmogorov-Smirnov, l'indice de stabilité de la population (ISP) ou les tests du chi carré.
- Outils de surveillance : Utilisation de plateformes d'observabilité spécialisées conçues pour surveiller les modèles de ML en production. Les options open-source incluent Prometheus et Grafana, tandis que les outils ML dédiés comme Evidently AI et NannyML offrent des fonctionnalités de détection de dérive plus spécifiques. Les fournisseurs de cloud proposent également des solutions telles que AWS SageMaker Model Monitor et Vertex AI Model Monitoring de Google Cloud.
Stratégies d'atténuation
- Réentraînement : La stratégie la plus simple consiste à entraîner régulièrement le modèle sur des données fraîches et récentes qui reflètent l'environnement de production actuel. Des plateformes comme Ultralytics HUB facilitent le recyclage et les flux de travail de déploiement.
- Apprentissage en ligne : Il s'agit de mettre à jour le modèle de manière incrémentale au fur et à mesure de l'arrivée de nouvelles données. Il doit être utilisé avec prudence, car il peut être sensible aux données bruitées et peut entraîner des fluctuations imprévisibles des performances du modèle.
- Augmentation des données : L'utilisation proactive de techniques d'augmentation des données au cours de la phase de formation initiale peut rendre le modèle plus robuste à certains types de variations, tels que les changements d'éclairage, d'échelle ou d'orientation.
- Adaptation au domaine : Utilisation de techniques avancées qui tentent explicitement d'adapter un modèle formé sur une distribution de données source à une distribution de données cible différente mais apparentée. Il s'agit d'un domaine actif de la recherche en ML.
La gestion efficace de la dérive des données est essentielle pour garantir que les systèmes d'IA construits avec des frameworks tels que PyTorch ou TensorFlow restent précis et apportent de la valeur tout au long de leur durée de vie opérationnelle. Pour en savoir plus sur les meilleures pratiques en matière de maintenance des modèles, consultez notre blog.