Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Dérive des données

Découvrez les types, les causes et les solutions de la dérive des données dans l'apprentissage automatique. Apprenez à détecter et à atténuer la dérive des données pour des modèles d'IA robustes.

La dérive des données est un défi courant en apprentissage automatique (ML) qui se produit lorsque les propriétés statistiques des données qu'un modèle rencontre en production changent au fil du temps par rapport aux données d'entraînement sur lesquelles il a été construit. Ce décalage signifie que le modèle fonctionne sur des données auxquelles il n'était pas préparé, ce qui peut entraîner une dégradation silencieuse mais significative de ses performances prédictives. La gestion efficace de la dérive des données est un élément essentiel du cycle de vie MLOps, garantissant que les systèmes d'Intelligence Artificielle (IA) restent fiables après le déploiement du modèle. Sans une surveillance du modèle proactive, ce problème peut passer inaperçu, entraînant de mauvaises décisions et des résultats commerciaux négatifs.

Dérive des données vs. Dérive des concepts

Il est important de distinguer la dérive des données d'un problème connexe, la dérive des concepts. Bien que les deux puissent nuire à la performance du modèle, leurs causes sont différentes.

  • Dérive des données : Également appelée dérive des caractéristiques ou des covariables, elle se produit lorsque la distribution des données d'entrée change, mais que la relation sous-jacente entre les entrées et les sorties reste constante. Par exemple, un modèle de vision par ordinateur entraîné sur des images provenant d'un type de caméra peut être peu performant sur des images provenant d'une nouvelle caméra avec des propriétés de capteur différentes. La définition des objets détectés est la même, mais les caractéristiques des données d'entrée ont changé.
  • Dérive de concept : Cela se produit lorsque les propriétés statistiques de la variable cible changent au fil du temps. La relation fondamentale entre les caractéristiques d'entrée et la variable de sortie est modifiée. Dans un système de détection de fraude financière, par exemple, les tactiques utilisées par les fraudeurs évoluent, modifiant ce qui constitue une transaction « frauduleuse ». Une exploration détaillée de la dérive de concept est disponible dans la documentation académique.

Exemples concrets

  1. Gestion des stocks en magasin : Un système de vente au détail basé sur l'IA utilise des flux de caméras et un modèle de détection d'objets tel que Ultralytics YOLO11 pour surveiller les stocks en rayon. Le modèle est entraîné sur un ensemble spécifique d'emballages de produits. Si un fournisseur modifie la conception de l'emballage ou si le magasin améliore son éclairage, cela introduit une dérive des données. Les nouvelles données visuelles diffèrent de l'ensemble de données d'entraînement original, ce qui peut entraîner l'échec du modèle à reconnaître les produits, conduisant à des comptages d'inventaire inexacts.
  2. Véhicules autonomes : Les voitures autonomes utilisent des modèles entraînés sur de grandes quantités de données de capteurs provenant de lieux géographiques et de conditions météorologiques spécifiques. Si une voiture est déployée dans une nouvelle ville ou rencontre un événement météorologique rare comme la neige pour la première fois, son système de perception est confronté à une dérive des données. La distribution des entrées (par exemple, le marquage routier, les panneaux de signalisation, le comportement des piétons) diffère considérablement de son expérience d'entraînement, ce qui peut compromettre la sécurité et nécessiter une attention immédiate. Waymo et d'autres entreprises de conduite autonome investissent massivement dans la détection et l'atténuation de ce phénomène.

Détection et atténuation de la dérive des données

La détection et la gestion de la dérive des données sont un processus continu qui implique une combinaison de stratégies de surveillance et de maintenance.

Méthodes de détection

  • Surveillance des performances : Le suivi des métriques clés du modèle telles que la précision, le rappel et le score F1 au fil du temps peut indiquer une dégradation des performances potentiellement causée par la dérive. Des outils comme TensorBoard peuvent aider à visualiser ces métriques.
  • Surveillance statistique : Application de tests statistiques pour comparer la distribution des données entrantes avec les données d'entraînement. Les méthodes courantes comprennent le test de Kolmogorov-Smirnov, l'indice de stabilité de la population (PSI) ou les tests du chi carré.
  • Outils de surveillance : Utilisation de plateformes d'observabilité spécialisées, conçues pour la surveillance des modèles ML en production. Les options open source incluent Prometheus et Grafana, tandis que les outils ML dédiés comme Evidently AI et NannyML offrent des fonctionnalités de détection de dérive plus spécifiques. Les fournisseurs de cloud offrent également des solutions comme AWS SageMaker Model Monitor et Google Cloud's Vertex AI Model Monitoring.

Stratégies d'atténuation

  • Réentraînement : La stratégie la plus simple consiste à réentraîner régulièrement le modèle sur des données récentes et actualisées qui reflètent l'environnement de production actuel. Des plateformes comme Ultralytics HUB facilitent les flux de travail de réentraînement et de déploiement.
  • Apprentissage en ligne : Cela implique de mettre à jour le modèle de manière incrémentielle à mesure que de nouvelles données arrivent. Il doit être utilisé avec prudence, car il peut être sensible aux données bruitées et peut entraîner une fluctuation imprévisible des performances du modèle.
  • Augmentation de données : L'utilisation proactive de techniques d'augmentation de données pendant la phase d'entraînement initiale peut rendre le modèle plus robuste à certains types de variations, telles que les changements d'éclairage, d'échelle ou d'orientation.
  • Adaptation de domaine : Emploi de techniques avancées qui tentent explicitement d'adapter un modèle entraîné sur une distribution de données source à une distribution de données cible différente mais apparentée. Il s'agit d'un domaine actif de la recherche en ML.

La gestion efficace de la dérive des données est essentielle pour garantir que les systèmes d'IA construits avec des frameworks comme PyTorch ou TensorFlow restent précis et offrent de la valeur tout au long de leur durée de vie opérationnelle. Vous pouvez en apprendre davantage sur les meilleures pratiques de maintenance des modèles dans notre blog.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers