Glossaire

Dérive des données

Découvre les types, les causes et les solutions de la dérive des données dans l'apprentissage automatique. Apprends à détecter et à atténuer la dérive des données pour des modèles d'IA robustes.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

La dérive des données est un défi courant dans l'apprentissage automatique (ML) où les propriétés statistiques des données d'entrée utilisées pour former un modèle changent au fil du temps par rapport aux données que le modèle rencontre lors de la production ou de l'inférence. Cette divergence signifie que les modèles que le modèle a appris pendant la formation peuvent ne plus représenter fidèlement l'environnement du monde réel, ce qui entraîne une baisse des performances et de la précision. Comprendre et gérer la dérive des données est essentiel pour maintenir la fiabilité des systèmes d'intelligence artificielle (IA), en particulier ceux qui fonctionnent dans des conditions dynamiques comme les véhicules autonomes ou les prévisions financières.

Pourquoi la dérive des données est-elle importante ?

Lorsque la dérive des données se produit, les modèles formés sur des données historiques deviennent moins efficaces pour faire des prédictions sur de nouvelles données non vues. Cette dégradation des performances peut entraîner une prise de décision erronée, une réduction de la valeur commerciale ou des défaillances critiques dans les applications sensibles. Par exemple, un modèle formé à la détection d'objets peut commencer à manquer des objets si les conditions d'éclairage ou les angles de la caméra changent considérablement par rapport aux données de formation. La surveillance continue du modèle est cruciale pour détecter rapidement la dérive et mettre en œuvre des actions correctives, telles que le réentraînement du modèle ou des mises à jour à l'aide de plateformes comme Ultralytics HUB, afin de préserver les performances. Ignorer la dérive des données peut rapidement rendre inefficaces même les modèles sophistiqués comme Ultralytics YOLO obsolètes.

Causes de la dérive des données

Plusieurs facteurs peuvent contribuer à la dérive des données, notamment :

  • Changements dans le monde réel : Les événements extérieurs, la saisonnalité (par exemple, les habitudes d'achat pendant les vacances) ou les changements dans le comportement des utilisateurs peuvent modifier la distribution des données.
  • Changements dans les sources de données : Les modifications apportées aux méthodes de collecte des données, à l'étalonnage des capteurs ou aux pipelines de traitement des données en amont peuvent introduire une dérive. Par exemple, un changement de matériel de caméra pour un système de vision par ordinateur.
  • Changements de caractéristiques : La pertinence ou la définition des caractéristiques d'entrée peut changer au fil du temps.
  • Problèmes de qualité des données : Les problèmes tels que les valeurs manquantes, les valeurs aberrantes ou les erreurs introduites lors de la collecte ou du traitement des données peuvent s'accumuler et provoquer des dérives. Le maintien de la qualité des données est primordial.
  • Modifications du modèle en amont : Si un modèle repose sur la sortie d'un autre modèle, les changements dans le modèle en amont peuvent entraîner une dérive des données pour le modèle en aval.

Dérive des données et concepts connexes

La dérive des données concerne principalement les changements dans la distribution des données d'entrée (la X variables dans la modélisation). Il est distinct des concepts apparentés :

  • Concept Drift : Il s'agit de changements dans la relation entre les données d'entrée et la variable cible (le Y variable). Par exemple, la définition du courrier indésirable peut changer au fil du temps, même si les caractéristiques du courrier électronique restent statistiquement similaires. La dérive des données se concentre sur les données d'entrée, tandis que la dérive des concepts se concentre sur les modèles ou les règles sous-jacents que le modèle tente de prédire. En savoir plus sur détection de la dérive du concept.
  • Détection des anomalies: Il s'agit d'identifier les points de données individuels qui sont significativement différents de la norme ou des modèles attendus. Si les anomalies peuvent parfois signaler une dérive, la dérive des données se réfère à un changement plus large et systémique dans la distribution globale des données, et pas seulement à des valeurs aberrantes isolées.

Il est essentiel de comprendre ces distinctions pour mettre en place des pratiques MLOps efficaces .

Applications dans le monde réel

La dérive des données a un impact sur les différents domaines dans lesquels les modèles de ML sont déployés :

  • Services financiers : Les modèles de détection des fraudes peuvent dériver à mesure que les fraudeurs développent de nouvelles tactiques. Les modèles de notation de crédit peuvent dériver en raison des changements de conditions économiques affectant le comportement des emprunteurs. En savoir plus sur les modèles de vision par ordinateur dans la finance.
  • Commerce de détail et commerce électronique : Les systèmes de recommandation peuvent dériver en raison de l'évolution des tendances de consommation, de la saisonnalité ou des événements promotionnels. Les modèles de gestion des stocks peuvent dériver si la dynamique de la chaîne d'approvisionnement ou les modèles de demande des clients changent.
  • Santé : Les modèles d'analyse d'images médicales, comme ceux utilisés pour la détection des tumeurs, peuvent dériver si de nouveaux équipements ou protocoles d'imagerie sont introduits, ce qui modifie les caractéristiques de l'image par rapport à l'ensemble de données d'entraînement d'origine provenant de plateformes comme Imagenet.
  • Fabrication : Les modèles de maintenance prédictive pourraient dériver si l'équipement subit une usure différente de celle prévue, ou si les conditions d'exploitation changent. Explore l'IA dans la fabrication.

Détecter et atténuer la dérive des données

La détection et le traitement de la dérive des données font appel à plusieurs techniques :

  • Surveillance des performances : Le suivi des métriques clés du modèle comme la précision, le rappel et le score F1 au fil du temps peut indiquer une dégradation des performances potentiellement causée par la dérive. Des outils comme TensorBoard peuvent aider à visualiser ces mesures.
  • Suivi statistique : Application de tests statistiques pour comparer la distribution des données entrantes avec les données de formation. Les méthodes courantes comprennent le test de Kolmogorov-Smirnov, l'indice de stabilité de la population (ISP) ou les tests du chi carré.
  • Outils de surveillance : Utilisation de plateformes et d'outils d'observabilité spécialisés comme Prometheus, Grafana, Evidently AI et NannyML conçus pour surveiller les modèles ML en production. Ultralytics HUB propose également des fonctionnalités de surveillance des modèles formés et déployés par le biais de sa plateforme.
  • Stratégies d'atténuation :
    • Réentraînement : Recycler régulièrement le modèle sur des données récentes. Ultralytics HUB facilite les flux de travail de recyclage.
    • Apprentissage en ligne : Mise à jour du modèle de façon incrémentale à mesure que de nouvelles données arrivent (à utiliser avec précaution, car il peut être sensible au bruit).
    • Augmentation des données: Utilisation de techniques pendant la formation pour rendre le modèle plus robuste aux variations des données d'entrée.
    • Adaptation au domaine : Employer des techniques qui adaptent explicitement le modèle à la nouvelle distribution des données.
    • Sélection de modèles : Choisir des modèles intrinsèquement plus robustes aux changements de données. Explore les conseils de formation de modèles pour une formation robuste.

Gérer efficacement la dérive des données est un processus continu vital pour garantir que les systèmes d'IA construits avec des frameworks tels que PyTorch ou TensorFlow restent fiables et apportent de la valeur tout au long de leur durée de vie opérationnelle.

Tout lire