Dérive des données
Découvrez l'impact de la dérive des données sur la précision des modèles ML. Apprenez à detect à atténuer les changements à l'aide Ultralytics et de la Ultralytics pour des MLOps robustes.
La dérive des données désigne un phénomène observé dans le
machine learning (ML) où les propriétés statistiques
des données d'entrée observées dans un environnement de production changent au fil du temps par rapport aux
données d'entraînement initialement utilisées pour construire le modèle.
Lorsqu'un modèle est déployé, il fonctionne en partant du principe implicite que les données réelles qu'il rencontre seront
fondamentalement similaires aux données historiques à partir desquelles il a été entraîné. Si cette hypothèse est remise en cause en raison de l'évolution des
conditions environnementales ou des comportements des utilisateurs, la
précision et la fiabilité du modèle peuvent se dégrader considérablement, même
si le code et les paramètres du modèle restent inchangés. La détection et la gestion de la dérive des données sont des éléments essentiels des
opérations d'apprentissage automatique (MLOps), qui garantissent que les systèmes d'IA continuent à apporter de la valeur après le
déploiement du modèle.
Dérive des données vs. Dérive des concepts
Pour entretenir efficacement les systèmes d'IA, il est essentiel de distinguer la dérive des données d'un terme étroitement lié, la dérive des concepts
. Si les deux entraînent une baisse des performances, elles trouvent leur origine dans des changements différents de l'environnement.
-
Dérive des données (changement de covariables) : cela se produit lorsque la distribution des caractéristiques d'entrée change, mais que
la relation entre les entrées et la sortie cible reste stable. Par exemple, en
vision par ordinateur (CV), un modèle peut être entraîné
sur des images prises pendant la journée. Si la caméra commence à capturer des images au crépuscule, la distribution des entrées (éclairage,
ombres) a dérivé, mais la définition d'une « voiture » ou d'un « piéton » reste la même.
-
Dérive conceptuelle : elle se produit lorsque la relation statistique entre les caractéristiques d'entrée et la
variable cible change. En d'autres termes, la définition de la vérité terrain évolue. Par exemple, dans la
détection des fraudes financières, les
modèles qui constituent une activité frauduleuse changent souvent à mesure que les fraudeurs adaptent leurs tactiques, modifiant ainsi la frontière
entre les transactions sûres et frauduleuses.
Applications et exemples concrets
La dérive des données est un défi omniprésent dans tous les secteurs où
l'intelligence artificielle (IA) interagit
avec des environnements physiques dynamiques.
-
Systèmes autonomes : dans le domaine des
véhicules autonomes, les modèles de perception s'appuient
sur la détection d'objets pour naviguer en toute sécurité. Un modèle
entraîné principalement sur des données provenant des routes ensoleillées de Californie peut subir une dérive importante des données s'il est déployé dans une région où les
chutes de neige sont importantes. Les entrées visuelles (voies enneigées, panneaux masqués) diffèrent considérablement de l'ensemble de données d'entraînement, ce qui
peut compromettre les fonctions de sécurité telles que la
détection des voies.
-
Imagerie médicale :
Les systèmes d'analyse d'images médicales peuvent souffrir
de dérives lorsque les hôpitaux mettent à niveau leur matériel. Si un modèle a été entraîné sur des radiographies provenant d'un scanner spécifique
d'un fabricant donné, l'introduction d'une nouvelle machine avec des paramètres de résolution ou de contraste différents représente un changement dans la
distribution des données. Sans
maintenance du modèle, les
performances diagnostiques peuvent baisser.
Stratégies de détection et d'atténuation
Identifier rapidement les dérives permet d'éviter les « défaillances silencieuses », c'est-à-dire les cas où un modèle fait des prédictions fiables mais incorrectes.
Les équipes utilisent diverses stratégies pour repérer ces anomalies avant qu'elles n'aient un impact sur les résultats commerciaux.
Méthodes de détection
-
Tests statistiques : les ingénieurs utilisent souvent des méthodes telles que le
test de Kolmogorov-Smirnov
pour comparer mathématiquement la distribution des données de production entrantes par rapport à la base de référence de formation.
-
Surveillance des performances : le suivi en temps réel de mesures telles que la
précision et le
rappel peut servir d'indicateur pour la détection des dérives
. Une baisse soudaine du score de confiance moyen d'un
modèle YOLO26 indique souvent que le modèle a du mal à
traiter de nouveaux modèles de données.
-
Visualisation : des outils tels que
TensorBoard ou des plateformes spécialisées telles que
Grafana permettent aux équipes de visualiser des histogrammes de distribution des caractéristiques, ce qui facilite
la détection visuelle des changements.
Techniques d'atténuation
-
Réentraînement : la solution la plus robuste consiste souvent à réentraîner le modèle. Cela implique de collecter les
nouvelles données dérivées, de les annoter et de les combiner avec l'ensemble de données d'origine
. Ultralytics simplifie ce processus en fournissant des outils pour la
gestion des ensembles de données et la formation dans le cloud.
-
Augmentation des données : l'application d'une augmentation importante
des données pendant la formation initiale
(par exemple, modification de la luminosité, ajout de bruit ou rotation des images) peut rendre le modèle plus résistant aux changements environnementaux mineurs
.
-
Adaptation de domaine : les techniques d'
apprentissage par transfert permettent aux modèles de s'adapter à un
nouveau domaine cible en utilisant une plus petite quantité de données étiquetées, comblant ainsi le fossé entre l'environnement d'entraînement source
et la nouvelle réalité de production.
Vous pouvez mettre en œuvre une surveillance de base de la dérive en vérifiant la fiabilité des prédictions de votre modèle. Si la fiabilité moyenne
tombe systématiquement en dessous d'un seuil de confiance, cela peut déclencher une alerte pour la révision des données.
from ultralytics import YOLO
# Load the official YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on a new image from the production stream
results = model("https://ultralytics.com/images/bus.jpg")
# Monitor confidence scores; consistently low scores may signal data drift
for result in results:
for box in result.boxes:
print(f"Class: {box.cls}, Confidence: {box.conf.item():.2f}")
La gestion de la dérive des données n'est pas une opération ponctuelle, mais un processus continu tout au long du cycle de vie. Les fournisseurs de cloud proposent des services gérés
tels que AWS SageMaker Model Monitor ou
Google Vertex AI pour automatiser cette tâche. En surveillant de manière proactive
ces changements, les entreprises s'assurent que leurs modèles restent robustes, tout en maintenant des normes élevées en matière de
sécurité et d'efficacité opérationnelle de l'IA.