Dérive des données
Découvrez les types, les causes et les solutions de dérive des données dans l'apprentissage automatique. Apprenez à detect et à atténuer la dérive des données pour obtenir des modèles d'IA robustes.
La dérive des données est un phénomène
l'apprentissage automatique (ML) où les propriétés
statistiques des données d'entrée observées dans un environnement de production changent au fil du temps par rapport aux données d'entraînement utilisées à l'origine pour construire le modèle.
données d'entraînement utilisées à l'origine pour construire le modèle.
Lorsqu'un modèle est déployé, il repose sur l'hypothèse que les données futures ressembleront aux données historiques à partir desquelles il a été appris.
d'apprentissage. Si cette hypothèse n'est pas respectée en raison de l'évolution des conditions réelles, la précision et la fiabilité du modèle peuvent se dégrader de manière significative.
du modèle peuvent se dégrader de manière significative, même si le modèle lui-même reste inchangé.
même si le modèle lui-même reste inchangé. La détection et la gestion de la dérive des données est un aspect fondamental des opérations d'apprentissage automatique (MLOps).
des opérations d'apprentissage automatique (MLOps), en veillant à ce que les systèmes continuent à fonctionner de manière optimale après le déploiement du modèle.
le déploiement du modèle.
Dérive des données vs. Dérive des concepts
Pour maintenir efficacement les systèmes d'IA, il est essentiel de distinguer la dérive des données d'un terme étroitement lié, la dérive des concepts.
concept. Bien que ces deux phénomènes entraînent une baisse des performances, ils proviennent de sources différentes.
-
Dérive des données (déplacement des covariables) : Cela se produit lorsque la distribution des caractéristiques d'entrée change, mais que la relation fondamentale entre les entrées et la sortie cible reste la même.
mais que la relation fondamentale entre les entrées et la sortie cible reste la même. Par exemple, en
vision par ordinateur (CV), un modèle peut être entraîné sur des images prises à la lumière du jour.
sur des images prises à la lumière du jour. Si la caméra de production commence à envoyer des images de nuit, la distribution des données d'entrée a dérivé, bien que les objets détectés soient toujours les mêmes.
dérive, bien que les objets détectés n'aient pas changé de définition.
-
Dérive conceptuelle : Ce phénomène se produit lorsque la définition de la variable cible elle-même change. La relation entre les entrées et les sorties est modifiée.
La relation entre les entrées et les sorties est modifiée. Par exemple, dans un
système de détection des fraudes financières,
les méthodes utilisées par les fraudeurs évoluent avec le temps. Ce qui était considéré comme une transaction sûre hier peut être un modèle de fraude aujourd'hui.
de fraude aujourd'hui. Vous pouvez en savoir plus sur la
la dérive des concepts dans la recherche universitaire.
Applications et exemples concrets
La dérive des données affecte un large éventail d'industries où
l'intelligence artificielle (IA) est appliquée
à des environnements dynamiques.
-
Fabrication automatisée : Dans un contexte d
l 'IA dans la fabrication, un modèle de
modèle de détection d'objets pourrait être utilisé pour
défauts sur une chaîne de montage. Si l'usine installe un nouvel éclairage LED qui modifie la température de couleur des images capturées, la distribution des données d'entrée change.
images capturées, la distribution des données d'entrée se modifie. Le modèle, entraîné sur des images avec un éclairage plus ancien, risque de subir une dérive des données et de ne pas réussir à identifier correctement les défauts.
de données et ne parviendra pas à identifier correctement les défauts, ce qui nécessitera la maintenance du modèle.
maintenance du modèle.
-
Conduite autonome :
Les véhicules autonomes s'appuient fortement sur
modèles de perception formés sur de vastes ensembles de données. Si une voiture formée principalement sur les routes ensoleillées de Californie est déployée dans une région enneigée, les données visuelles (entrées) seront radicalement différentes de l'ensemble de formation.
dans une région enneigée, les données visuelles (entrées) seront radicalement différentes de l'ensemble de formation. Il s'agit d'une dérive importante des données, qui peut compromettre la sécurité.
données, ce qui peut compromettre des fonctions de sécurité telles que la
la détection des voies de circulation. Des entreprises comme Waymo surveillent en permanence ces changements pour garantir la sécurité des véhicules.
sécurité du véhicule.
Détecter et atténuer les dérives
L'identification précoce de la dérive des données permet d'éviter la "défaillance silencieuse", c'est-à-dire le fait qu'un modèle fasse des prédictions sûres mais incorrectes.
erronées.
Stratégies de détection
-
Tests statistiques : Les techniciens utilisent souvent des méthodes statistiques pour comparer la distribution des nouvelles données par rapport à la ligne de base de la formation.
nouvelles données par rapport à la ligne de base de la formation. Le
test de Kolmogorov-Smirnov
est un test non paramétrique couramment utilisé pour déterminer si deux ensembles de données diffèrent de manière significative.
-
Suivi des performances : Suivi de paramètres tels que
précision,
le rappel et
F1-score en temps réel peut signaler une dérive. Si ces mesures
chutent de manière inattendue, cela indique souvent que les données entrantes ne correspondent plus aux modèles appris par le modèle.
-
Outils de visualisation : Des plateformes comme
TensorBoard permettent aux équipes de visualiser les données
les distributions de données et les courbes de pertes afin de repérer les anomalies. Pour une surveillance plus complète, des outils d'observabilité
outils d'observabilité spécialisés tels que
Prometheus et Grafana sont largement adoptés dans l'industrie.
l'industrie.
Techniques d'atténuation
-
Réentraînement : La solution la plus directe consiste à réentraîner le modèle à l'aide d'un nouvel ensemble de données comprenant les données récentes et dérivées.
nouveau jeu de données qui inclut les données récentes et dérivées. Cela permet de mettre à jour les limites internes du modèle afin de refléter la réalité actuelle.
les limites internes du modèle afin de refléter la réalité actuelle.
-
Augmentation des données : Au cours de la phase de formation initiale, l'application de
robustes (comme la rotation, la gigue des couleurs et le bruit),
comme la rotation, l'instabilité des couleurs et le bruit) peut rendre le modèle plus résistant aux dérives mineures, telles que les changements d'éclairage ou les mouvements de caméra.
mouvements de caméra.
-
Adaptation au domaine : Il s'agit de techniques conçues pour adapter un modèle formé sur un domaine source afin qu'il soit
pour qu'il soit performant dans un domaine cible avec une distribution différente. Il s'agit d'un domaine actif de la recherche sur l'apprentissage par transfert.
recherche sur l 'apprentissage par transfert.
L'utilisation de la ultralytics vous pouvez facilement contrôler les scores de confiance pendant l'inférence. Une baisse soudaine ou progressive de la confiance moyenne pour une classe connue peut être un indicateur important de la dérive des données.
Une baisse soudaine ou progressive de la confiance moyenne pour une classe connue peut être un indicateur important de la dérive des données.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on a new image from the production stream
results = model("path/to/production_image.jpg")
# Inspect confidence scores; consistently low scores may indicate drift
for result in results:
for box in result.boxes:
print(f"Class: {box.cls}, Confidence: {box.conf.item():.2f}")
Importance dans le cycle de vie de l'IA
Le traitement de la dérive des données n'est pas une solution ponctuelle, mais un processus continu. Il permet de s'assurer que les modèles élaborés à l'aide de cadres
comme PyTorch ou
TensorFlow restent des atouts précieux plutôt que des
passifs. Les fournisseurs de cloud proposent des services gérés pour automatiser ce processus, tels que
AWS SageMaker Model Monitor et
Google Cloud Vertex AI, qui peuvent
alerter les ingénieurs lorsque les seuils de dérive sont dépassés. En gérant de manière proactive la dérive des données, les entreprises peuvent maintenir des normes élevées de sécurité de l'IA et d'efficacité opérationnelle.
de sécurité de l'IA et d'efficacité opérationnelle.