Schalten Sie ein zu YOLO Vision 2025!
25. September 2025
10:00 — 18:00 Uhr BST
Hybride Veranstaltung
Yolo Vision 2024
Glossar

Data Drift

Entdecken Sie die Arten, Ursachen und Lösungen für Data Drift im maschinellen Lernen. Erfahren Sie, wie Sie Data Drift erkennen und für robuste KI-Modelle abschwächen können.

Data Drift ist eine häufige Herausforderung im Machine Learning (ML), die auftritt, wenn sich die statistischen Eigenschaften der Daten, denen ein Modell in der Produktion begegnet, im Laufe der Zeit im Vergleich zu den Trainingsdaten, auf denen es aufgebaut wurde, verändern. Diese Verschiebung bedeutet, dass das Modell mit Daten arbeitet, auf die es nicht vorbereitet war, was zu einer stillen, aber signifikanten Verschlechterung seiner Vorhersageleistung führen kann. Das effektive Management von Data Drift ist eine kritische Komponente des MLOps-Lebenszyklus und stellt sicher, dass künstliche Intelligenz (KI)-Systeme nach dem Model Deployment zuverlässig bleiben. Ohne proaktives Model Monitoring kann dieses Problem unentdeckt bleiben, was zu schlechten Entscheidungen und negativen Geschäftsergebnissen führt.

Data Drift vs. Concept Drift

Es ist wichtig, Data Drift von einem verwandten Problem, dem Concept Drift, zu unterscheiden. Obwohl beide die Modellleistung beeinträchtigen können, sind ihre Ursachen unterschiedlich.

  • Data Drift: Auch bekannt als Feature oder Covariate Drift. Dies tritt auf, wenn sich die Verteilung der Eingabedaten ändert, die zugrunde liegende Beziehung zwischen Eingaben und Ausgaben jedoch konstant bleibt. Beispielsweise kann ein Computer Vision-Modell, das mit Bildern von einer bestimmten Kamera trainiert wurde, bei Bildern von einer neuen Kamera mit anderen Sensoreigenschaften eine schlechte Leistung erbringen. Die Definition der erkannten Objekte ist dieselbe, aber die Eigenschaften der Eingabedaten haben sich verschoben.
  • Concept Drift: Dies tritt auf, wenn sich die statistischen Eigenschaften der Zielvariablen im Laufe der Zeit ändern. Die grundlegende Beziehung zwischen den Eingabefeatures und der Ausgabevariablen wird verändert. In einem System zur Erkennung von Finanzbetrug entwickeln sich beispielsweise die von Betrügern angewandten Taktiken weiter, wodurch sich ändert, was eine "betrügerische" Transaktion ausmacht. Eine detaillierte Untersuchung von Concept Drift findet sich in der wissenschaftlichen Literatur.

Beispiele aus der Praxis

  1. Einzelhandels-Bestandsverwaltung: Ein KI-gestütztes Einzelhandelssystem verwendet Kameraaufnahmen und ein Objekterkennungsmodell wie Ultralytics YOLO11, um den Regalbestand zu überwachen. Das Modell wird auf einen bestimmten Satz von Produktverpackungen trainiert. Wenn ein Lieferant das Verpackungsdesign ändert oder das Geschäft seine Beleuchtung aufrüstet, führt dies zu einem Data Drift. Die neuen visuellen Daten unterscheiden sich vom ursprünglichen Trainingsdatensatz, was dazu führen kann, dass das Modell Produkte nicht mehr erkennt, was zu ungenauen Lagerbestandszahlen führt.
  2. Autonome Fahrzeuge: Selbstfahrende Autos verwenden Modelle, die mit riesigen Mengen an Sensordaten von bestimmten geografischen Standorten und Wetterbedingungen trainiert wurden. Wenn ein Auto in einer neuen Stadt eingesetzt wird oder zum ersten Mal auf ein seltenes Wetterereignis wie Schnee trifft, ist sein Wahrnehmungssystem mit einer Datenabweichung konfrontiert. Die Verteilung der Eingaben (z. B. Straßenmarkierungen, Verkehrsschilder, Fußgängerverhalten) unterscheidet sich erheblich von seiner Trainingserfahrung, was die Sicherheit beeinträchtigen und sofortige Aufmerksamkeit erfordern kann. Waymo und andere Unternehmen für autonomes Fahren investieren stark in die Erkennung und Eindämmung dieser Abweichung.

Erkennung und Abschwächung von Data Drift

Das Erkennen und Beheben von Data Drift ist ein fortlaufender Prozess, der eine Kombination aus Überwachungs- und Wartungsstrategien beinhaltet.

Erkennungsmethoden

  • Performance-Überwachung: Die Verfolgung wichtiger Modellmetriken wie Präzision, Recall und F1-Score im Zeitverlauf kann auf eine Leistungsverschlechterung hindeuten, die möglicherweise durch Drift verursacht wird. Tools wie TensorBoard können helfen, diese Metriken zu visualisieren.
  • Statistische Überwachung: Anwendung statistischer Tests, um die Verteilung der eingehenden Daten mit den Trainingsdaten zu vergleichen. Gängige Methoden sind der Kolmogorov-Smirnov-Test, Population Stability Index (PSI) oder Chi-Quadrat-Tests.
  • Überwachungstools: Verwendung spezialisierter Observability-Plattformen, die für die Überwachung von ML-Modellen in der Produktion entwickelt wurden. Open-Source-Optionen umfassen Prometheus und Grafana, während dedizierte ML-Tools wie Evidently AI und NannyML spezifischere Funktionen zur Erkennung von Abweichungen bieten. Cloud-Anbieter bieten auch Lösungen wie AWS SageMaker Model Monitor und Google Cloud's Vertex AI Model Monitoring an.

Strategien zur Abschwächung

  • Retraining: Die einfachste Strategie ist es, das Modell regelmäßig mit frischen, aktuellen Daten zu trainieren, die die aktuelle Produktionsumgebung widerspiegeln. Plattformen wie Ultralytics HUB erleichtern einfache Retraining- und Deployment-Workflows.
  • Online-Lernen: Dies beinhaltet die inkrementelle Aktualisierung des Modells, wenn neue Daten eintreffen. Es sollte mit Vorsicht verwendet werden, da es empfindlich auf verrauschte Daten reagieren und die Leistung des Modells unvorhersehbar schwanken lassen kann.
  • Data Augmentation: Die proaktive Verwendung von Data-Augmentation-Techniken während der anfänglichen Trainingsphase kann das Modell robuster gegenüber bestimmten Arten von Variationen machen, wie z. B. Änderungen in Beleuchtung, Maßstab oder Ausrichtung.
  • Domänenanpassung: Anwendung fortschrittlicher Techniken, die explizit versuchen, ein Modell, das auf einer Quelldatenverteilung trainiert wurde, an eine andere, aber verwandte Zieldatenverteilung anzupassen. Dies ist ein aktives Gebiet der ML-Forschung.

Die effektive Steuerung von Data Drift ist entscheidend, um sicherzustellen, dass KI-Systeme, die mit Frameworks wie PyTorch oder TensorFlow erstellt wurden, während ihrer gesamten Betriebsdauer präzise bleiben und einen Mehrwert bieten. In unserem Blog erfahren Sie mehr über Best Practices für die Modellwartung.

Treten Sie der Ultralytics-Community bei

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert