Glossar

Datenabweichung

Entdecken Sie die Arten, Ursachen und Lösungen für Datendrift beim maschinellen Lernen. Erfahren Sie, wie Sie Datendrift für robuste KI-Modelle erkennen und abschwächen können.

Die Datendrift ist eine häufige Herausforderung beim maschinellen Lernen (ML), bei der sich die statistischen Eigenschaften der Eingabedaten, die zum Trainieren eines Modells verwendet werden, im Laufe der Zeit im Vergleich zu den Daten ändern, auf die das Modell während der Produktion oder Inferenz trifft. Diese Divergenz bedeutet, dass die Muster, die das Modell während des Trainings gelernt hat, möglicherweise nicht mehr genau die reale Umgebung repräsentieren, was zu einem Rückgang der Leistung und Genauigkeit führt. Das Verständnis und die Bewältigung der Datendrift sind von entscheidender Bedeutung für die Aufrechterhaltung der Zuverlässigkeit von Systemen der künstlichen Intelligenz (KI), insbesondere von solchen, die unter dynamischen Bedingungen arbeiten, wie autonome Fahrzeuge oder Finanzprognosen.

Warum Datenabweichung wichtig ist

Wenn es zu einer Datenabweichung kommt, sind Modelle, die auf der Grundlage historischer Daten trainiert wurden, weniger effektiv bei der Vorhersage neuer, nicht gesehener Daten. Diese Leistungsverschlechterung kann zu fehlerhaften Entscheidungen, geringerem Geschäftswert oder kritischen Ausfällen in sensiblen Anwendungen führen. Ein Modell, das für die Objekterkennung trainiert wurde, könnte beispielsweise beginnen, Objekte zu übersehen, wenn sich die Lichtverhältnisse oder Kamerawinkel gegenüber den Trainingsdaten erheblich ändern. Eine kontinuierliche Modellüberwachung ist von entscheidender Bedeutung, um eine Abweichung frühzeitig zu erkennen und korrigierende Maßnahmen zu ergreifen, wie z. B. eine Umschulung des Modells oder Aktualisierungen mit Plattformen wie Ultralytics HUB, um die Leistung zu erhalten. Das Ignorieren der Datendrift kann selbst ausgefeilte Modelle wie Ultralytics YOLO schnell überflüssig machen.

Ursachen der Datendrift

Mehrere Faktoren können zur Datenabweichung beitragen, darunter:

  • Veränderungen in der realen Welt: Externe Ereignisse, saisonale Schwankungen (z. B. Weihnachtseinkäufe) oder Veränderungen im Nutzerverhalten können die Datenverteilung verändern.
  • Änderungen der Datenquelle: Änderungen an Datenerfassungsmethoden, Sensorkalibrierungen oder vorgelagerten Datenverarbeitungspipelines können eine Drift verursachen. Zum Beispiel eine Änderung der Kamera-Hardware für ein Computer-Vision-System.
  • Merkmalsänderungen: Die Relevanz oder Definition von Eingabemerkmalen kann sich im Laufe der Zeit ändern.
  • Probleme mit der Datenqualität: Probleme wie fehlende Werte, Ausreißer oder Fehler, die bei der Datenerfassung oder -verarbeitung auftreten, können sich kumulieren und zu einer Abweichung führen. Die Aufrechterhaltung der Datenqualität ist von entscheidender Bedeutung.
  • Vorgelagerte Modelländerungen: Wenn ein Modell von der Ausgabe eines anderen Modells abhängt, können Änderungen im vorgelagerten Modell eine Datendrift für das nachgelagerte Modell verursachen.

Datendrift vs. verwandte Konzepte

Bei der Datendrift geht es in erster Linie um Veränderungen in der Verteilung der Eingabedaten (die X Variablen in der Modellierung). Es unterscheidet sich von verwandten Konzepten:

  • Konzept Drift: Dies bezieht sich auf Veränderungen in der Beziehung zwischen die Eingangsdaten und die Zielvariable (die Y Variable). So kann sich beispielsweise die Definition von Spam-E-Mails im Laufe der Zeit ändern, auch wenn die E-Mail-Merkmale selbst statistisch gesehen ähnlich bleiben. Die Datendrift konzentriert sich auf die Eingaben, während sich die Konzeptdrift auf die zugrunde liegenden Muster oder Regeln konzentriert, die das Modell vorherzusagen versucht. Erfahren Sie mehr über Erkennung von Konzeptabweichungen.
  • Erkennung von Anomalien: Hierbei geht es um die Identifizierung einzelner Datenpunkte, die erheblich von der Norm oder den erwarteten Mustern abweichen. Während Anomalien manchmal eine Drift signalisieren können, bezieht sich die Datendrift auf eine breitere, systemische Verschiebung in der gesamten Datenverteilung, nicht nur auf einzelne Ausreißer.

Das Verständnis dieser Unterscheidungen ist für eine effektive MLOps-Praxis entscheidend.

Anwendungen in der realen Welt

Die Datendrift wirkt sich auf verschiedene Bereiche aus, in denen ML-Modelle eingesetzt werden:

  • Finanzdienstleistungen: Betrugserkennungsmodelle können abdriften, wenn Betrüger neue Taktiken entwickeln. Kreditscoring-Modelle können aufgrund von Änderungen der wirtschaftlichen Bedingungen, die das Verhalten von Kreditnehmern beeinflussen, abweichen. Lesen Sie mehr über Computer-Vision-Modelle im Finanzwesen.
  • Einzelhandel und E-Commerce: Empfehlungssysteme können aufgrund wechselnder Verbrauchertrends, saisonaler Schwankungen oder Werbeaktionen abweichen. Bestandsverwaltungsmodelle können sich ändern, wenn sich die Dynamik der Lieferkette oder die Nachfragemuster der Kunden ändern.
  • Gesundheitswesen: Modelle für die medizinische Bildanalyse, wie z. B. für die Tumorerkennung, können sich verändern, wenn neue Bildgebungsgeräte oder -protokolle eingeführt werden, wodurch sich die Bildeigenschaften im Vergleich zum ursprünglichen Trainingsdatensatz, der von Plattformen wie Imagenet stammt, verändern.
  • Herstellung: Modelle für die vorausschauende Wartung können abweichen, wenn sich die Geräte anders als erwartet abnutzen oder wenn sich die Betriebsbedingungen ändern. Erforschen Sie KI in der Fertigung.

Erkennen und Abschwächen von Datendrift

Das Aufspüren und Beheben von Datendrift umfasst mehrere Techniken:

  • Leistungsüberwachung: Die Verfolgung wichtiger Modellmetriken wie Präzision, Recall und F1-Score im Laufe der Zeit kann eine Leistungsverschlechterung anzeigen, die möglicherweise durch Drift verursacht wird. Tools wie TensorBoard können helfen, diese Metriken zu visualisieren.
  • Statistische Überwachung: Anwendung von statistischen Tests, um die Verteilung der eingehenden Daten mit den Trainingsdaten zu vergleichen. Zu den gängigen Methoden gehören der Kolmogorov-Smirnov-Test, der Populationsstabilitätsindex (PSI) oder Chi-Quadrat-Tests.
  • Überwachungswerkzeuge: Verwendung von spezialisierten Beobachtungsplattformen und Tools wie Prometheus, Grafana, Evidently AI und NannyML, die für die Überwachung von ML-Modellen in der Produktion entwickelt wurden. Ultralytics HUB bietet auch Funktionen zur Überwachung von Modellen, die über die Plattform trainiert und bereitgestellt wurden.
  • Strategien zur Schadensbegrenzung:
    • Nachschulung: Regelmäßiges Neutrainieren des Modells anhand aktueller Daten. Ultralytics HUB ermöglicht einfache Umschulungsworkflows.
    • Online-Lernen: Inkrementelle Aktualisierung des Modells beim Eintreffen neuer Daten (mit Vorsicht zu genießen, da es empfindlich auf Rauschen reagieren kann).
    • Datenerweiterung: Anwendung von Techniken während des Trainings, um das Modell robuster gegenüber Variationen in den Eingabedaten zu machen.
    • Bereichsanpassung: Einsatz von Techniken, die das Modell explizit an die neue Datenverteilung anpassen.
    • Modellauswahl: Auswahl von Modellen, die von Natur aus robuster gegenüber Datenänderungen sind. Erkunden Sie Tipps zur Modellschulung für robustes Training.

Die effektive Verwaltung der Datendrift ist ein fortlaufender Prozess, der entscheidend dafür ist, dass KI-Systeme, die mit Frameworks wie PyTorch oder TensorFlow entwickelt wurden, zuverlässig bleiben und während ihrer gesamten Betriebsdauer einen Mehrwert bieten.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert