Glossar

Modellüberwachung

Erfahre, wie wichtig die Modellüberwachung ist, um die KI-Genauigkeit zu gewährleisten, Datenabweichungen zu erkennen und die Zuverlässigkeit in dynamischen realen Umgebungen zu erhalten.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Die Modellüberwachung ist der kontinuierliche Prozess der Verfolgung und Bewertung der Leistung von Machine-Learning-Modellen (ML), sobald sie in der Produktion eingesetzt werden. Dabei werden wichtige Kennzahlen zur Modellgenauigkeit, zum Betriebszustand und zu den Dateneigenschaften beobachtet, um sicherzustellen, dass sich das Modell im Laufe der Zeit wie erwartet verhält. Diese Praxis ist ein wichtiger Teil des Lebenszyklus von Machine Learning Operations (MLOps) und stellt sicher, dass die eingesetzten Systeme der Künstlichen Intelligenz (KI) in realen Umgebungen zuverlässig, effektiv und vertrauenswürdig bleiben. Ohne Überwachung kann die Leistung eines Modells unbemerkt nachlassen, was zu schlechten Vorhersagen und negativen Geschäftsergebnissen führt.

Warum ist die Modellüberwachung wichtig?

ML-Modelle werden auf historischen Daten trainiert, aber die reale Welt ist dynamisch. Änderungen in den Datenmustern, im Nutzerverhalten oder in der Umgebung können dazu führen, dass die Leistung eines Modells nach dem Einsatz abnimmt. Wichtige Gründe für die Überwachung sind unter anderem:

  • Erkennen von Leistungseinbußen: Modelle können mit der Zeit ungenauer werden. Die Überwachung hilft dabei, einen Rückgang von Leistungskennzahlen wie Präzision, Recall oder F1-Score zu erkennen. In unserem Leitfaden erfährst du mehr über YOLO .
  • Erkennen von Datendrift: Die statistischen Eigenschaften der Eingabedaten können sich ändern, ein Phänomen, das als Datendrift bekannt ist. Das kann passieren, wenn sich die Daten, die das Modell in der Produktion sieht, erheblich von den Trainingsdaten unterscheiden. Die Überwachung der Eingangsmerkmale hilft, solche Verschiebungen zu erkennen.
  • Erkennen der Konzeptabweichung: Die Beziehung zwischen den Eingangsmerkmalen und der Zielvariablen kann sich im Laufe der Zeit ändern (Konzeptdrift). Zum Beispiel können sich die Kundenpräferenzen ändern, sodass alte Vorhersagemuster überholt sind. Die Konzeptabweichung erfordert ein erneutes Training oder eine Anpassung des Modells.
  • Sicherstellung des Betriebszustands: Die Überwachung verfolgt Betriebskennzahlen wie Inferenzlatenz, Durchsatz und Fehlerraten, um sicherzustellen, dass die Model-Serving-Infrastruktur(Model-Serving) reibungslos funktioniert.
  • Aufrechterhaltung von Fairness und Ethik: Monitoring kann dabei helfen, Verzerrungen in der KI zu erkennen und abzuschwächen, indem es die Leistung verschiedener demografischer Gruppen oder Datensegmente verfolgt und so die KI-Ethik fördert.

Welche Aspekte werden überwacht?

Eine wirksame Modellüberwachung umfasst in der Regel die Verfolgung mehrerer Kategorien von Metriken:

  • Vorhersageleistung: Metriken wie Genauigkeit, mittlere durchschnittliche Präzision (mAP), AUC und Fehlerraten, die oft mit den bei der Validierung festgelegten Benchmarks verglichen werden.
  • Datenqualität und -integrität: Verfolgung fehlender Werte, falscher Datentypen und Bereichsverletzungen in den Eingabedaten.
  • Drift der Eingabedaten: Statistische Maße (z. B. Populationsstabilitätsindex, Kolmogorov-Smirnov-Test), um die Verteilung der Inputmerkmale der Produktion mit der Verteilung der Trainingsdaten zu vergleichen.
  • Vorhersage/Output-Drift: Überwachung der Verteilung der Modellvorhersagen, um signifikante Verschiebungen zu erkennen.
  • Operative Metriken: Metriken auf Systemebene wie CPU/GPU Auslastung, Speichernutzung, Anfragelatenz und Durchsatz. Plattformen wie Prometheus werden dafür oft verwendet.
  • Messgrößen für Fairness und Verzerrungen: Bewertung von Ungleichheiten in der Modellleistung bei sensiblen Merkmalen (z. B. Alter, Geschlecht, ethnische Zugehörigkeit) anhand von Kennzahlen wie demografische Parität oder ausgeglichene Quoten.

Modellüberwachung vs. verwandte Konzepte

Es ist wichtig, die Modellüberwachung von ähnlichen Begriffen zu unterscheiden:

  • Beobachtbarkeit: Während sich die Überwachung darauf konzentriert, vordefinierte Metriken zu verfolgen, um bekannte Fehlermodi zu bewerten, bietet die Beobachtbarkeit die Werkzeuge (Protokolle, Metriken, Traces), um unbekannte Systemzustände und Verhaltensweisen zu erforschen und zu verstehen. Die Beobachtungsfähigkeit ermöglicht eine tiefere Untersuchung, wenn die Überwachung eine Anomalie entdeckt.
  • MLOps: MLOps ist ein umfassenderes Paket von Praktiken, das den gesamten ML-Lebenszyklus abdeckt, einschließlich Datenmanagement, Modellschulung, Bereitstellung, Governance und Überwachung. Die Modellüberwachung ist eine wichtige Komponente innerhalb des MLOps-Rahmens und konzentriert sich insbesondere auf den Zustand des Modells nach der Bereitstellung.
  • Modellbewertung: Die Bewertung erfolgt in der Regel vor dem Einsatz anhand von statischen Validierungsdaten oder Testdaten, um die Qualität eines Modells zu beurteilen. Die Überwachung ist ein kontinuierlicher Prozess, der nach dem Einsatz mit Live-Produktionsdaten durchgeführt wird. Hier findest du Informationen zur Modellbewertung und Feinabstimmung.

Anwendungen in der realen Welt

  1. Empfehlungssysteme im E-Commerce: Eine E-Commerce-Plattform verwendet ein ML-Modell für Produktempfehlungen(Empfehlungssystem). Die Modellüberwachung verfolgt die Klickraten (CTR) und die Konversionsraten für empfohlene Artikel. Wenn die Überwachung einen plötzlichen Rückgang der CTR (Leistungsverschlechterung) oder eine Verschiebung bei den gekauften Produkttypen (Konzeptabweichung aufgrund eines neuen Trends) feststellt, werden Warnmeldungen ausgelöst. Dies führt zu einer Untersuchung und möglicherweise zu einem erneuten Training des Modells mit neueren Interaktionsdaten. Amazon Personalize enthält Funktionen zur Überwachung der Wirksamkeit von Empfehlungen.
  2. Autonome Fahrzeugwahrnehmung: Selbstfahrende Autos verlassen sich stark auf Computer-Vision-Modelle wie Ultralytics YOLO zur Objekterkennung. Das Modell überwacht kontinuierlich die ErkennungsgenauigkeitYOLO ) und die Konfidenzwerte für Objekte wie Fußgänger, Radfahrer und andere Fahrzeuge. Außerdem werden die Eigenschaften der Eingabedaten (z. B. Bildhelligkeit, Wetterbedingungen) überwacht, um eine Abweichung zu erkennen. Wenn die Leistung des Modells unter bestimmten Bedingungen (z. B. bei starkem Regen oder schlechten Lichtverhältnissen) deutlich nachlässt, kann das System auf einen sichereren Betriebsmodus umschalten oder darauf hinweisen, dass das Modell auf der Grundlage vielfältigerer Daten aktualisiert werden muss(Datenerweiterung). Unternehmen wie Waymo investieren viel in die Überwachung ihrer Wahrnehmungssysteme.

Tools und Umsetzung

Für die Überwachung von Modellen werden oft spezielle Tools und Plattformen eingesetzt. Die Optionen reichen von Open-Source-Bibliotheken wie Evidently AI und NannyML über verwaltete Dienste von Cloud-Anbietern(AWS SageMaker Model Monitor, Google Vertex AI Model Monitoring, Azure Machine Learning Data Drift Detection) bis zu speziellen MLOps-Plattformen wie Arize AI oder WhyLabs. Plattformen wie Ultralytics HUB bieten eine Infrastruktur, die den Einsatz und die Verwaltung von Modellen unterstützt und mit Überwachungslösungen integriert wird, um den MLOps-Zyklus zu vervollständigen. Effektive Modellwartungsstrategien beruhen in hohem Maße auf einer robusten Überwachung.

Alles lesen