Glossar

Modell-Überwachung

Erfahren Sie, wie wichtig die Modellüberwachung ist, um die KI-Genauigkeit zu gewährleisten, Datenabweichungen zu erkennen und die Zuverlässigkeit in dynamischen realen Umgebungen zu erhalten.

Modellüberwachung ist der kontinuierliche Prozess der Verfolgung und Bewertung der Leistung von Modellen des maschinellen Lernens (ML), sobald sie in der Produktion eingesetzt werden. Dazu gehört die Beobachtung wichtiger Metriken in Bezug auf die Modellgenauigkeit, den Betriebszustand und die Datenmerkmale, um sicherzustellen, dass sich das Modell im Laufe der Zeit wie erwartet verhält. Diese Praxis ist ein entscheidender Teil des Lebenszyklus von Machine Learning Operations (MLOps) und stellt sicher, dass eingesetzte Systeme der künstlichen Intelligenz (KI) in realen Umgebungen zuverlässig, effektiv und vertrauenswürdig bleiben. Ohne Überwachung kann die Modellleistung unbemerkt abnehmen, was zu schlechten Vorhersagen und negativen Geschäftsergebnissen führt.

Warum ist die Modellüberwachung wichtig?

ML-Modelle werden auf historischen Daten trainiert, aber die reale Welt ist dynamisch. Änderungen in den Datenmustern, im Benutzerverhalten oder in der Umgebung können dazu führen, dass die Leistung eines Modells nach der Bereitstellung abnimmt. Zu den wichtigsten Gründen für die Überwachung gehören:

  • Erkennen von Leistungsverschlechterungen: Modelle können mit der Zeit ungenauer werden. Die Überwachung hilft bei der Erkennung von Rückgängen bei Leistungskennzahlen wie Präzision, Rückruf oder F1-Score. In unserem Leitfaden erfahren Sie mehr über YOLO-Leistungsmetriken.
  • Erkennen von Datendrift: Die statistischen Eigenschaften der Eingabedaten können sich ändern, ein Phänomen, das als Datendrift bekannt ist. Dies kann passieren, wenn sich die Daten, die das Modell in der Produktion sieht, erheblich von den Trainingsdaten unterscheiden.
  • Erkennen der Konzeptabweichung: Die Beziehung zwischen Eingangsmerkmalen und der Zielvariablen kann sich im Laufe der Zeit ändern. Beispielsweise können sich die Kundenpräferenzen ändern, so dass alte Vorhersagemuster obsolet werden. Dies wird als Konzeptdrift bezeichnet und erfordert häufig eine erneute Modellschulung.
  • Sicherstellung des Betriebszustands: Die Überwachung verfolgt Betriebskennzahlen wie Inferenzlatenz, Durchsatz und Fehlerraten, um sicherzustellen, dass die Infrastruktur zur Modellbereitstellung reibungslos funktioniert.
  • Wahrung von Fairness und Ethik: Die Überwachung kann dazu beitragen, Verzerrungen in der KI zu erkennen und abzuschwächen, indem die Leistung verschiedener demografischer Gruppen verfolgt wird, was die Ethik der KI fördert.

Welche Aspekte werden überwacht?

Eine wirksame Modellüberwachung umfasst in der Regel die Verfolgung mehrerer Kategorien von Metriken:

  • Vorhersageleistung: Metriken wie Genauigkeit, mittlere durchschnittliche Präzision (mAP), AUC und Fehlerquoten, die häufig mit den bei der Validierung festgelegten Benchmarks verglichen werden.
  • Datenqualität und -integrität: Aufspüren fehlender Werte, falscher Datentypen und Bereichsverletzungen in Eingabedaten.
  • Drift der Eingabedaten: Statistische Maße (z. B. Populationsstabilitätsindex, Kolmogorov-Smirnov-Test), um die Verteilung der Produktionsinputmerkmale mit der Verteilung der Trainingsdaten zu vergleichen.
  • Vorhersage-/Ausgangsdrift: Überwachung der Verteilung von Modellvorhersagen, um signifikante Verschiebungen im Laufe der Zeit zu erkennen.
  • Betriebliche Metriken: Metriken auf Systemebene wie CPU/GPU-Auslastung, Speichernutzung, Anfragelatenz und Durchsatz. Hierfür werden häufig Plattformen wie Prometheus verwendet.
  • Metriken für Fairness und Verzerrungen: Bewertung von Modellleistungsunterschieden bei sensiblen Merkmalen (z. B. Alter, Geschlecht) anhand von Metriken wie demografische Parität oder ausgeglichene Quoten.

Modellüberwachung vs. verwandte Konzepte

Es ist wichtig, die Modellüberwachung von ähnlichen Begriffen zu unterscheiden:

  • Beobachtbarkeit: Während sich die Überwachung auf die Verfolgung vordefinierter Metriken zur Bewertung bekannter Fehlermodi konzentriert, stellt die Beobachtbarkeit die Werkzeuge (Protokolle, Metriken, Traces) zur Verfügung, um unbekannte Systemzustände zu erkunden und zu verstehen. Die Beobachtungsfähigkeit ermöglicht eine tiefere Untersuchung, wenn die Überwachung eine Anomalie entdeckt.
  • MLOps: MLOps ist ein umfassenderes Paket von Verfahren, das den gesamten ML-Lebenszyklus abdeckt. Die Modellüberwachung ist eine wichtige Komponente innerhalb des MLOps-Rahmens und konzentriert sich speziell auf den Zustand des Modells nach der Bereitstellung.
  • Modellbewertung: Die Bewertung erfolgt in der Regel vor der Bereitstellung anhand statischer Validierungsdaten oder Testdaten, um die Qualität eines Modells zu beurteilen. Die Überwachung ist ein kontinuierlicher Prozess, der nach der Bereitstellung anhand von Live-Produktionsdaten durchgeführt wird. Einblicke in die Modellevaluierung und Feinabstimmung finden Sie hier.

Anwendungen in der realen Welt

  1. Empfehlungssysteme für den elektronischen Handel: Eine E-Commerce-Plattform verwendet ein ML-Modell für ihr Empfehlungssystem. Die Modellüberwachung verfolgt die Klickraten (CTR) und die Konversionsraten. Wenn die Überwachung einen plötzlichen Rückgang der CTR (Leistungsverschlechterung) oder eine Verschiebung bei den gekauften Produkttypen (Konzeptdrift) feststellt, können Warnmeldungen eine Untersuchung und möglicherweise eine Modellumschulung auslösen. Dienste wie Amazon Personalize enthalten Funktionen zur Überwachung der Wirksamkeit von Empfehlungen.
  2. Autonome Fahrzeugwahrnehmung: Selbstfahrende Autos verlassen sich bei der Objekterkennung auf Computer-Vision-Modelle wie Ultralytics YOLO. Die Modellüberwachung verfolgt kontinuierlich die Erkennungsgenauigkeit und die Vertrauenswerte für Objekte wie Fußgänger und andere Fahrzeuge. Außerdem wird die Datenabweichung in den eingegebenen Bildern überwacht (z. B. Änderungen der Helligkeit oder des Wetters). Wenn sich die Leistung unter bestimmten Bedingungen wie starkem Regen verschlechtert, kann das System die Notwendigkeit von Modellaktualisierungen anzeigen, die mit vielfältigeren Daten trainiert wurden, die möglicherweise durch Datenerweiterung erstellt wurden. Unternehmen wie Waymo investieren viel in die Überwachung ihrer Wahrnehmungssysteme.

Werkzeuge und Umsetzung

Die Implementierung der Modellüberwachung erfordert den Einsatz spezialisierter Tools und Plattformen. Die Optionen reichen von Open-Source-Bibliotheken wie Evidently AI und NannyML bis zu verwalteten Diensten von Cloud-Anbietern wie AWS SageMaker Model Monitor, Google Vertex AI Model Monitoring und Azure Machine Learning. Dedizierte MLOps-Plattformen wie Arize AI oder WhyLabs bieten ebenfalls umfangreiche Überwachungsfunktionen. Plattformen wie Ultralytics HUB unterstützen die Bereitstellung und Verwaltung von Modellen und lassen sich mit solchen Überwachungslösungen integrieren, um den MLOps-Zyklus zu vervollständigen. Effektive Modellwartungsstrategien sind in hohem Maße auf eine robuste Überwachung angewiesen.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert