Observability (Beobachtbarkeit)
Entdecken Sie, wie die Beobachtbarkeit AI/ML-Systeme wie Ultralytics YOLO verbessert. Gewinnen Sie Einblicke, optimieren Sie die Leistung und gewährleisten Sie Zuverlässigkeit in realen Anwendungen.
Die Beobachtbarkeit ermöglicht es Ingenieurteams, die internen Zustände komplexer Systeme auf der Grundlage ihrer externen Ergebnisse aktiv zu debuggen und zu verstehen.
auf der Grundlage ihrer externen Ergebnisse. In den sich rasch entwickelnden Bereichen der
Künstliche Intelligenz (KI) und
Machine Learning (ML) ist dieses Konzept entscheidend
entscheidend, um über "Black Box"-Einsätze hinauszukommen. Während herkömmliche Softwaretests die Logik überprüfen können, arbeiten ML-Modelle
ML-Modelle arbeiten probabilistisch, so dass Systeme erforderlich sind, die es den Entwicklern ermöglichen, die Ursachen für
unerwarteten Vorhersagen, Leistungseinbußen oder Fehlern nach
Modellbereitstellung.
Observability vs. Monitoring
Obwohl diese Begriffe oft synonym verwendet werden, stehen sie für unterschiedliche Ansätze zur Systemzuverlässigkeit.
-
Die Überwachung konzentriert sich auf die "bekannten Unbekannten". Sie umfasst die Verfolgung vordefinierter Dashboards
und Warnungen für Metriken wie
Inferenzlatenz oder Fehlerraten. Überwachung
beantwortet die Frage: "Ist das System in Ordnung?"
-
Die Beobachtbarkeit befasst sich mit den "unbekannten Unbekannten". Sie liefert die notwendigen detaillierten Daten
um neue, unerwartete Fragen darüber zu stellen, warum ein bestimmter Fehler aufgetreten ist. Wie in dem
Google SRE Book beschrieben, ermöglicht ein beobachtbares System
ermöglicht es Ihnen, neue Verhaltensweisen zu verstehen, ohne neuen Code zu entwickeln. Es beantwortet die Frage: "Warum verhält sich das
System auf diese Weise verhält?"
Die drei Säulen der Observability
Um tiefe Einblicke zu erhalten, stützt sich die Beobachtungsfähigkeit auf drei Hauptarten von Telemetriedaten:
-
Protokolle: Dies sind mit einem Zeitstempel versehene, unveränderliche Aufzeichnungen diskreter Ereignisse. In einer
Computer Vision (CV) Pipeline kann ein Protokoll
die Abmessungen des Eingangsbildes oder
Konfiguration der Hyperparameter-Einstellung.
Eine strukturierte Protokollierung, oft im JSON-Format, erleichtert die
die Abfrage durch Datenanalysetools wie Splunk.
-
Metriken: Aggregierte numerische Daten, die im Laufe der Zeit gemessen werden, wie
Genauigkeit, Speicherverbrauch oder
GPU Auslastung. Systeme wie
Prometheus werden häufig verwendet, um diese Zeitreihendaten zu speichern, damit Teams
Trends zu visualisieren.
-
Verfolgen: Die Rückverfolgung verfolgt den Lebenszyklus einer Anfrage, während sie sich durch verschiedene Microservices bewegt.
Bei verteilten KI-Anwendungen können Tools, die mit OpenTelemetry kompatibel sind
den Pfad einer Anfrage abbilden und Engpässe in der
Inferenz-Engine oder Netzwerkverzögerungen.
Warum Beobachtbarkeit in der KI wichtig ist
Der Einsatz von Modellen in der realen Welt bringt Herausforderungen mit sich, die es in kontrollierten Trainingsumgebungen nicht gibt.
Die Beobachtbarkeit ist entscheidend für:
-
Erkennen von Datendrift: Im Laufe der Zeit können die Live-Daten von den
Trainingsdaten abweichen, ein Phänomen, das als
Datendrift. Observability-Tools visualisieren Eingabe
Verteilungen, um Ingenieure zu warnen, wenn eine Nachschulung erforderlich ist.
-
Gewährleistung der KI-Sicherheit: In Bereichen, in denen viel auf dem Spiel steht, ist das Verständnis von Modellentscheidungen entscheidend für die
KI-Sicherheit. Detaillierte Einblicke helfen bei der Prüfung von Entscheidungen, um
um sicherzustellen, dass sie mit Sicherheitsprotokollen und
Fairness in der KI.
-
Optimierung der Leistung: Durch die Analyse von detaillierten Spuren,
können MLOps-Teams redundante
redundante Berechnungen oder Ressourcenbeschränkungen erkennen und so Kosten und Geschwindigkeit optimieren.
-
Fehlersuche in "Black Boxes": Deep Learning-Modelle sind oft undurchsichtig. Plattformen zur Beobachtbarkeit
wie Honeycomb ermöglichen es Ingenieuren, hochdimensionale Daten zu zerschneiden und zu würfeln, um
um festzustellen, warum ein Modell in einem bestimmten Grenzfall versagt hat.
Anwendungsfälle in der Praxis
Die Beobachtbarkeit spielt eine entscheidende Rolle bei der Gewährleistung der Zuverlässigkeit moderner KI-Lösungen in allen Branchen.
-
Autonome Fahrzeuge: Bei der Entwicklung von
autonomen Fahrzeugen erlaubt die Beobachtbarkeit
den Ingenieuren, den genauen Zustand des Systems während eines Auskupplungsvorgangs zu rekonstruieren. Durch die Korrelation von
Objekterkennungsausgaben mit Sensorprotokollen und
Steuerbefehlen können die Teams feststellen, ob ein Bremsfehler durch Sensorrauschen oder einen Modellvorhersagefehler verursacht wurde.
-
Diagnostik im Gesundheitswesen: Unter
KI im Gesundheitswesen ist ein vertrauenswürdiger Betrieb
von entscheidender Bedeutung. Die Beobachtbarkeit stellt sicher, dass medizinische Bildgebungsmodelle in verschiedenen Krankenhäusern einheitlich
Maschinen. Fällt die Leistung eines Modells ab, kann anhand von Spuren festgestellt werden, ob das Problem auf eine Änderung der Bildauflösung oder
eine Verzögerung in der Datenvorverarbeitungspipeline zurückzuführen ist, was eine schnelle Behebung ermöglicht, ohne die Patientenversorgung zu beeinträchtigen.
Implementierung der Beobachtbarkeit mit Ultralytics
Effektive Beobachtbarkeit beginnt mit einer ordnungsgemäßen Protokollierung und Experimentverfolgung. Ultralytics lassen sich nahtlos
mit Tools wie MLflow,
Weights & Biasesund
TensorBoard zur automatischen Protokollierung von Metriken, Parametern und
Artefakte automatisch zu protokollieren.
Das folgende Beispiel zeigt, wie man eine
YOLO11 Modell zu trainieren und dabei die Protokolle in einer bestimmten
Struktur organisiert werden, die die Grundlage der dateibasierten Beobachtbarkeit ist:
from ultralytics import YOLO
# Load the YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model, saving logs and results to a specific project directory
# This creates structured artifacts useful for post-training analysis
model.train(data="coco8.yaml", epochs=3, project="observability_logs", name="experiment_1")
In Produktionsumgebungen fassen Teams diese Protokolle oft in zentralisierten Plattformen wie
Datadog, New Relic, oder
Elastic Stack, um eine einheitliche Sicht auf ihre gesamte KI
Infrastruktur zu erhalten. Eine erweiterte Visualisierung kann auch mit Open-Source-Dashboards wie
Grafana.