Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Observability (Beobachtbarkeit)

Entdecken Sie, wie Observability (Beobachtbarkeit) KI/ML-Systeme wie Ultralytics YOLO verbessert. Gewinnen Sie Einblicke, optimieren Sie die Leistung und gewährleisten Sie die Zuverlässigkeit in realen Anwendungen.

Observability (Beobachtbarkeit) ist die Praxis, Systeme so zu entwerfen und zu instrumentieren, dass sie hochgenaue Daten über ihren internen Zustand liefern, wodurch Teams ihr Verhalten effektiv untersuchen, debuggen und verstehen können. Im Kontext von Künstlicher Intelligenz (KI) und Maschinellem Lernen (ML) geht dies über die einfache Überwachung hinaus und ermöglicht tiefe Einblicke in komplexe Modelle und Datenpipelines. Anstatt nur vordefinierte Performance-Metriken zu verfolgen, bietet ein beobachtbares System umfangreiche, erkundbare Daten, die es Ihnen ermöglichen, neue Fragen zu stellen und unbekannte Probleme nach der Modellbereitstellung zu diagnostizieren.

Observability vs. Monitoring

Obwohl oft zusammen verwendet, sind Observability und Model Monitoring unterschiedliche Konzepte.

  • Überwachung ist der Prozess des Sammelns und Analysierens von Daten, um nach bekannten Fehlermodi zu suchen. Sie richten Warnungen für bestimmte, vordefinierte Schwellenwerte ein, z. B. eine Fehlerrate von mehr als 5 % oder eine Inferenzlatenz von mehr als 200 ms. Sie sagt Ihnen, ob etwas nicht stimmt.
  • Observability (Beobachtbarkeit) ist eine Eigenschaft des Systems, die es Ihnen ermöglicht zu verstehen, warum etwas falsch ist, selbst wenn Sie das Problem noch nie zuvor gesehen haben. Sie verwendet detaillierte Protokolle, Metriken und Traces, um eine explorative Analyse und die Identifizierung der Ursache zu ermöglichen. Ein beobachtbares System ist ein System, das Sie debuggen können, ohne neuen Code ausliefern zu müssen, um weitere Informationen zu sammeln. Diese Fähigkeit ist entscheidend für die Verwaltung der unvorhersehbaren Natur von KI-Systemen in der Produktion.

Die drei Säulen der Observability

Observability basiert typischerweise auf drei Arten von Telemetriedaten:

  1. Logs: Dies sind unveränderliche, mit Zeitstempeln versehene Aufzeichnungen von Ereignissen. In ML-Systemen können Logs einzelne Vorhersageanfragen, Datenvalidierungsfehler oder Änderungen der Systemkonfiguration erfassen. Während traditionelle Protokollierung einfacher Text sein kann, erleichtert die strukturierte Protokollierung (z. B. im JSON-Format) das Abfragen und Analysieren von Protokollen in großem Maßstab erheblich.
  2. Metriken: Dies sind numerische Darstellungen von Daten, die im Laufe der Zeit gemessen werden. Zu den wichtigsten Metriken in ML-Systemen gehören die Genauigkeit des Modells, der Vorhersagedurchsatz, die CPU-/GPU-Auslastung und die Speichernutzung. Zeitreihendatenbanken wie Prometheus werden häufig verwendet, um diese Daten zu speichern und abzufragen.
  3. Traces: Traces bieten eine detaillierte Ansicht einer einzelnen Anfrage oder Transaktion, während sie sich durch alle Komponenten eines Systems bewegt. In einer Computer Vision-Pipeline könnte ein Trace einem einzelnen Bild von der Aufnahme und Vorverarbeitung bis zur Modellinferenz und Nachbearbeitung folgen und die in jedem Schritt verbrachte Zeit anzeigen. Dies ist von unschätzbarem Wert, um Engpässe und Fehler in verteilten Systemen zu lokalisieren.

Warum Observability für KI-Systeme entscheidend ist

Deep-Learning-Modelle können sehr komplex und undurchsichtig sein, was es schwierig macht, ihr Verhalten in der realen Welt zu verstehen. Observability ist unerlässlich für:

  • Debugging und Fehlerbehebung: Wenn ein Modell wie Ultralytics YOLO11 eine falsche Vorhersage trifft, können Observability-Tools helfen, die Eingabedaten und Modellaktivierungen zurückzuverfolgen, um die Ursache zu verstehen.
  • Drifterkennung: KI-Modelle können im Laufe der Zeit aufgrund von Data Drift (wenn sich die Verteilung der Produktionsdaten von den Trainingsdaten ändert) oder Concept Drift schlechter werden. Observability hilft, diese Verschiebungen zu erkennen, indem sie Datenverteilungen und die Modellleistung überwacht.
  • Gewährleistung von Vertrauen und Fairness: In sensiblen Anwendungen wie KI im Gesundheitswesen unterstützt die Beobachtbarkeit Erklärbare KI (XAI) und Transparenz in der KI, indem sie einen klaren Prüfpfad für Modellentscheidungen bereitstellt. Dies ist entscheidend für die Einhaltung von Vorschriften und den Aufbau von Vertrauen bei den Stakeholdern.
  • Performance optimieren: Durch die Verfolgung von Ressourcennutzung und Latenz können Teams die Modelleffizienz optimieren und die Betriebskosten senken, was ein Hauptziel von MLOps ist.

Anwendungsfälle in der Praxis

  1. Autonome Fahrzeuge: Ein autonomes Fahrzeug verwendet ein Wahrnehmungsmodell für die Objekterkennung in Echtzeit. Observability-Tools verfolgen einen Kamerarahmen durch das gesamte System, vom Sensor bis zur Entscheidung. Wenn das Fahrzeug einen Fußgänger in der Dämmerung nicht erkennt, können Ingenieure anhand von Traces feststellen, ob die Latenz im Bildvorverarbeitungsschritt die Ursache war. Sie können auch Metriken zu den Konfidenzwerten der Erkennung zu verschiedenen Tageszeiten analysieren, um systemische Probleme zu identifizieren.
  2. Einzelhandels-Bestandsverwaltung: Ein intelligentes Einzelhandelssystem verwendet Kameras zur Überwachung des Regalbestands. Eine Observability-Plattform verfolgt die Anzahl der pro Regal erkannten Produkte, die Häufigkeit der API-Aufrufe und die Latenz der Vorhersagen. Wenn das System falsche Lagerbestände für ein bestimmtes Produkt meldet, können Entwickler die Traces für die SKU dieses Produkts filtern, die protokollierten Bilder und Vorhersagewerte überprüfen und feststellen, ob schlechte Lichtverhältnisse oder ungewöhnliche Verpackungen das Problem verursachen. Dies ermöglicht eine schnelle Diagnose und ein schnelles Retraining mit besserer Datenerweiterung.

Tools und Plattformen

Die Implementierung von Observability erfordert oft spezialisierte Tools und Plattformen. Open-Source-Lösungen wie Grafana (Visualisierung), Loki (Logs) und Jaeger (Tracing) sind beliebt. OpenTelemetry bietet einen herstellerneutralen Standard für die Instrumentierung. Kommerzielle Plattformen wie Datadog, New Relic und Dynatrace bieten integrierte Lösungen. MLOps-Plattformen wie MLflow, Weights & Biases und ClearML enthalten oft Funktionen zur Verfolgung von Experimenten und zur Überwachung von Modellen. Ultralytics HUB erleichtert die Verwaltung von Trainingsläufen und bereitgestellten Modellen und integriert sich in Tools wie TensorBoard zur Visualisierung von Metriken, was ein wichtiger Aspekt der Observability während der Modelltrainings-Phase ist.

Treten Sie der Ultralytics-Community bei

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert