Glossar

Modell Servieren

Lernen Sie die Grundlagen des Model Serving kennen - stellen Sie KI-Modelle für Echtzeitvorhersagen, Skalierbarkeit und nahtlose Integration in Anwendungen bereit.

Die Modellbereitstellung ist der Prozess, bei dem ein trainiertes Modell für maschinelles Lernen (ML) verfügbar gemacht wird, um Eingabedaten zu erhalten und Vorhersagen in einer Produktionsumgebung zu liefern. Sobald ein Modell trainiert und validiert ist, ist die Bereitstellung der entscheidende Schritt, der es von einer statischen Datei in ein aktives, einsatzfähiges Tool verwandelt, das reale Anwendungen unterstützen kann. Dabei wird das Modell auf einem Server bereitgestellt und eine Schnittstelle, in der Regel eine API, geschaffen, über die andere Softwaresysteme mit dem Modell kommunizieren können, um Inferenzen in Echtzeit zu erstellen.

Obwohl eng miteinander verbunden, ist die Modellbereitstellung eine spezifische Komponente innerhalb des umfassenderen Prozesses der Modellbereitstellung. Die Bereitstellung umfasst den gesamten Workflow der Integration eines Modells in eine Produktionsumgebung, einschließlich der Einrichtung und Überwachung der Infrastruktur. Model Serving bezieht sich speziell auf den Teil der Infrastruktur, der für die Ausführung des Modells und die effiziente Bearbeitung von Inferenzanfragen verantwortlich ist.

Schlüsselkomponenten des Modells Serving

Ein robustes Model-Serving-System besteht aus mehreren integrierten Komponenten, die zusammenarbeiten, um schnelle und zuverlässige Prognosen zu liefern.

  • Modell-Format: Vor der Bereitstellung muss ein Modell in ein standardisiertes Format verpackt werden. Formate wie ONNX gewährleisten die Interoperabilität zwischen verschiedenen Frameworks. Für maximale Leistung können Modelle mit Tools wie TensorRT für NVIDIA GPUs optimiert werden.
  • Serving Framework: Spezialisierte Software, die das Modell lädt, Hardwareressourcen wie GPUs verwaltet und Inferenzanforderungen verarbeitet. Beliebte Frameworks sind TensorFlow Serving, PyTorch Serve und der leistungsstarke NVIDIA Triton Inference Server, der über unsere Triton-Integrationsanleitung mit Ultralytics Modellen verwendet werden kann.
  • API-Endpunkt: Dies ist das Kommunikationsgateway, über das Client-Anwendungen Daten (z. B. Bilder oder Text) senden und die Vorhersage des Modells empfangen können. REST und gRPC sind gängige API-Protokolle, die für diesen Zweck verwendet werden.
  • Infrastruktur: Die physische oder virtuelle Hardware, auf der das Modell läuft. Dies kann von Servern vor Ort bis hin zu Cloud-Computing-Plattformen wie Amazon SageMaker und Google Cloud AI Platform reichen. Bei Anwendungen, die eine niedrige Latenzzeit erfordern, werden die Modelle oft auf Edge-KI-Geräten bereitgestellt. Die Containerisierung mit Tools wie Docker ist für die Erstellung portabler und skalierbarer Bereitstellungsumgebungen unerlässlich.
  • Überwachung und Protokollierung: Kontinuierliche Überwachung der Modellleistung und des Systemzustands. Dazu gehört die Überwachung von Metriken wie Inferenzlatenz und Durchsatz sowie die Beobachtung von Problemen wie Datendrift, die die Modellgenauigkeit im Laufe der Zeit beeinträchtigen können. Weitere Informationen finden Sie in unserem Leitfaden zur Modellüberwachung.

Anwendungen in der realen Welt

Model Serving ist der Motor hinter zahlreichen KI-gestützten Funktionen.

  1. KI-gestütztes Bestandsmanagement: Ein Einzelhandelsunternehmen verwendet ein Ultralytics YOLO11-Modell für die Bestandsverwaltung in Echtzeit. Das Modell ist in ein ONNX-Format verpackt und wird auf einem kleinen Edge-Computer im Geschäft bereitgestellt. Eine Kamera sendet ein Videobild an den Serving-Endpunkt, der eine Objekterkennung durchführt, um die Artikel in den Regalen zu zählen und Warnungen zu senden, wenn der Bestand niedrig ist.
  2. Medizinische Bildanalyse in der Cloud: Ein Krankenhaus setzt ein hochentwickeltes Computer-Vision-Modell für die medizinische Bildanalyse ein. Aufgrund der Größe des Modells und der Rechenanforderungen wird es auf einem leistungsstarken Cloud-Server mit mehreren GPUs bereitgestellt. Radiologen laden hochauflösende Scans über ein sicheres Portal hoch, das die Server-API aufruft. Das Modell liefert Vorhersagen, die bei der Erkennung potenzieller Anomalien helfen und die Diagnosegeschwindigkeit und -genauigkeit verbessern.

Die Rolle von MLOps

Die Modellbereitstellung ist ein Eckpfeiler von Machine Learning Operations (MLOps). Eine gute MLOps-Strategie stellt sicher, dass der gesamte Lebenszyklus - von der Datenvorverarbeitung über die Modellschulung bis zur Bereitstellung und Überwachung -automatisiert, zuverlässig und skalierbar ist. Plattformen wie Ultralytics HUB wurden entwickelt, um diesen gesamten Arbeitsablauf zu vereinfachen, indem sie eine integrierte Lösung für die Schulung, Versionierung und Bereitstellung von Computer-Vision-Modellen bieten.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert