Modellbereitstellung
Lernen Sie die Grundlagen des Model Serving kennen – stellen Sie KI-Modelle für Echtzeitvorhersagen, Skalierbarkeit und nahtlose Integration in Anwendungen bereit.
Model Serving ist der Prozess, bei dem ein trainiertes Machine-Learning-Modell (ML) zur Verfügung gestellt wird, um Eingabedaten zu empfangen und Vorhersagen in einer Produktionsumgebung zurückzugeben. Sobald ein Modell trainiert und validiert ist, ist das Serving der entscheidende Schritt, der es von einer statischen Datei in ein aktives, operationelles Werkzeug verwandelt, das reale Anwendungen unterstützen kann. Es umfasst die Bereitstellung des Modells auf einem Server und die Erstellung einer Schnittstelle, typischerweise einer API, die es anderen Softwaresystemen ermöglicht, mit ihm für Echtzeit-Inferenz zu kommunizieren.
Obwohl sie eng miteinander verwandt sind, ist Model Serving eine spezifische Komponente innerhalb des breiteren Prozesses des Model Deployments. Deployment umfasst den gesamten Workflow der Integration eines Modells in eine Produktionsumgebung, einschließlich Infrastrukturaufbau und Überwachung. Model Serving bezieht sich speziell auf den Teil dieser Infrastruktur, der für die Ausführung des Modells und die effiziente Bearbeitung von Inferenzanfragen verantwortlich ist.
Wichtige Komponenten des Model Serving
Ein robustes Modellbereitstellungssystem besteht aus mehreren integrierten Komponenten, die zusammenarbeiten, um schnelle und zuverlässige Vorhersagen zu liefern.
- Modellformat: Vor der Bereitstellung muss ein Modell in einem standardisierten Format verpackt werden. Formate wie ONNX gewährleisten die Interoperabilität zwischen verschiedenen Frameworks. Für maximale Leistung können Modelle mit Tools wie TensorRT für NVIDIA-GPUs optimiert werden.
- Serving Framework: Spezialisierte Software, die das Modell lädt, Hardware-Ressourcen wie GPUs verwaltet und Inferenzanfragen verarbeitet. Zu den gängigen Frameworks gehören TensorFlow Serving, PyTorch Serve und der leistungsstarke NVIDIA Triton Inference Server, der über unseren Triton-Integrationsleitfaden mit Ultralytics-Modellen verwendet werden kann.
- API-Endpunkt: Dies ist das Kommunikations-Gateway, das es Client-Anwendungen ermöglicht, Daten (wie ein Bild oder Text) zu senden und die Vorhersage des Modells zu empfangen. REST und gRPC sind gängige API-Protokolle, die für diesen Zweck verwendet werden.
- Infrastruktur: Die physische oder virtuelle Hardware, auf der das Modell ausgeführt wird. Dies kann von On-Premise-Servern bis hin zu Cloud-Computing-Plattformen wie Amazon SageMaker und Google Cloud AI Platform reichen. Für Anwendungen, die eine geringe Latenz erfordern, werden Modelle oft auf Edge-KI-Geräten bereitgestellt. Die Containerisierung mit Tools wie Docker ist für die Erstellung portabler und skalierbarer Bereitstellungsumgebungen unerlässlich.
- Überwachung und Protokollierung: Kontinuierliche Verfolgung der Modellleistung und des Systemzustands. Dies umfasst die Überwachung von Metriken wie Inferenzlatenz und Durchsatz sowie die Beobachtung von Problemen wie Data Drift, die die Genauigkeit des Modells im Laufe der Zeit beeinträchtigen können. In unserem Leitfaden zur Modellüberwachung erfahren Sie mehr.
Anwendungsfälle in der Praxis
Model Serving ist die treibende Kraft hinter unzähligen KI-gestützten Funktionen.
- KI-gestütztes Bestandsmanagement: Ein Einzelhandelsunternehmen verwendet ein Ultralytics YOLO11-Modell für das Echtzeit-Bestandsmanagement. Das Modell ist in einem ONNX-Format verpackt und wird auf einem kleinen Edge-Computer im Geschäft bereitgestellt. Eine Kamera sendet einen Video-Feed an den Serving-Endpunkt, der Objekterkennung durchführt, um Artikel in den Regalen zu zählen, und sendet Warnmeldungen, wenn der Lagerbestand niedrig ist.
- Medizinische Bildanalyse in der Cloud: Ein Krankenhaussystem setzt ein hochentwickeltes Computer Vision-Modell für die medizinische Bildanalyse ein. Aufgrund der großen Modellgröße und des hohen Rechenbedarfs wird es auf einem leistungsstarken Cloud-Server mit mehreren GPUs bereitgestellt. Radiologen laden hochauflösende Scans über ein sicheres Portal hoch, das die Serving-API aufruft. Das Modell gibt Vorhersagen zurück, die bei der Identifizierung potenzieller Anomalien helfen und die Diagnosegeschwindigkeit und -genauigkeit verbessern.
Die Rolle von MLOps
Model Serving ist ein Eckpfeiler der Machine Learning Operations (MLOps). Eine gute MLOps-Strategie stellt sicher, dass der gesamte Lebenszyklus—von der Datenvorverarbeitung und dem Modelltraining bis hin zum Serving und Monitoring—automatisiert, zuverlässig und skalierbar ist. Plattformen wie Ultralytics HUB sind darauf ausgelegt, diesen gesamten Workflow zu vereinfachen und eine integrierte Lösung für das effektive Trainieren, Versionieren und Bereitstellen von Computer-Vision-Modellen zu bieten.