Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Modellbereitstellung

Erfahren Sie, wie Model Serving die Lücke zwischen trainierten Modellen und der Produktion schließt. Entdecken Sie Bereitstellungsstrategien für Ultralytics auf der Ultralytics .

Model Serving ist der Prozess, bei dem ein trainiertes Machine-Learning-Modell gehostet und seine Funktionalität Softwareanwendungen über eine Netzwerkschnittstelle zur Verfügung gestellt wird. Es fungiert als Brücke zwischen einer statischen Modelldatei, die auf einer Festplatte gespeichert ist, und einem Live-System, das reale Daten verarbeitet. Sobald ein Modell die Trainingsphase des maschinellen Lernens (ML) abgeschlossen hat, muss es in eine Produktionsumgebung integriert werden, in der es Eingaben – wie Bilder, Text oder tabellarische Daten – empfangen und Vorhersagen zurückgeben kann. Dies wird in der Regel erreicht, indem das Modell in eine Anwendungsprogrammierschnittstelle (API) eingebunden wird, die es ihm ermöglicht, mit Webservern, mobilen Apps oder IoT-Geräten zu kommunizieren.

Die Rolle des Model Serving in der KI

Das Hauptziel des Model Serving ist die effektive Operationalisierung von Predictive-Modeling-Funktionen. Während beim Training der Fokus auf Genauigkeit und Verlustminimierung liegt, konzentriert sich das Serving auf Leistungskennzahlen wie Latenz (wie schnell eine Vorhersage zurückgegeben wird) und Durchsatz (wie viele Anfragen pro Sekunde bearbeitet werden können). Eine robuste Serving-Infrastruktur stellt sicher, dass Computer-Vision-Systeme (CV) auch unter hoher Last zuverlässig bleiben . Dazu werden häufig Technologien wie die Containerisierung mit Tools wie Docker eingesetzt, die das Modell mit seinen Abhängigkeiten paketieren , um ein konsistentes Verhalten in verschiedenen Computing-Umgebungen zu gewährleisten.

Anwendungsfälle in der Praxis

Model Serving ermöglicht allgegenwärtige KI-Funktionen in verschiedenen Branchen, indem es sofortige Entscheidungen auf der Grundlage von Daten ermöglicht. Daten.

  • Intelligente Fertigung: In industriellen Umgebungen nutzt KI in Fertigungssystemen servierte Modelle zur Überprüfung von Fertigungsstraßen. Hochauflösende Bilder von Komponenten werden an einen lokalen Server gesendet, wo ein YOLO26-Modell Fehler wie Kratzer oder Fehlausrichtungen erkennt und sofortige Warnmeldungen auslöst, um fehlerhafte Teile zu entfernen.
  • Automatisierung im Einzelhandel: Einzelhändler nutzen KI im Einzelhandel, um das Kundenerlebnis zu verbessern. Kameras, die mit Objekterkennungsmodellen ausgestattet sind, identifizieren Produkte in einem Kassenbereich und berechnen automatisch den Gesamtpreis, ohne dass ein manuelles Scannen des Barcodes erforderlich ist .

Praktische Umsetzung

Um ein Modell effektiv zu nutzen, ist es oft vorteilhaft, Modelle in ein standardisiertes Format wie ONNXzu exportieren, das die Interoperabilität zwischen verschiedenen Trainingsframeworks und Serving-Engines fördert. Das folgende Beispiel zeigt, wie Sie ein Modell laden und eine Inferenz ausführen können, wobei die Logik simuliert wird, die in einem Serving-Endpunkt mit Python.

from ultralytics import YOLO

# Load the YOLO26 model (this typically happens once when the server starts)
model = YOLO("yolo26n.pt")

# Simulate an incoming API request with an image source URL
image_source = "https://ultralytics.com/images/bus.jpg"

# Run inference to generate predictions for the user
results = model.predict(source=image_source)

# Process results (e.g., simulating a JSON response to a client)
print(f"Detected {len(results[0].boxes)} objects in the image.")

Die Wahl der richtigen Strategie

Die Wahl der Serving-Strategie hängt stark vom jeweiligen Anwendungsfall ab. Online Serving bietet sofortige Antworten über Protokolle wie REST oder gRPC, was für benutzerorientierte Webanwendungen unerlässlich ist. Umgekehrt verarbeitet Batch Serving große Datenmengen offline, was für Aufgaben wie die nächtliche Berichterstellung geeignet ist . Für Anwendungen, die Datenschutz oder geringe Latenz ohne Internetabhängigkeit erfordern, verlagert Edge AI den Serving-Prozess direkt auf das Gerät und nutzt dabei optimierte Formate wie TensorRT , um die Leistung auf eingeschränkter Hardware zu maximieren. Viele Unternehmen nutzen die Ultralytics , um die Bereitstellung dieser Modelle auf verschiedenen Endpunkten, einschließlich Cloud-APIs und Edge-Geräten, zu vereinfachen.

Abgrenzung zu verwandten Begriffen

Obwohl eng miteinander verbunden, unterscheidet sich „Model Serving” von Model Deployment und Inference.

  • Modellbereitstellung: Dies bezieht sich auf die umfassendere Lebenszyklusphase der Freigabe eines Modells in einer Produktionsumgebung. Serving ist der spezifische Mechanismus oder die Software (wie NVIDIA Triton Server oder TorchServe), die zur Ausführung des bereitgestellten Modells verwendet wird.
  • Inferenz: Dies ist der mathematische Vorgang der Berechnung einer Vorhersage aus einer Eingabe. Das Model Serving stellt die Infrastruktur (Netzwerk, Skalierbarkeit und Sicherheit) bereit, die eine zuverlässige Inferenz für Endnutzer ermöglicht.
  • Mikroservices: Serving ist oft als eine Reihe von Mikroservices aufgebaut, wobei das Modell als unabhängiger Dienst läuft , den andere Teile einer Anwendung abfragen können, wobei oft Daten in leichtgewichtigen Formaten wie JSON ausgetauscht werden.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten