Model Deployment
Lerne, wie du Modelle des maschinellen Lernens in Cloud- oder Edge-Umgebungen bereitstellst. Entdecke, wie die Ultralytics Platform den Export und die Produktion für YOLO26 optimiert.
Modell-Deployment ist die kritische Phase, in der ein trainiertes Machine-Learning-Modell in eine Produktionsumgebung integriert wird, um praktische Entscheidungen oder Vorhersagen auf Basis neuer Daten zu treffen. Es stellt den Übergang von einer Forschungs- oder experimentellen Umgebung – die oft in isolierten Notebooks stattfindet – zu einer Live-Anwendung dar, in der das Modell mit realen Nutzern und Systemen interagiert. Dieser Prozess verwandelt eine statische Datei mit Gewichten und Architektur in einen aktiven AI agent, der Mehrwert schaffen kann, wie etwa das Identifizieren von Objekten in einem Videostream oder das Empfehlen von Produkten auf einer Website.
Ein effektives Deployment erfordert die Bewältigung von Herausforderungen, die sich vom model training unterscheiden, einschließlich Latenz, Skalierbarkeit und Hardwarekompatibilität. Organisationen nutzen oft die Ultralytics Platform, um diesen Lebenszyklus zu optimieren und sicherzustellen, dass in der Cloud trainierte Modelle nahtlos in verschiedenen Umgebungen bereitgestellt werden können, von leistungsstarken Servern bis hin zu ressourcenbeschränkten Edge-Geräten.
Link to this sectionDie Landschaft des Deployments#
Deployment-Strategien lassen sich im Allgemeinen in zwei Kategorien unterteilen: Cloud-Deployment und Edge-Deployment. Die Wahl hängt stark von den spezifischen Anforderungen an Geschwindigkeit, Datenschutz und Konnektivität ab.
- Cloud-Deployment: Das Modell befindet sich auf zentralen Servern, die häufig von Diensten wie AWS SageMaker oder Google Vertex AI verwaltet werden. Anwendungen senden Daten über das Internet per REST API an das Modell, welches die Anfrage verarbeitet und das Ergebnis zurückgibt. Diese Methode bietet nahezu unbegrenzte Rechenleistung und ist daher ideal für große, komplexe Modelle, ist jedoch auf eine stabile Internetverbindung angewiesen.
- Edge-Deployment: Das Modell läuft lokal auf dem Gerät, auf dem die Daten generiert werden, wie z. B. einem Smartphone, einer Drohne oder einer Industriekamera. Dieser Ansatz, bekannt als edge computing, minimiert die Latenz und erhöht den Datenschutz, da Informationen das Gerät nicht verlassen. Tools wie TensorRT werden häufig verwendet, um Modelle für diese Umgebungen zu optimieren.
Link to this sectionVorbereitung von Modellen für die Produktion#
Bevor ein Modell bereitgestellt werden kann, durchläuft es in der Regel eine Optimierung, um einen effizienten Betrieb auf der Zielhardware zu gewährleisten. Dieser Prozess umfasst das model export, bei dem das Trainingsformat (wie PyTorch) in ein für das Deployment geeignetes Format wie ONNX (Open Neural Network Exchange) oder OpenVINO konvertiert wird.
Optimierungstechniken wie quantization reduzieren die Größe und den Speicherbedarf des Modells, ohne die Genauigkeit wesentlich zu beeinträchtigen. Um Konsistenz über verschiedene Rechenumgebungen hinweg zu gewährleisten, verwenden Entwickler häufig containerization-Tools wie Docker, die das Modell mit allen notwendigen Software-Abhängigkeiten bündeln.
Unten siehst du ein Beispiel dafür, wie man ein YOLO26 model in das ONNX-Format exportiert, ein häufiger Schritt bei der Vorbereitung für das Deployment:
from ultralytics import YOLO
# Load the YOLO26 nano model
model = YOLO("yolo26n.pt")
# Export the model to ONNX format for broad compatibility
# This creates a file suitable for various inference engines
path = model.export(format="onnx")
print(f"Model successfully exported to: {path}")Link to this sectionPraxisanwendungen#
Modell-Deployment ermöglicht weit verbreitete computer vision-Systeme in verschiedensten Branchen.
- Qualitätskontrolle in der Fertigung: Im Bereich smart manufacturing überwachen bereitgestellte Modelle Förderbänder in Echtzeit. Ein Kamerasystem, auf dem ein für NVIDIA Jetson-Geräte optimiertes Modell läuft, kann Defekte an Produkten sofort erkennen und einen Roboterarm auslösen, um fehlerhafte Artikel zu entfernen. Dies erfordert eine extrem niedrige Latenz, die nur ein edge AI-Deployment bieten kann.
- Retail Analytics: Geschäfte nutzen bereitgestellte Modelle, um den Kundenstrom und das Kundenverhalten zu analysieren. Durch die Integration von object tracking-Modellen in Sicherheitskamera-Feeds können Einzelhändler Heatmaps beliebter Gänge erstellen. Diese Erkenntnisse helfen dabei, die Ladenlayouts zu optimieren und das inventory management zu verbessern, wobei häufig Cloud-basiertes Deployment genutzt wird, um Daten von mehreren Standorten zu aggregieren.
Link to this sectionDeployment vs. Inference vs. Training#
Es ist wichtig, Modell-Deployment von verwandten Begriffen im Machine-Learning-Lebenszyklus zu unterscheiden:
- Modell-Training ist die Bildungsphase, in der der Algorithmus Muster aus einem Datensatz lernt.
- Modell-Deployment ist die Integrationsphase, in der das trainierte Modell in eine Produktionsinfrastruktur (Server, Apps oder Geräte) installiert wird.
- Inference ist die operative Phase – der tatsächliche Vorgang, bei dem das bereitgestellte Modell Live-Daten verarbeitet, um eine Vorhersage zu treffen. Zum Beispiel führt die inference engine die vom bereitgestellten Modell definierten Berechnungen aus.
Link to this sectionÜberwachung und Wartung#
Das Deployment ist nicht das Ende des Weges. Sobald sie live sind, erfordern Modelle eine kontinuierliche model monitoring, um Probleme wie data drift zu erkennen, bei dem sich die realen Daten von den Trainingsdaten zu entfernen beginnen. Tools wie Prometheus oder Grafana werden oft integriert, um Leistungsmetriken zu verfolgen und sicherzustellen, dass das System über die Zeit zuverlässig bleibt. Wenn die Leistung sinkt, muss das Modell möglicherweise neu trainiert und erneut bereitgestellt werden, wodurch der Kreislauf von MLOps geschlossen wird.






