Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Ultralytics Plattform

Dedizierte Inferenz-Endpunkte vs. geteilte Inferenz für die Bereitstellung

Erfahre, wann du dich für dedizierte Inferenz-Endpunkte auf der Ultralytics Platform entscheiden solltest, um eine skalierbare Vision-KI-Bereitstellung mit niedriger Latenz gegenüber einer geteilten Inferenz zu erhalten.

ABAbirami Vina
6 min read
Dedizierte Inferenz-Endpunkte vs. geteilte Inferenz für die Bereitstellung

Vor Kurzem haben wir die Ultralytics Platform eingeführt, eine End-to-End-Lösung, die den gesamten Computer-Vision-Workflow an einem Ort zusammenführt, von der Datensatzvorbereitung und dem Modelltraining bis hin zu Inference, Deployment und Überwachung.

Die auf Basis von Feedback aus der Computer-Vision-Community entwickelte Plattform wurde konzipiert, um jeden Entwicklungsschritt zu vereinfachen, indem sie integrierte Funktionen bietet, die den gesamten Lebenszyklus von Vision-AI-Anwendungen unterstützen.

Sobald beispielsweise ein Modell trainiert wurde, ist der nächste Schritt das Deployment, damit es für Inference und Vorhersagen in realen Anwendungen genutzt werden kann. Die Plattform macht diesen Prozess unkompliziert, indem sie mehrere Deployment-Optionen anbietet.

Du kannst Modelle exportieren, um sie in deiner eigenen Umgebung auszuführen, Shared-Inference für schnelle Tests nutzen oder dedizierte Endpoints für skalierbare, produktionsbereite Anwendungen bereitstellen. Jede dieser Deployment-Optionen ermöglicht dir die Ausführung von AI-Inference, sie sind jedoch für unterschiedliche Phasen und Anwendungsfälle konzipiert.

Ultralytics Platform ermöglicht skalierbares globales Vision-AI-Modell-Deployment

Abb. 1: Die Ultralytics Platform ermöglicht ein skalierbares globales Vision-AI-Modell-Deployment (Quelle)

Der Modell-Export gibt dir volle Kontrolle für die Ausführung von Modellen in deiner eigenen Infrastruktur, Shared-Inference vereinfacht das Testen und Experimentieren ohne Setup, und dedizierte Endpoints sind für zuverlässige Produktions-Workloads im großen Maßstab ausgelegt.

Auf den ersten Blick mögen Shared-Inference und dedizierte Endpoints recht ähnlich erscheinen. Beide ermöglichen es dir, API-Anfragen an dein Modell zu senden und strukturierte Vorhersagen zu erhalten, was die Integration von Vision-AI in Anwendungen erleichtert.

Wenn deine Workloads jedoch wachsen und deine Computer-Vision-Anwendungen beginnen, Echtzeit-Inference-Anfragen zu verarbeiten, werden die Unterschiede zwischen diesen Optionen wichtiger. In diesem Artikel werfen wir einen genaueren Blick auf Shared-Inference und dedizierte Endpoints, wie sie sich vergleichen, wann man welche nutzt und warum dedizierte Endpoints die bessere Wahl sind, wenn deine Anwendungen skalieren.

Link to this sectionEin Überblick über das Deployment mittels Shared-Inference#

Shared-Inference ist eine einfache Methode, um AI-Inference mit deinen Modellen durchzuführen, ohne Infrastruktur einzurichten oder dir Gedanken über GPU-Typen, Framework-Integrationen oder Runtime-Konfigurationen machen zu müssen. Sobald dein Modell trainiert oder feinabgestimmt ist, kannst du es direkt über die Plattform für Vorhersagen nutzen.

In diesem Setup läuft dein Modell auf geteilten, mandantenfähigen Rechenressourcen in einigen Kernregionen, wie den USA, Europa und Asien-Pazifik. Anfragen werden automatisch an verfügbare Dienste weitergeleitet, sodass du keine GPU-Instanzen oder Runtime-Umgebungen konfigurieren musst. Alles wird für dich erledigt, was den Einstieg erleichtert.

Wenn du Shared-Inference nutzt, sendest du Anfragen an dein Modell über eine REST API unter Verwendung von Tools wie Python oder CLI und erhältst strukturierte JSON-Ausgaben, wie z. B. erkannte Objekte, Konfidenzwerte und andere Vorhersagedetails. Das macht das Testen von Modellen und die Integration in Anwendungen nahtlos.

Da das System geteilt wird, ist es für Entwicklung, Tests und leichte Nutzung konzipiert. Es eignet sich gut zur Validierung von Vorhersagen und zum Aufbau früher Integrationen. Gleichzeitig kann die Leistung je nach Systemlast variieren, und die Nutzung ist auf 20 Anfragen pro Minute pro API-Key begrenzt, was es für Produktions-Workloads mit hohem Durchsatz weniger geeignet macht.

Insgesamt eignet sich Shared-Inference am besten für die frühe Entwicklungsphase, in der der Fokus darauf liegt, dein Modell zu verstehen und zu verbessern, bevor man zu größeren Anwendungen übergeht.

Link to this sectionModelle global deployen mit dedizierten Endpoints#

Dedizierte Endpoints sind Single-Tenant-Inference-Dienste, bei denen deine Vision-AI-Modelle auf isolierten Rechenressourcen laufen. Anstatt die Infrastruktur zu teilen, verfügt jeder Endpoint über eine eigene Runtime mit konfigurierbaren Ressourcen wie CPU und Arbeitsspeicher, was dir mehr Kontrolle über die Leistung gibt.

Wenn du ein Modell als dedizierten Endpoint deployst, erhält es eine eindeutige API-URL und verwendet deinen API-Key zur Authentifizierung, was die Integration in Anwendungen vereinfacht. Diese Endpoints können über 43 globale Regionen hinweg bereitgestellt werden, sodass du Inference näher an deine Nutzer bringen und die Latenz reduzieren kannst.

Deployment dedizierter Endpoints in 43 globalen Regionen

Abb. 2: Du kannst dedizierte Endpoints in 43 globalen Regionen bereitstellen (Quelle)

Einer der Hauptvorteile ist das Autoscaling. Endpoints passen sich automatisch an eingehende Anfragen an, skalieren hoch, um höheres Traffic-Aufkommen zu bewältigen, und skalieren herunter, wenn die Nachfrage sinkt. Mit der standardmäßig aktivierten Scale-to-Zero-Funktion können Endpoints bei Inaktivität heruntergefahren und bei Bedarf neu gestartet werden, was zur Optimierung der Ressourcennutzung beiträgt.

Mit anderen Worten: Dedizierte Endpoints sind für Produktions-Workloads ausgelegt. Sie bieten eine konsistente niedrige Latenz, einen höheren Durchsatz und eine größere Zuverlässigkeit im Vergleich zu Shared-Inference.

Außerdem haben dedizierte Endpoints keine Ratenbegrenzungen. Anfragen gehen direkt an deinen Endpoint, sodass das Traffic-Volumen, das du bewältigen kannst, von deinem Setup und deiner Skalierung abhängt und nicht von festen Limits.

Zusätzlich machen integrierte Überwachung, Logs, Gesundheitschecks sowie ein vorhersagbares Laufzeit- und Startverhalten es einfach, die Leistung zu verfolgen und stabile Deployments über alle Pläne hinweg aufrechtzuerhalten. Im Free-Plan dauern Kaltstarts typischerweise zwischen 5 und 45 Sekunden, während Endpoints im Pro-Plan warm bleiben, was zu einer schnelleren und vorhersagbareren Inference-Leistung führt.

Einfach ausgedrückt sind dedizierte Endpoints ideal für Echtzeit-Vision-AI-Anwendungen, die eine zuverlässige, skalierbare und hochperformante Inference erfordern.

Link to this sectionShared-Inference vs. dedizierte Endpoints: Die Kernunterschiede#

Hier ist ein genauerer Blick darauf, wie Shared-Inference und dedizierte Endpoints im Vergleich abschneiden:

  • Latenz: Die Latenz kann in geteilten Umgebungen aufgrund der Ressourcenfreigabe variieren, während dedizierte Endpoints konsistentere Antworten mit niedriger Latenz bieten.
  • Regionen: Shared-Inference ist in wenigen Regionen verfügbar (USA, EU, AP), während dedizierte Endpoints das Deployment über 43 globale Regionen unterstützen.
  • Skalierbarkeit: Skalierung ist bei Shared-Inference nicht konfigurierbar, während dedizierte Endpoints automatisch basierend auf eingehendem Traffic skalieren.
  • Ratenbegrenzungen: Shared-Inference ist ratenbegrenzt (20 Anfragen bzw. API-Aufrufe pro Minute pro API-Key), während dedizierte Endpoints keine plattformweiten Ratenbegrenzungen haben.
  • Preisgestaltung: Shared-Inference ist für Tests und Entwicklung ohne zusätzliche Kosten enthalten, während dedizierte Endpoints mehr Kontrolle und Skalierbarkeit bieten, wobei die Nutzung von der Ressourcenkonfiguration und den Deployment-Anforderungen abhängt.

Link to this sectionWarum dedizierte Endpoints besser für Produktions-Workloads geeignet sind#

Wenn AI- und Machine-Learning-Anwendungen von der Testphase in die praktische Nutzung übergehen, werden Leistung, Skalierbarkeit und Zuverlässigkeit unerlässlich. Deshalb bieten dedizierte Endpoints klare Vorteile gegenüber Shared-Inference.

Bei dedizierten Endpoints läuft dein vortrainiertes oder benutzerdefiniertes Modell auf eigenen Rechenressourcen, sodass die Leistung nicht durch andere Nutzer beeinträchtigt wird. Dies trägt dazu bei, die Latenz niedrig und konsistent zu halten, was für Echtzeitanwendungen wie Videoanalysen und Überwachungssysteme wichtig ist.

Ein Blick auf das Deployment mit einem dedizierten Inference-Endpoint

Abb. 3: Ein Blick auf das Deployment mit einem dedizierten Inference-Endpoint (Quelle)

Denk beispielsweise an ein Einzelhandelsanalysesystem, das Live-Kamerafeeds in mehreren Filialen verarbeitet. Durch das Deployment von Endpoints in 43 globalen Regionen kann die Inference näher an jeder Filiale ausgeführt werden, was die Latenz verringert und die Reaktionszeiten verbessert.

Bei Shared-Inference, wo Ressourcen geteilt werden und die Regionen begrenzt sind, kann die Leistung während Stoßzeiten variieren.

Dedizierte Endpoints können zudem höheres Traffic-Aufkommen bewältigen und automatisch je nach Nachfrage skalieren. Mit integrierter Überwachung, Logs und Gesundheitschecks bieten sie eine vorhersagbarere Leistung und eignen sich daher gut für groß angelegte und kontinuierliche AI-Workloads.

Link to this sectionWo Shared-Inference in den Vision-AI-Workflow passt#

Während du die Unterschiede zwischen Shared-Inference und dedizierten Endpoints erkundest, fragst du dich vielleicht, wo Shared-Inference in den allgemeinen Computer-Vision-Workflow passt.

Lass uns das Beispiel der Einzelhandelsanalyse erneut betrachten. Bevor eine Vision-Lösung in mehreren Filialen bereitgestellt wird, müssen Teams üblicherweise testen, wie sie mit realen Daten funktioniert, und sie basierend auf diesen Ergebnissen verfeinern.

Shared-Inference macht diesen Prozess einfach, indem du Beispielbilder oder Videoframes von Filialkameras senden und Vorhersagen schnell überprüfen kannst, ohne Infrastruktur aufzubauen. Dies ist besonders nützlich, um das Modellverhalten zu testen, fehlerhafte Vorhersagen zu debuggen und Ergebnisse unter verschiedenen Bedingungen zu validieren, wie etwa bei Änderungen der Beleuchtung oder Filiallayouts.

Durch diese Iterationen können Teams die Modellgenauigkeit und Zuverlässigkeit verbessern, bevor sie in die Produktion gehen. Sobald das Modell in diesen Testszenarien gut abschneidet, kann es für den Echtzeiteinsatz an mehreren Standorten auf dedizierten Endpoints bereitgestellt werden.

Shared-Inference kann auch gut für Anwendungen mit geringer oder unregelmäßiger Nutzung funktionieren. Ein kleiner Einzelhändler könnte es beispielsweise nutzen, um gelegentlich Kundenverkehr zu analysieren oder Aktivitäten zu bestimmten Zeiten zu überprüfen, ohne ein vollständig skaliertes Deployment zu benötigen. In diesen Fällen bietet es eine einfache und kosteneffiziente Möglichkeit, Inference bei Bedarf auszuführen.

Link to this sectionReale Anwendungsfälle für dedizierte Endpoints#

Wenn AI-Anwendungen über die Testphase hinausgehen, beginnt die Wahl des Deployments, sich direkt auf Leistung, Skalierbarkeit und Nutzererfahrung auszuwirken. Dedizierte Endpoints können branchenübergreifend weit verbreitet eingesetzt werden, da sie eine stabile Leistung, niedrige Latenz und die Fähigkeit zur Bewältigung großer Workloads bieten.

Hier sind einige häufige Anwendungsfälle, die zeigen, wie dedizierte Endpoints in realen Anwendungen eingesetzt werden können:

  • Einzelhandel und Videoanalyse: Eine Einzelhandelskette kann Computer-Vision nutzen, um Kundenbewegungen nachzuverfolgen, beliebte Produkte zu identifizieren und Filialaktivitäten in Echtzeit zu überwachen. Dedizierte Endpoints halten die Inference auch während der Stoßzeiten an mehreren Standorten schnell und konsistent.
  • Fertigung und Qualitätsprüfung: In einer Produktionslinie können Modelle Defekte oder Anomalien erkennen, während sich Produkte durch das System bewegen. Dedizierte Endpoints unterstützen kontinuierliche Echtzeit-Inference und helfen Teams, Probleme frühzeitig zu erkennen und die Produktqualität aufrechtzuerhalten, ohne den Betrieb zu verlangsamen.
  • Gesundheitswesen und medizinische Bildgebung: Gesundheitsdienstleister und Diagnoselabore können sich auf Vision-Modelle verlassen, um medizinische Bilder wie Röntgenaufnahmen oder Scans zu analysieren. Dedizierte Endpoints bieten eine zuverlässige, konsistente Leistung, was bei der Verarbeitung sensibler Daten und zeitkritischen Diagnosen entscheidend ist.
  • Lager- und Logistikautomatisierung: Große Lagerhäuser betreiben oft mehrere identische Systeme, wie Förderbänder und Sortieranlagen, die effektiv als Replikas desselben Setups fungieren. Computer-Vision-Modelle können jedes Replika überwachen, um Probleme wie Staus oder falsch geleitete Pakete zu erkennen. Dedizierte Endpoints gewährleisten eine konsistente Echtzeit-Inference über alle Replikas hinweg.

Link to this sectionDer Übergang von Shared-Inference zu dedizierten Endpoints#

Einer der Hauptvorteile der Ultralytics Platform ist, wie einfach es ist, von Shared-Inference zu dedizierten Endpoints zu wechseln, wenn deine Anwendung wächst. Anstatt die Tools zu wechseln oder dein Setup neu aufzubauen, kannst du in derselben Umgebung zu einem produktionsbereiten Deployment übergehen.

Nachdem du dein Modell mit Shared-Inference getestet hast, ist der Wechsel zu einem dedizierten Endpoint ein einfacher nächster Schritt. Du kannst dasselbe Modell auf einem Endpoint bereitstellen, die gewünschte Region und die Rechenressourcen auswählen und die Endpoint-URL in deiner Anwendung aktualisieren. Die allgemeine Integration bleibt ähnlich, sodass es kaum oder gar keine Änderungen daran gibt, wie du Anfragen sendest oder Antworten verarbeitest.

Anzeigen einer dedizierten Endpoint-URL auf der Ultralytics Platform

Abb. 4: Anzeigen einer dedizierten Endpoint-URL auf der Ultralytics Platform (Quelle)

Das bedeutet, dass du mit wenigen Klicks von der Testphase zur Produktion skalieren kannst. Wenn dein Workload zunimmt oder deine Anwendung eine konsistentere Leistung erfordert, kannst du zu dedizierten Endpoints wechseln, ohne deinen bestehenden Workflow zu unterbrechen.

Um mehr über das Deployment von Modellen mittels dedizierter Endpoints auf der Ultralytics Platform zu erfahren, lies dir die offiziellen Dokumentationen der Ultralytics Platform durch.

Link to this sectionWichtige Erkenntnisse#

Shared-Inference ist ein großartiger Ausgangspunkt für Tests und Experimente, doch Produktions-Workloads erfordern mehr Konsistenz und Skalierbarkeit. Wenn Anwendungen wachsen, bieten dedizierte Endpoints die Leistung und Zuverlässigkeit, die für reale Anforderungen nötig sind. Das macht sie zur besten Wahl für die meisten Produktions-Deployments.

Tritt unserer Community bei und erkunde unser GitHub-Repository, um mehr über Computer-Vision-Modelle zu erfahren. Lies auf unseren Lösungsseiten mehr über Anwendungen wie AI in der Landwirtschaft und Computer-Vision in der Robotik. Sieh dir unsere Lizenzoptionen an und starte mit Vision-AI.

Explore solutions

Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens