Indem Sie auf „Alle Cookies akzeptieren“ klicken, stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Website-Navigation zu verbessern, die Website-Nutzung zu analysieren und unsere Marketingbemühungen zu unterstützen. Mehr Infos
Cookie-Einstellungen
Indem Sie auf „Alle Cookies akzeptieren“ klicken, stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Website-Navigation zu verbessern, die Website-Nutzung zu analysieren und unsere Marketingbemühungen zu unterstützen. Mehr Infos
Erfahren Sie, wann Sie auf der Ultralytics dedizierte Inferenz-Endpunkte wählen sollten, um eine skalierbare Vision-AI-Bereitstellung mit geringer Latenz gegenüber einer gemeinsamen Inferenz zu erzielen.
Skalieren Sie Ihre Computer-Vision-Projekte mit Ultralytics
Vor kurzem haben wir die Ultralytics vorgestellt, eine End-to-End-Lösung, die den gesamten Computer-Vision-Workflow an einem Ort vereint – von der Datensatzvorbereitung und dem Modelltraining bis hin zur Inferenz, Bereitstellung und Überwachung.
Die Plattform wurde auf Grundlage des Feedbacks aus der Computer-Vision-Community entwickelt und soll jede Entwicklungsphase vereinfachen, indem sie integrierte Funktionen bereitstellt, die den gesamten Lebenszyklus von Vision-KI-Anwendungen unterstützen.
Sobald ein Modell trainiert ist, besteht der nächste Schritt beispielsweise darin, es bereitzustellen, damit es in praktischen Anwendungen für Inferenzberechnungen und Vorhersagen genutzt werden kann. Die Plattform vereinfacht diesen Prozess durch verschiedene Bereitstellungsoptionen.
Sie können Modelle exportieren, um sie in Ihrer eigenen Umgebung auszuführen, Shared Inference für schnelle Tests nutzen oder dedizierte Endpunkte für skalierbare, produktionsreife Anwendungen bereitstellen. Mit jeder dieser Bereitstellungsoptionen können Sie KI-Inferenz ausführen, doch sie sind für unterschiedliche Phasen und Anwendungsfälle konzipiert.
Abb. 1: Ultralytics ermöglicht die skalierbare Bereitstellung von KI-Modellen für die Bildverarbeitung weltweit (Quelle)
Mit dem Modellexport haben Sie die volle Kontrolle über die Ausführung von Modellen in Ihrer eigenen Infrastruktur, die gemeinsame Inferenz erleichtert das Testen und Experimentieren ohne aufwendige Einrichtung, und dedizierte Endpunkte sind für zuverlässige, groß angelegte Produktions-Workloads ausgelegt.
Auf den ersten Blick mögen „Shared Inference“ und dedizierte Endpunkte recht ähnlich erscheinen. Beide ermöglichen es Ihnen, API-Anfragen an Ihr Modell zu senden und strukturierte Vorhersagen zu erhalten, was die Integration von Bildverarbeitungs-KI in Anwendungen vereinfacht.
Wenn Ihre Arbeitslasten jedoch zunehmen und Ihre Computer-Vision-Anwendungen beginnen, Inferenzanfragen in Echtzeit zu verarbeiten, gewinnen die Unterschiede zwischen diesen Optionen an Bedeutung. In diesem Artikel werden wir uns genauer mit Shared Inference und dedizierten Endpunkten befassen, sie miteinander vergleichen, erläutern, wann welche Option zum Einsatz kommen sollte, und darlegen, warum dedizierte Endpunkte bei der Skalierung Ihrer Anwendungen die bessere Wahl sind.
Ein Überblick über die Bereitstellung mithilfe gemeinsamer Inferenzmodelle
Shared Inference ist eine einfache Möglichkeit, KI-Inferenz für Ihre Modelle durchzuführen, ohne eine Infrastruktur einrichten zu müssen oder sich Gedanken über GPU , die Integration von Frameworks oder die Laufzeitkonfiguration machen zu müssen. Sobald Ihr Modell trainiert oder feinabgestimmt ist, können Sie es nutzen, um direkt über die Plattform Vorhersagen zu treffen.
In dieser Konfiguration läuft Ihr Modell auf gemeinsam genutzten, mandantenfähigen Rechenressourcen in einigen zentralen Regionen, wie beispielsweise den USA, Europa und dem asiatisch-pazifischen Raum. Anfragen werden automatisch an verfügbare Dienste weitergeleitet, sodass Sie keine GPU oder Laufzeitumgebungen konfigurieren müssen. Alles wird für Sie erledigt, sodass Sie ganz einfach loslegen können.
Bei der Shared Inference senden Sie über eine REST API Tools wie Python CLI Anfragen an Ihr Modell und erhalten strukturierte JSON-Ausgaben, wie beispielsweise erkannte Objekte, Konfidenzwerte und weitere Details zur Vorhersage. Dies ermöglicht ein nahtloses Testen von Modellen und deren Integration in Anwendungen.
Da es sich um ein gemeinsam genutztes System handelt, ist es für Entwicklungs- und Testzwecke sowie für eine geringe Auslastung ausgelegt. Es eignet sich gut zur Validierung von Prognosen und zum Aufbau erster Integrationen. Gleichzeitig kann die Leistung je nach Systemauslastung schwanken, und die Nutzung ist auf 20 Anfragen pro Minute und API-Schlüssel begrenzt, wodurch es für Produktions-Workloads mit hohem Durchsatz weniger geeignet ist.
Insgesamt eignet sich Shared Inference am besten für die frühe Entwicklungsphase, in der der Schwerpunkt darauf liegt, das Modell zu verstehen und zu verbessern, bevor man zu Anwendungen in größerem Maßstab übergeht.
Dedizierte Endpunkte sind Single-Tenant-Inferenzdienste, bei denen Ihre Vision-AI-Modelle auf isolierten Rechenressourcen ausgeführt werden. Anstatt sich die Infrastruktur zu teilen, verfügt jeder Endpunkt über eine eigene Laufzeitumgebung mit konfigurierbaren Ressourcen wie CPU Arbeitsspeicher, wodurch Sie mehr Kontrolle über die Leistung haben.
Wenn Sie ein Modell als dedizierten Endpunkt bereitstellen, wird ihm eine eindeutige API-URL zugewiesen, und es nutzt Ihren API-Schlüssel zur Authentifizierung, wodurch sich das Modell problemlos in Anwendungen integrieren lässt. Diese Endpunkte können in 43 Regionen weltweit bereitgestellt werden, sodass Sie die Inferenz näher an Ihren Nutzern ausführen und die Latenzzeit verringern können.
Abb. 2: Sie können dedizierte Endpunkte in 43 Regionen weltweit bereitstellen (Quelle)
Einer der wichtigsten Vorteile ist die automatische Skalierung. Die Endpunkte passen sich automatisch an die eingehenden Anfragen an: Sie werden bei höherem Datenverkehr hochskaliert und bei sinkender Nachfrage wieder heruntergefahren. Da die Skalierung auf Null standardmäßig aktiviert ist, können Endpunkte im Leerlauf heruntergefahren und bei Bedarf neu gestartet werden, was zur Optimierung der Ressourcennutzung beiträgt.
Mit anderen Worten: Dedizierte Endpunkte sind für Produktions-Workloads ausgelegt. Im Vergleich zur gemeinsam genutzten Inferenz bieten sie eine konstant niedrige Latenz, einen höheren Durchsatz und eine größere Zuverlässigkeit.
Außerdem unterliegen dedizierte Endpunkte keinen Ratenbeschränkungen. Anfragen werden direkt an Ihren Endpunkt weitergeleitet, sodass die Menge des Datenverkehrs, die Sie bewältigen können, eher von Ihrer Konfiguration und Skalierung abhängt als von festen Obergrenzen.
Darüber hinaus erleichtern integrierte Überwachungsfunktionen, Protokolle, Zustandsprüfungen sowie ein vorhersehbares Laufzeit- und Startverhalten track und gewährleisten stabile Bereitstellungen in allen Tarifen. Im Free-Tarif dauern Kaltstarts in der Regel zwischen 5 und 45 Sekunden, während die Endpunkte im Pro-Tarif im „Warm“-Zustand bleiben, was zu einer schnelleren und besser vorhersehbaren Inferenzleistung führt.
Einfach ausgedrückt: Dedizierte Endgeräte eignen sich ideal für Echtzeit-Bildverarbeitungs-KI-Anwendungen, die eine zuverlässige, skalierbare und leistungsstarke Inferenz erfordern.
Gemeinsame Inferenz vs. dedizierte Endpunkte: Die wichtigsten Unterschiede
Hier sehen Sie einen detaillierten Vergleich zwischen gemeinsamer Inferenz und dedizierten Endpunkten:
Latenz: In gemeinsam genutzten Umgebungen kann die Latenz aufgrund der gemeinsamen Nutzung von Ressourcen schwanken, während dedizierte Endpunkte konsistentere Antworten mit geringer Latenz liefern.
Regionen: Die gemeinsame Inferenz ist in einigen Regionen (USA, EU, AP) verfügbar, während dedizierte Endpunkte die Bereitstellung in 43 Regionen weltweit unterstützen.
Skalierbarkeit: Bei der gemeinsam genutzten Inferenz ist die Skalierung nicht konfigurierbar, während dedizierte Endpunkte sich automatisch an den eingehenden Datenverkehr anpassen.
Ratenbeschränkungen: Die gemeinsam genutzte Inferenz unterliegt einer Ratenbeschränkung (20 Anfragen oder API-Aufrufe pro Minute und API-Schlüssel), während dedizierte Endpunkte keinen plattformweiten Ratenbeschränkungen unterliegen.
Preise: Die gemeinsame Inferenz ist für Test- und Entwicklungszwecke ohne zusätzliche Kosten enthalten, während dedizierte Endpunkte mehr Kontrolle und Skalierbarkeit bieten, wobei die Nutzung von der Ressourcenkonfiguration und den Bereitstellungsanforderungen abhängt.
Warum dedizierte Endpunkte für Produktions-Workloads besser geeignet sind
Da KI- und Machine-Learning-Anwendungen zunehmend von der Testphase in den praktischen Einsatz übergehen, gewinnen Leistung, Skalierbarkeit und Zuverlässigkeit zunehmend an Bedeutung. Aus diesem Grund bieten dedizierte Endpunkte klare Vorteile gegenüber gemeinsam genutzten Inferenzsystemen.
Mit dedizierten Endpunkten läuft Ihr vortrainiertes oder benutzerdefiniertes Modell auf eigenen Rechenressourcen, sodass die Leistung nicht durch andere Nutzer beeinträchtigt wird. Dies trägt dazu bei, die Latenz niedrig und konstant zu halten, was für Echtzeitanwendungen wie Videoanalysen und Überwachungssysteme wichtig ist.
Abb. 3: Ein Überblick über die Bereitstellung mithilfe eines dedizierten Inferenz-Endpunkts (Quelle)
Denken Sie beispielsweise an ein Analysesystem für den Einzelhandel, das Live-Kameraaufnahmen aus mehreren Filialen verarbeitet. Durch den Einsatz von Endpunkten in 43 Regionen weltweit kann die Inferenz näher an den einzelnen Filialen ausgeführt werden, wodurch die Latenz verringert und die Reaktionszeiten verbessert werden.
Bei gemeinsamer Inferenz, bei der Ressourcen gemeinsam genutzt werden und die Regionen begrenzt sind, kann die Leistung in Spitzenzeiten schwanken.
Spezielle Endpunkte können zudem ein höheres Datenaufkommen bewältigen und sich automatisch an den Bedarf anpassen. Dank integrierter Überwachungsfunktionen, Protokollen und Zustandsprüfungen bieten sie eine besser vorhersehbare Leistung und eignen sich daher besonders für umfangreiche und kontinuierlich laufende KI-Workloads.
Wo sich die gemeinsame Inferenz in den Workflow der Vision-KI einfügt
Wenn Sie sich mit den Unterschieden zwischen Shared Inference und dedizierten Endpunkten beschäftigen, fragen Sie sich vielleicht, wo Shared Inference in den gesamten Computer-Vision-Workflow passt.
Werfen wir noch einmal einen Blick auf das Beispiel der Einzelhandelsanalyse. Bevor eine Bildverarbeitungslösung in mehreren Filialen eingeführt wird, müssen die Teams in der Regel testen, wie sie mit realen Daten funktioniert, und sie auf der Grundlage dieser Ergebnisse optimieren.
Die verteilte Inferenz vereinfacht diesen Prozess, da Sie Beispielbilder oder Videobilder von Ladenkameras senden und Vorhersagen schnell überprüfen können, ohne eine Infrastruktur einrichten zu müssen. Dies ist besonders nützlich, um das Modellverhalten zu testen, fehlerhafte Vorhersagen zu beheben und Ergebnisse unter verschiedenen Bedingungen zu validieren, beispielsweise bei Änderungen der Beleuchtung oder der Ladengestaltung.
Durch diese iterative Vorgehensweise können Teams die Genauigkeit und Zuverlässigkeit des Modells verbessern, bevor sie es in die Produktion überführen. Sobald das Modell in diesen Testszenarien gute Ergebnisse liefert, kann es auf dedizierten Endpunkten bereitgestellt werden, um es an mehreren Standorten in Echtzeit einzusetzen.
Gemeinsame Inferenz eignet sich auch gut für Anwendungen mit geringer oder unregelmäßiger Nutzung. So könnte beispielsweise ein kleines Einzelhandelsgeschäft diese Funktion nutzen, um gelegentlich die Kundenfrequenz zu analysieren oder die Kundenaktivitäten zu bestimmten Zeiten zu überprüfen, ohne dass eine vollständig skalierte Bereitstellung erforderlich wäre. In solchen Fällen bietet sie eine einfache und kostengünstige Möglichkeit, Inferenz bei Bedarf durchzuführen.
Anwendungsbeispiele aus der Praxis für dedizierte Endpunkte
Da KI-Anwendungen mittlerweile über die Testphase hinausgehen, wirkt sich die Wahl der Bereitstellungsform zunehmend direkt auf Leistung, Skalierbarkeit und Benutzererfahrung aus. Spezielle Endpunkte finden branchenübergreifend breite Anwendung, da sie eine stabile Leistung, geringe Latenzzeiten und die Fähigkeit bieten, umfangreiche Workloads zu bewältigen.
Hier sind einige gängige Anwendungsfälle, die zeigen, wie dedizierte Endpunkte in der Praxis eingesetzt werden können:
Einzelhandel und Videoanalyse: Eine Einzelhandelskette kann mithilfe von Computer Vision die Bewegungen track , beliebte Produkte identifizieren und die Aktivitäten im Geschäft in Echtzeit überwachen. Spezielle Endgeräte sorgen für schnelle und konsistente Inferenz über mehrere Filialen hinweg, selbst zu Stoßzeiten.
Fertigung und Qualitätsprüfung: An einer Fertigungslinie können Modelle detect oder Anomalien detect , während die Produkte das System durchlaufen. Spezielle Endpunkte unterstützen kontinuierliche Inferenz in Echtzeit und helfen den Teams, Probleme frühzeitig zu erkennen und die Produktqualität aufrechtzuerhalten, ohne den Betrieb zu verlangsamen.
Gesundheitswesen und medizinische Bildgebung: Gesundheitsdienstleister und Diagnoselabore können sich auf Bildverarbeitungsmodelle verlassen, um medizinische Bilder wie Röntgenaufnahmen oder Scans zu analysieren. Spezielle Endgeräte bieten zuverlässige, konsistente Leistung, was bei der Verarbeitung sensibler Daten und zeitkritischer Diagnosen von entscheidender Bedeutung ist.
Lager- und Logistikautomatisierung: In großen Lagern werden häufig mehrere identische Systeme betrieben, wie beispielsweise Förderbänder und Sortieranlagen, die praktisch als Kopien derselben Anlage fungieren. Modelle der Bildverarbeitung können jede dieser Kopien überwachen, um detect wie Staus oder falsch geleitete Pakete detect . Spezielle Endgeräte gewährleisten eine konsistente Inferenz über alle Kopien hinweg in Echtzeit.
Übergang von gemeinsamer Inferenz zu dedizierten Endpunkten
Einer der wichtigsten Vorteile der Ultralytics besteht darin, wie einfach es ist, bei wachsendem Anwendungsumfang von gemeinsam genutzten Inferenz-Instanzen auf dedizierte Endpunkte umzusteigen. Anstatt das Tool zu wechseln oder Ihre Konfiguration neu aufzubauen, können Sie innerhalb derselben Umgebung zu einer produktionsreifen Bereitstellung übergehen.
Nachdem Sie Ihr Modell mit Shared Inference getestet haben, ist der Wechsel zu einem dedizierten Endpunkt ein einfacher nächster Schritt. Sie können dasselbe Modell auf einem Endpunkt bereitstellen, Ihre bevorzugte Region und Rechenressourcen auswählen und die Endpunkt-URL in Ihrer Anwendung aktualisieren. Die Integration bleibt im Großen und Ganzen unverändert, sodass sich an der Art und Weise, wie Sie Anfragen senden oder Antworten verarbeiten, kaum etwas ändert.
Abb. 4: Anzeige einer dedizierten Endpunkt-URL auf Ultralytics (Quelle)
Das bedeutet, dass Sie mit nur wenigen Klicks von der Testumgebung in die Produktion wechseln können. Wenn Ihr Arbeitsaufkommen steigt oder Ihre Anwendung eine gleichbleibendere Leistung erfordert, können Sie auf dedizierte Endpunkte umsteigen, ohne Ihren bestehenden Arbeitsablauf zu unterbrechen.
Weitere Informationen zur Bereitstellung von Modellen über dedizierte Endpunkte auf der Ultralytics finden Sie in der offiziellen DokumentationUltralytics .
Wesentliche Erkenntnisse
Shared Inference ist ein hervorragender Ausgangspunkt für Tests und Experimente, doch Produktions-Workloads erfordern mehr Konsistenz und Skalierbarkeit. Wenn Anwendungen wachsen, bieten dedizierte Endpunkte die Leistung und Zuverlässigkeit, die für den Einsatz in der Praxis erforderlich sind. Damit sind sie die beste Wahl für die meisten Produktionsumgebungen.