Can I deploy the same model to multiple regions?

Ja. Jedes Modell kann gleichzeitig in mehreren Regionen bereitgestellt werden. Die Anzahl der verfügbaren Endpunkte hängt von Ihrem Tarif ab.

What's the difference between shared and dedicated inference?

Die gemeinsame Inferenz läuft auf einem mandantenfähigen Dienst und unterliegt einer Ratenbegrenzung, wodurch sie sich am besten für Entwicklung und Tests eignet. Dedizierte Endpunkte sind mandantenunabhängige Dienste ohne Ratenbegrenzung, mit konsistenter Latenz und konfigurierbaren Ressourcen – entwickelt für skalierbare Produktions-Workloads.

How long does deployment take?

Die Bereitstellung eines dedizierten Endpunkts dauert in der Regel ein bis zwei Minuten, einschließlich der Containerbereitstellung, des Startvorgangs und einer ersten Funktionsprüfung. Sobald der Endpunkt bereit ist, nimmt er sofort Inferenzanfragen entgegen.

Computer-Vision-Modelle weltweit bereitstellen

Dashboard mit Leistungsmetriken des Modells: mAP50 96,2 %, mAP50 bei 90,1 % und Präzision bei 87,2 %, ergänzt durch einen Protokollbereich für das in Paris eingesetzte Segmentierungsmodell YOLO26s.

Automatische Skalierung, die sich Ihrem Datenverkehr anpasst

Spezielle Endpunkte werden bei Datenverkehrsspitzen hochgefahren und im Leerlauf auf null heruntergefahren.

Standardmäßig auf Null skalieren. Keine Kosten, wenn Ihr Endpunkt keine Anfragen erhält.

Keine Ratenbeschränkungen. Dedizierte Endpunkte unterliegen keinen Durchsatzbeschränkungen.

Konfigurierbare Ressourcen. Wählen Sie CPU 1–8 Kerne) und Arbeitsspeicher (1–32 GB) entsprechend Ihrer Arbeitslast.

Über 17 Exportformate. Ihr Modell. Jede Umgebung.

Ultralytics unterstützt den Einsatz in der Cloud und am Netzwerkrand für hohe Leistung. AlleYOLO Ultralytics sind von Haus aus so optimiert, dass sie in allen Umgebungen effizient laufen, und bieten selbst auf Edge-Geräten mit begrenzten Rechenressourcen hohe Genauigkeit, zuverlässige Leistung und Kompatibilität.

Liste der Exportformate für PyTorch , darunter ONNX, TorchScript, OpenVINO, TensorRT GPU, CoreML und TF , mit den jeweiligen Symbolen und Formatcodes.

Das Dashboard zeigt insgesamt 13.959 Anfragen, 3 aktive Bereitstellungen, eine Fehlerquote von 0 % und eine P95-Latenz von 14 ms in den letzten 24 Stunden an.

Überwachen Sie alles in der Produktion

Vollständige Echtzeit-Transparenz über die Leistung Ihrer Modelle. Sobald Ihre Modelle live sind, bietet Ihnen das Deployment-Dashboard einen zentralen Überblick über jeden laufenden Endpunkt – einschließlich der Metriken und Tools, die Sie benötigen, um Ihre Frameworks zu optimieren und einen zuverlässigen Betrieb sicherzustellen.

Anfragevolumen. Gesamtzahl der Anfragen über alle Endpunkte hinweg in den letzten 24 Stunden.

P95-Latenz. Reaktionszeit im 95. Perzentil zur track der Leistung track Anwendungsfällen.

Fehlerquoten. Erhalten Sie Benachrichtigungen, sobald die Fehlerquote 5 % übersteigt, und nutzen Sie nach Schweregrad gefilterte Protokolle, um Probleme schnell zu diagnostizieren.

Zustandsprüfungen. Live-Überwachung von Endpunkten mit automatischer Wiederholung. Anzeige der Latenz pro Prüfung.

Häufig gestellte Fragen

Kann ich dasselbe Modell in mehreren Regionen bereitstellen?

Ja. Jedes Modell kann gleichzeitig in mehreren Regionen bereitgestellt werden. Die Gesamtzahl der verfügbaren Endpunkte hängt von Ihrem Tarif ab: 3 bei der kostenlosen Version, 10 bei der Pro-Version und unbegrenzt bei der Enterprise-Version. So können Sie Nutzer weltweit mit Endpunkten mit geringer Latenz in jeder Region bedienen.

Wie viel kostet die Bereitstellung?

Dedizierte Endpunkte werden auf Basis von CPU, Arbeitsspeicher und Anforderungsvolumen abgerechnet. Da „Scale-to-Zero“ standardmäßig aktiviert ist, zahlen Sie nur für die aktive Inferenzzeit; es fallen keine Kosten an, wenn Ihr Endpunkt keine Anforderungen empfängt. Die gemeinsame Inferenz ist in Ihrem Plattform-Tarif enthalten.

Was ist der Unterschied zwischen gemeinsamer und dedizierter Inferenz?

Die gemeinsame Inferenz läuft auf einem mandantenfähigen Dienst in drei Regionen und ist auf 20 Anfragen pro Minute begrenzt. Sie eignet sich am besten für die Entwicklung und schnelle Tests. Dedizierte Endpunkte sind mandantenunabhängige Dienste, die in einer von 43 Regionen bereitgestellt werden und keine Ratenbegrenzung, eine konsistente Latenz sowie konfigurierbare Ressourcen bieten; sie sind für skalierbare Produktions-Workloads ausgelegt.

Wie lange dauert die Bereitstellung?

Die Bereitstellung eines dedizierten Endpunkts dauert in der Regel ein bis zwei Minuten. Dies umfasst die Bereitstellung des Containers, den Startvorgang sowie eine erste Funktionsprüfung, um sicherzustellen, dass der Dienst betriebsbereit ist. Sobald der Endpunkt bereit ist, nimmt er sofort Inferenzanfragen entgegen.

Was ist Model Deployment?

Die Modellbereitstellung ist der Prozess, bei dem ein trainiertes Computer-Vision-Modell bereitgestellt wird, um Daten aus der realen Welt zu empfangen und zu verarbeiten. Nach der Bereitstellung können Computer-Vision-Anwendungen über eine API Bilder und Videobilder an das Modell senden und Vorhersagen empfangen, was alles von der automatisierten Qualitätsprüfung bis hin zur Objekterkennung in Echtzeit in Produktionssystemen ermöglicht. Auf Ultralytics ist die Bereitstellung direkt in den durchgängigen Trainings-Workflow integriert. Sobald Ihr Modell trainiert ist, können Sie es im Browser testen, auf einem dedizierten Endpunkt in einer von 43 Regionen weltweit bereitstellen und seine Leistung überwachen – alles über denselben Arbeitsbereich.

Computer-Vision-Modelle in 43 Regionen weltweit bereitstellen

Testen Sie Ihr Modell im Browser

Sofortiges Feedback

Einstellbare Parameter

Eignet sich für jede Aufgabe

In 43 Regionen weltweit bereitstellen

Automatische Skalierung, die sich Ihrem Datenverkehr anpasst

Über 17 Exportformate. Ihr Modell. Jede Umgebung.

Überwachen Sie alles in der Produktion

In wenigen Minuten integrieren

Erfahren Sie, wie man eine Bereitstellung durchführt!

Müssen Sie zuerst ein Modell trainieren?