ultralytics
Déployez vos modèles entraînés, du test dans le navigateur jusqu'aux points de terminaison de production, en quelques clics seulement, grâce à la mise à l'échelle automatique, à la surveillance en temps réel et à plus de 17 formats d'exportation. La solution complète pour le déploiement de cas d'utilisation concrets.

43+
Régions de déploiement
17+
Formats d'exportation
500+
Déploiements en cours





Les terminaux dédiés s'adaptent automatiquement pour gérer les pics de trafic et se réduisent à zéro en période d'inactivité, ce qui vous évite de payer pour des ressources de calcul que vous n'utilisez pas.
Réglage par défaut sur zéro. Aucun coût lorsque votre point de terminaison ne reçoit pas de requêtes.
Aucune limite de débit. Aucune limite de débit. Contrairement à l'inférence partagée, les points de terminaison dédiés ne sont soumis à aucune limite de débit ; leur capacité n'est limitée que par les ressources de votre point de terminaison.
Ressources configurables. Choisissez le nombre CPU (1 à 8) et la quantité de mémoire (1 à 32 Go) en fonction des besoins de votre modèle et de vos volumes de trafic.
Ultralytics prend en charge à la fois le déploiement dans le cloud et en périphérie. TousYOLO Ultralytics sont optimisés en natif pour fonctionner efficacement dans tous les environnements, offrant des performances fiables même sur du matériel aux ressources de calcul limitées.


Une visibilité complète en temps réel sur les performances de vos modèles. Une fois vos modèles mis en production, le tableau de bord des déploiements vous offre une vue d'ensemble centralisée de tous les points de terminaison en cours d'exécution, avec les indicateurs dont vous avez besoin pour garantir le bon fonctionnement de vos frameworks.
Volume de requêtes. Nombre total de requêtes sur l'ensemble des points de terminaison au cours des dernières 24 heures.
Latence P95. Temps de réponse au 95e centile permettant track les performances dans des conditions d'utilisation track .
Taux d'erreur. Alertes mises en évidence lorsque les taux d'erreur dépassent 5 %, avec des journaux filtrés par niveau de gravité pour vous aider à diagnostiquer rapidement les problèmes.
Contrôles de santé. Indicateurs d'état en temps réel avec nouvelle tentative automatique lorsque les points de terminaison ne sont pas opérationnels. Le temps de réponse s'affiche à côté de chaque contrôle.
Chaque point de terminaison déployé est accompagné d'exemples de code générés automatiquement en Python, JavaScript et cURL, dans lesquels votre URL de point de terminaison et votre clé API sont déjà renseignées. Il vous suffit de copier-coller ces exemples pour commencer à envoyer des requêtes d'inférence depuis n'importe quelle application.

Oui. Chaque modèle peut être déployé simultanément dans plusieurs régions . Le nombre total de points de terminaison disponibles dépend de votre formule : 3 pour la version gratuite, 10 pour la version Pro et un nombre illimité pour la version Enterprise. Cela vous permet de servir des utilisateurs partout dans le monde grâce à des points de terminaison à faible latence dans chaque région.
Les points de terminaison dédiés sont facturés en fonction de CPU, de la mémoire et du volume de requêtes. La fonctionnalité « Scale-to-zero » étant activée par défaut, vous ne payez que pour le temps d'inférence actif ; il n'y a aucun coût lorsque votre point de terminaison ne reçoit pas de requêtes. L'inférence partagée est incluse dans votre forfait de plateforme.
Les exécutions d'inférence partagées s'effectuent sur un service multi-locataires couvrant 3 régions et sont limitées à 20 requêtes par minute. Elles conviennent particulièrement au développement et aux tests rapides. Les points de terminaison dédiés sont des services mono-locataires déployés dans l'une des 43 régions disponibles, sans limite de débit, avec une latence constante et des ressources configurables, conçus pour les charges de travail de production évolutives.
Le déploiement d'un point de terminaison dédié prend généralement une à deux minutes. Cela comprend la mise à disposition du conteneur, son démarrage et un premier contrôle de l'état de santé visant à vérifier que le service est opérationnel. Une fois que le point de terminaison est prêt, il commence immédiatement à accepter les requêtes d'inférence .
Le déploiement d'un modèle consiste à rendre un modèle de vision par ordinateur entraîné opérationnel afin qu'il puisse recevoir et traiter des données du monde réel. Une fois déployées, les applications de vision par ordinateur peuvent envoyer des images et des images vidéo au modèle via une API et recevoir des prédictions, ce qui permet de réaliser toutes sortes de tâches, allant du contrôle qualité automatisé à la détection d'objets en temps réel dans les systèmes de production. Sur Ultralytics , le déploiement est directement intégré au flux de travail d'entraînement de bout en bout. Une fois votre modèle entraîné, vous pouvez le tester dans le navigateur, le déployer sur un point de terminaison dédié dans l'une des 43 régions mondiales et surveiller ses performances, le tout depuis le même espace de travail.
Déployez vos modèles entraînés dans 43 régions du monde grâce à la mise à l'échelle automatique et à la surveillance en temps réel.