Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant

ultralytics

Déployer des modèles d'IA visuelle dans 43 régions à travers le monde

Déployez vos modèles entraînés, du test dans le navigateur jusqu'aux points de terminaison de production, en quelques clics seulement, grâce à la mise à l'échelle automatique, à la surveillance en temps réel et à plus de 17 formats d'exportation. La solution complète pour le déploiement de cas d'utilisation concrets.

Interface utilisateur présentant les options d'exportation pour PyTorch , notamment ONNX, TorchScript, OpenVINO, TensorRT, CoreML, TF , TF SavedModel et TF GraphDef, avec une carte du monde indiquant trois déploiements en vert et plusieurs repères de localisation en rouge.

43+

Régions de déploiement

17+

Formats d'exportation

500+

Déploiements en cours

Déployer dans 43 régions à travers le monde

Déployez vos modèles sur des points de terminaison dédiés répartis dans 43 régions à travers le monde, couvrant les Amériques, l'Europe, l'Asie-Pacifique et le Moyen-Orient. Chaque point de terminaison est un service à locataire unique doté de sa propre URL, d'une mise à l'échelle automatique et d'une surveillance indépendante.
Carte du monde sur laquelle divers lieux sont indiqués par des repères colorés en Amérique du Nord, en Europe et en Asie.
Tableau de bord présentant les indicateurs de performance du modèle, avec mAP50 96,2 %, mAP50 de 90,1 % et une précision de 87,2 %, ainsi qu'un panneau de journaux pour le modèle de segmentation YOLO26s déployé à Paris.

Une mise à l'échelle automatique adaptée à votre trafic

Les terminaux dédiés s'adaptent automatiquement pour gérer les pics de trafic et se réduisent à zéro en période d'inactivité, ce qui vous évite de payer pour des ressources de calcul que vous n'utilisez pas.

Réglage par défaut sur zéro. Aucun coût lorsque votre point de terminaison ne reçoit pas de requêtes.

Aucune limite de débit. Aucune limite de débit. Contrairement à l'inférence partagée, les points de terminaison dédiés ne sont soumis à aucune limite de débit ; leur capacité n'est limitée que par les ressources de votre point de terminaison.

Ressources configurables. Choisissez le nombre CPU (1 à 8) et la quantité de mémoire (1 à 32 Go) en fonction des besoins de votre modèle et de vos volumes de trafic.

Plus de 17 formats d'exportation. Votre modèle. N'importe quel environnement.

Ultralytics prend en charge à la fois le déploiement dans le cloud et en périphérie. TousYOLO Ultralytics sont optimisés en natif pour fonctionner efficacement dans tous les environnements, offrant des performances fiables même sur du matériel aux ressources de calcul limitées.

Liste des formats d'exportation pour PyTorch , notamment ONNX, TorchScript, OpenVINO, TensorRT GPU, CoreML et TF , accompagnés de leurs icônes et codes de format respectifs.
Tableau de bord indiquant un total de 13 959 requêtes, 3 déploiements actifs, un taux d'erreur de 0 % et une latence P95 de 14 ms au cours des dernières 24 heures.

Surveiller l'ensemble de l'environnement de production

Une visibilité complète en temps réel sur les performances de vos modèles. Une fois vos modèles mis en production, le tableau de bord des déploiements vous offre une vue d'ensemble centralisée de tous les points de terminaison en cours d'exécution, avec les indicateurs dont vous avez besoin pour garantir le bon fonctionnement de vos frameworks.

Volume de requêtes. Nombre total de requêtes sur l'ensemble des points de terminaison au cours des dernières 24 heures.

Latence P95. Temps de réponse au 95e centile permettant track les performances dans des conditions d'utilisation track .

Taux d'erreur. Alertes mises en évidence lorsque les taux d'erreur dépassent 5 %, avec des journaux filtrés par niveau de gravité pour vous aider à diagnostiquer rapidement les problèmes.

Contrôles de santé. Indicateurs d'état en temps réel avec nouvelle tentative automatique lorsque les points de terminaison ne sont pas opérationnels. Le temps de réponse s'affiche à côté de chaque contrôle.

Intégration en quelques minutes

Chaque point de terminaison déployé est accompagné d'exemples de code générés automatiquement en Python, JavaScript et cURL, dans lesquels votre URL de point de terminaison et votre clé API sont déjà renseignées. Il vous suffit de copier-coller ces exemples pour commencer à envoyer des requêtes d'inférence depuis n'importe quelle application.

Extrait Python permettant d'envoyer une image vers un point de terminaison de déploiement à l'aide de la bibliothèque requests, avec des paramètres d'autorisation et d'inférence.

Faut-il d'abord entraîner un modèle ?

Ultralytics regroupe l'annotation, l'entraînement et le déploiement au sein d'une seule et même plateforme.

Foire aux questions

Puis-je déployer le même modèle dans plusieurs régions ?

Oui. Chaque modèle peut être déployé simultanément dans plusieurs régions . Le nombre total de points de terminaison disponibles dépend de votre formule : 3 pour la version gratuite, 10 pour la version Pro et un nombre illimité pour la version Enterprise. Cela vous permet de servir des utilisateurs partout dans le monde grâce à des points de terminaison à faible latence dans chaque région.

Combien coûte le déploiement ?

Les points de terminaison dédiés sont facturés en fonction de CPU, de la mémoire et du volume de requêtes. La fonctionnalité « Scale-to-zero » étant activée par défaut, vous ne payez que pour le temps d'inférence actif ; il n'y a aucun coût lorsque votre point de terminaison ne reçoit pas de requêtes. L'inférence partagée est incluse dans votre forfait de plateforme.

Quelle est la différence entre l'inférence partagée et l'inférence dédiée ?

Les exécutions d'inférence partagées s'effectuent sur un service multi-locataires couvrant 3 régions et sont limitées à 20 requêtes par minute. Elles conviennent particulièrement au développement et aux tests rapides. Les points de terminaison dédiés sont des services mono-locataires déployés dans l'une des 43 régions disponibles, sans limite de débit, avec une latence constante et des ressources configurables, conçus pour les charges de travail de production évolutives.

Combien de temps dure le déploiement ?

Le déploiement d'un point de terminaison dédié prend généralement une à deux minutes. Cela comprend la mise à disposition du conteneur, son démarrage et un premier contrôle de l'état de santé visant à vérifier que le service est opérationnel. Une fois que le point de terminaison est prêt, il commence immédiatement à accepter les requêtes d'inférence .

Qu'est-ce que le déploiement de modèles ?

Le déploiement d'un modèle consiste à rendre un modèle de vision par ordinateur entraîné opérationnel afin qu'il puisse recevoir et traiter des données du monde réel. Une fois déployées, les applications de vision par ordinateur peuvent envoyer des images et des images vidéo au modèle via une API et recevoir des prédictions, ce qui permet de réaliser toutes sortes de tâches, allant du contrôle qualité automatisé à la détection d'objets en temps réel dans les systèmes de production. Sur Ultralytics , le déploiement est directement intégré au flux de travail d'entraînement de bout en bout. Une fois votre modèle entraîné, vous pouvez le tester dans le navigateur, le déployer sur un point de terminaison dédié dans l'une des 43 régions mondiales et surveiller ses performances, le tout depuis le même espace de travail.

Commencez le déploiement dès aujourd'hui

Déployez vos modèles entraînés dans 43 régions du monde grâce à la mise à l'échelle automatique et à la surveillance en temps réel.