Can I deploy the same model to multiple regions?

Oui. Chaque modèle peut être déployé simultanément dans plusieurs régions. Le nombre de points de terminaison disponibles dépend de votre forfait.

What's the difference between shared and dedicated inference?

L'inférence partagée s'exécute sur un service multi-locataires et est soumise à une limitation de débit, ce qui la rend idéale pour le développement et les tests. Les points de terminaison dédiés sont des services à locataire unique sans limitation de débit, offrant une latence constante et des ressources configurables — conçus pour les charges de travail de production évolutives.

Déployer des modèles de vision par ordinateur à l'échelle mondiale

Q: What is model deployment?

Le déploiement d'un modèle consiste à rendre accessible un modèle de vision par ordinateur entraîné afin qu'il puisse recevoir et traiter des données du monde réel. Une fois déployé, les applications peuvent envoyer des images et des images vidéo au modèle via une API et recevoir des prédictions. Sur Ultralytics , vous pouvez tester votre modèle dans le navigateur, le déployer sur un point de terminaison dédié dans l'une des 43 régions du monde et surveiller ses performances, le tout depuis un seul et même espace de travail.

Tableau de bord présentant les indicateurs de performance du modèle, avec mAP50 96,2 %, mAP50 de 90,1 % et une précision de 87,2 %, ainsi qu'un panneau de journaux pour le modèle de segmentation YOLO26s déployé à Paris.

Une mise à l'échelle automatique adaptée à votre trafic

Les terminaux dédiés s'adaptent automatiquement aux pics de trafic et se mettent en veille lorsqu'ils ne sont pas utilisés.

Réglage par défaut sur zéro. Aucun coût lorsque votre point de terminaison ne reçoit pas de requêtes.

Aucune limite de débit. Les points de terminaison dédiés ne sont soumis à aucune limite de débit.

Ressources configurables. Choisissez le nombre de cœurs CPU 1 à 8) et la quantité de mémoire (1 à 32 Go) en fonction de votre charge de travail.

Plus de 17 formats d'exportation. Votre modèle. N'importe quel environnement.

Ultralytics prend en charge les déploiements dans le cloud et en périphérie pour des performances de haut niveau. TousYOLO Ultralytics sont optimisés en natif pour fonctionner efficacement dans tous les environnements, offrant une grande précision, des performances fiables et une compatibilité optimale, même sur des appareils en périphérie disposant de ressources de calcul limitées.

Liste des formats d'exportation pour PyTorch , notamment ONNX, TorchScript, OpenVINO, TensorRT GPU, CoreML et TF , accompagnés de leurs icônes et codes de format respectifs.

Tableau de bord indiquant un total de 13 959 requêtes, 3 déploiements actifs, un taux d'erreur de 0 % et une latence P95 de 14 ms au cours des dernières 24 heures.

Surveiller l'ensemble de l'environnement de production

Une visibilité complète en temps réel sur les performances de vos modèles. Une fois vos modèles mis en production, le tableau de bord des déploiements vous offre une vue d'ensemble centralisée de tous les points de terminaison en cours d'exécution, avec les indicateurs et les outils dont vous avez besoin pour optimiser vos infrastructures et garantir leur fiabilité.

Volume de requêtes. Nombre total de requêtes sur l'ensemble des points de terminaison au cours des dernières 24 heures.

Latence P95. Temps de réponse au 95e centile permettant track les performances dans des conditions d'utilisation track .

Taux d'erreur. Recevez des alertes lorsque les taux d'erreur dépassent 5 %, avec des journaux filtrés par niveau de gravité pour diagnostiquer rapidement les problèmes.

Contrôles de santé. Surveillance en temps réel des terminaux avec réessais automatiques. Affichage de la latence pour chaque contrôle.

Foire aux questions

Puis-je déployer le même modèle dans plusieurs régions ?

Oui. Chaque modèle peut être déployé simultanément dans plusieurs régions . Le nombre total de points de terminaison disponibles dépend de votre formule : 3 pour la version gratuite, 10 pour la version Pro et un nombre illimité pour la version Enterprise. Cela vous permet de servir des utilisateurs partout dans le monde grâce à des points de terminaison à faible latence dans chaque région.

Combien coûte le déploiement ?

Les points de terminaison dédiés sont facturés en fonction de CPU, de la mémoire et du volume de requêtes. La fonctionnalité « Scale-to-zero » étant activée par défaut, vous ne payez que pour le temps d'inférence actif ; il n'y a aucun coût lorsque votre point de terminaison ne reçoit pas de requêtes. L'inférence partagée est incluse dans votre forfait de plateforme.

Quelle est la différence entre l'inférence partagée et l'inférence dédiée ?

Les exécutions d'inférence partagées s'effectuent sur un service multi-locataires couvrant 3 régions et sont limitées à 20 requêtes par minute. Elles conviennent particulièrement au développement et aux tests rapides. Les points de terminaison dédiés sont des services mono-locataires déployés dans l'une des 43 régions disponibles, sans limite de débit, avec une latence constante et des ressources configurables, conçus pour les charges de travail de production évolutives.

Combien de temps dure le déploiement ?

Le déploiement d'un point de terminaison dédié prend généralement une à deux minutes. Cela comprend la mise à disposition du conteneur, son démarrage et un premier contrôle de l'état de santé visant à vérifier que le service est opérationnel. Une fois que le point de terminaison est prêt, il commence immédiatement à accepter les requêtes d'inférence .

Qu'est-ce que le déploiement de modèles ?

Le déploiement d'un modèle consiste à rendre un modèle de vision par ordinateur entraîné opérationnel afin qu'il puisse recevoir et traiter des données du monde réel. Une fois déployées, les applications de vision par ordinateur peuvent envoyer des images et des images vidéo au modèle via une API et recevoir des prédictions, ce qui permet de réaliser toutes sortes de tâches, allant du contrôle qualité automatisé à la détection d'objets en temps réel dans les systèmes de production. Sur Ultralytics , le déploiement est directement intégré au flux de travail d'entraînement de bout en bout. Une fois votre modèle entraîné, vous pouvez le tester dans le navigateur, le déployer sur un point de terminaison dédié dans l'une des 43 régions mondiales et surveiller ses performances, le tout depuis le même espace de travail.

Déployer des modèles de vision par ordinateur dans 43 régions du monde

Testez votre modèle dans le navigateur

Réaction immédiate

Paramètres réglables

Convient à toutes les tâches

Déployer dans 43 régions à travers le monde

Une mise à l'échelle automatique adaptée à votre trafic

Plus de 17 formats d'exportation. Votre modèle. N'importe quel environnement.

Surveiller l'ensemble de l'environnement de production

Intégration en quelques minutes

Apprenez à déployer !

Faut-il d'abord entraîner un modèle ?