Ultralytics Platform : Déployer des modèles de vision par ordinateur dans n'importe quelle région
Apprends à déployer tes modèles de vision par ordinateur dans n'importe quelle région à l'aide de la Ultralytics Platform pour un déploiement IA évolutif, rapide et flexible.
Plus tôt cette semaine, Ultralytics a lancé Ultralytics Platform, un nouvel environnement complet conçu pour accélérer la mise en service de systèmes de vision par ordinateur (CV) en rationalisant chaque étape du flux de travail de l'IA visuelle, de la préparation des données et du développement de modèles jusqu'au déploiement.
L'une des motivations clés derrière le développement de la plateforme Ultralytics est que transformer une solution de vision par ordinateur, qui permet aux machines d'analyser des images et des vidéos, en un impact concret nécessite plus que la simple construction d'un modèle robuste. Une fois qu'un modèle a été entraîné et validé, il doit être déployé pour que les applications puissent envoyer des images, recevoir des prédictions et exécuter des inférences de manière fiable dans des environnements réels.
Cette étape du cycle de vie de l'apprentissage automatique est celle où les modèles de vision par ordinateur dépassent le stade de l'expérimentation pour commencer à alimenter des systèmes pratiques. Même si les étapes précédentes comme la préparation des jeux de données, l'annotation, l'entraînement du modèle et les tests se déroulent sans encombre, sans un moyen fiable de déployer les modèles, ces résultats ne peuvent pas faire la différence.
La réalité dans de nombreux projets de vision par ordinateur est que le déploiement peut être l'une des étapes les plus complexes du flux de travail.
Les équipes doivent souvent configurer des API d'inférence, gérer les ressources de calcul, déployer des modèles au plus près des utilisateurs pour réduire la latence, et surveiller les performances une fois que les systèmes sont en production.
La plateforme Ultralytics rationalise et automatise ce processus en offrant de multiples options de déploiement, notamment des formats d'exportation de modèles, des services d'inférence partagés et des points de terminaison dédiés dans des régions du monde entier. Grâce à une infrastructure gérée et une surveillance intégrée, les équipes peuvent facilement passer de modèles entraînés à des systèmes de vision par ordinateur prêts pour la production.

Fig 1. Un aperçu du déploiement de modèles avec la plateforme Ultralytics (Source)
Dans cet article, nous allons explorer comment déployer des modèles de vision par ordinateur vers n'importe quelle région en utilisant des points de terminaison dédiés sur la plateforme Ultralytics. Commençons !
Link to this sectionQu'est-ce que le déploiement de modèle de CV ?#
Avant de plonger dans la manière de déployer des modèles d'apprentissage profond en utilisant la plateforme Ultralytics, comprenons mieux ce que signifie réellement le déploiement de modèle de vision par ordinateur.
Le déploiement de modèle de vision par ordinateur est le processus qui consiste à prendre un modèle entraîné et à le rendre disponible pour une utilisation dans le monde réel. Au lieu de fonctionner uniquement dans un environnement d'entraînement, le modèle est configuré de sorte que les applications puissent lui envoyer des images ou des vidéos et recevoir des prédictions en retour.
Par exemple, un modèle pourrait détecter des objets dans une image, effectuer une segmentation d'image, identifier des articles dans un entrepôt ou reconnaître des motifs dans des séquences vidéo. Dans la plupart des systèmes réels, cela se produit via une API ou un point de terminaison d'inférence.
Une application envoie une image au modèle, le modèle la traite, et il retourne une prédiction en quelques millisecondes. C'est ce qui permet aux modèles de vision par ordinateur comme Ultralytics YOLO de rendre possible des applications en temps réel.
Les modèles peuvent être déployés dans différents environnements selon le cas d'utilisation. Certains fonctionnent dans le cloud (via des plateformes cloud) et de nombreuses applications peuvent y accéder, tandis que d'autres s'exécutent sur des appareils en périphérie (edge devices), comme des caméras sur site, des robots ou des systèmes embarqués qui nécessitent des prédictions locales rapides.
Link to this sectionOptions de déploiement de modèles d'IA sur la plateforme Ultralytics#
Bien que la plateforme Ultralytics réponde à de nombreux défis rencontrés par la communauté de la vision par ordinateur, en particulier en ce qui concerne le déploiement de modèles, elle offre des moyens flexibles d'exécuter des inférences en fonction des besoins de ton application.
Voici un aperçu rapide des options de déploiement de modèles disponibles sur la plateforme :
- Exportation de modèle : Tu peux exporter des modèles vers 17 formats différents, dont ONNX, TensorRT, CoreML et TFLite, ce qui permet d'exécuter des modèles dans un large éventail d'environnements tels que des appareils en périphérie comme Raspberry Pi et NVIDIA Jetson, des applications mobiles, des conteneurs Docker et une infrastructure personnalisée.
- Inférence partagée : La plateforme te permet d'exécuter des prédictions via un service d'inférence partagé géré, ce qui est idéal pour tester rapidement des modèles.
- Points de terminaison dédiés : Déploie facilement des modèles en tant que services indépendants avec des URL d'API uniques qui peuvent fonctionner dans 43 régions mondiales, avec une mise à l'échelle automatique, une surveillance et des contrôles d'état intégrés pour les déploiements en production.
Link to this sectionDéploiement en utilisant des points de terminaison dédiés#
L'un des moyens les plus évolutifs d'exécuter des modèles pré-entraînés ou des modèles de vision par ordinateur personnalisés en production sur la plateforme Ultralytics consiste à utiliser des points de terminaison dédiés. Un point de terminaison dédié te permet de déployer un modèle entraîné en tant que service propre, afin que les applications puissent lui envoyer des images et recevoir des prédictions via une API.
Au lieu d'exécuter un modèle uniquement dans un environnement d'entraînement ou un notebook local, le déployer en tant que point de terminaison le rend accessible à de vraies applications. Par exemple, un système d'entrepôt pourrait envoyer des images de colis pour la détection d'objets, une caméra intelligente pourrait analyser des images vidéo, ou un système robotique pourrait utiliser des prédictions pour guider des actions.
Chaque point de terminaison dédié fonctionne comme un service à locataire unique (single-tenant), ce qui signifie que l'infrastructure exécutant ton modèle n'est pas partagée avec d'autres utilisateurs. Cela offre des performances plus prévisibles et facilite la surveillance du comportement du modèle en production.
Link to this sectionComprendre la fonctionnalité des points de terminaison d'inférence dédiés#
Tu peux concevoir un point de terminaison dédié comme un service hébergé pour ton modèle. La plateforme Ultralytics fournit une URL de point de terminaison unique qui sert de point d'entrée pour les applications.
Lorsqu'une application envoie une requête à cette URL, elle inclut une image et des paramètres optionnels tels que des seuils de confiance ou la taille de l'image, ainsi qu'une clé API pour l'authentification.
Le service exécute l'inférence sur l'image en utilisant ton modèle et renvoie les prédictions dans une réponse structurée. Cette configuration permet aux développeurs d'intégrer des modèles de vision par ordinateur dans des systèmes réels en utilisant des outils web standard.
Les applications peuvent envoyer des requêtes en utilisant Python, JavaScript, cURL ou d'autres clients HTTP, ce qui facilite la connexion des modèles à des tableaux de bord, des systèmes robotiques ou des applications cloud. Comme le point de terminaison fonctionne indépendamment, il peut également prendre en charge la mise à l'échelle, la surveillance et le déploiement mondial, aidant les équipes à construire des systèmes de vision par ordinateur de production fiables.
Link to this sectionLe déploiement multi-région améliore l'inférence en temps réel#
Un avantage clé des points de terminaison dédiés sur la plateforme Ultralytics est la possibilité de déployer des modèles dans 43 régions mondiales. Ces régions couvrent plusieurs parties du monde, notamment l'Amérique du Nord, l'Amérique du Sud, l'Europe, l'Asie-Pacifique, ainsi que le Moyen-Orient et l'Afrique.

Fig 2. La plateforme Ultralytics prend en charge 43 régions mondiales (Source)
Déployer des modèles dans des régions proches de l'endroit où les applications s'exécutent permet de réduire la latence, qui est le temps nécessaire pour qu'une application envoie une image et reçoive une prédiction. Cela peut également aider les organisations à respecter les exigences en matière de confidentialité et de résidence des données en gardant le traitement des données plus proche de leur origine.
Une faible latence est importante pour de nombreuses applications de vision par ordinateur qui dépendent de l'inférence en temps réel, telles que les systèmes robotiques, les appareils de l'Internet des objets (IoT), les pipelines d'inspection industrielle et les infrastructures de villes intelligentes.
Par exemple, si une application est utilisée principalement en Europe, le déploiement du modèle dans une région européenne peut améliorer considérablement les temps de réponse par rapport à l'exécution du modèle dans une région distante.
Link to this sectionComment déployer vers n'importe quelle région avec la plateforme Ultralytics#
Déployer un modèle vers une région spécifique est simple et ne prend généralement que quelques minutes. La plateforme gère la configuration de l'infrastructure afin que les développeurs puissent se concentrer sur l'intégration du modèle dans leurs applications. Passons en revue les étapes impliquées.
Link to this sectionÉtape 1 : Entraîner ou télécharger un modèle#
Avant de déployer, tu as besoin d'un modèle entraîné disponible dans ton projet. Il peut s'agir d'un modèle entraîné directement sur la plateforme Ultralytics, d'un modèle téléchargé après avoir été entraîné ailleurs, ou d'un modèle cloné à partir d'un projet communautaire trouvé dans l'« onglet Explorer », où les projets publics partagés par d'autres utilisateurs peuvent être copiés sur ton propre compte en un seul clic.
Une fois que le modèle est prêt, ouvre sa page de modèle dans ton projet pour continuer.
Link to this sectionÉtape 2 : Ouvrir l'onglet Déployer#
Navigue vers l'onglet Déployer du modèle. Cette section de la plateforme te permet de configurer et de lancer des déploiements.
Sur cette page, tu verras un tableau des régions et une carte interactive affichant les emplacements de déploiement disponibles dans le monde entier. La plateforme mesure la latence depuis ton emplacement et trie les régions en conséquence pour t'aider à choisir la région la plus adaptée.

Fig 3. Régions triées par latence sur la plateforme Ultralytics (Source)
Link to this sectionÉtape 3 : Choisir une région de déploiement#
Sélectionne une région en fonction de l'endroit où se trouvent tes utilisateurs ou tes applications. Déployer le modèle plus près de la source des requêtes peut réduire considérablement les temps de réponse.
Link to this sectionÉtape 4 : Déployer le point de terminaison#
Après avoir sélectionné la région et confirmé la configuration, tu peux cliquer sur Déployer.
La plateforme prépare ensuite l'environnement de déploiement, extrait l'image du modèle, démarre le service et effectue un contrôle d'état pour s'assurer que le point de terminaison est prêt. Ce processus prend généralement environ une à deux minutes.
Une fois le déploiement terminé, la plateforme génère une URL de point de terminaison unique que les applications peuvent utiliser pour envoyer des requêtes d'inférence.

Fig 4. Un exemple de point de terminaison déployé (Source)
Link to this sectionÉtape 5 : Commencer à envoyer des requêtes d'inférence#
Avec le point de terminaison en cours d'exécution, les applications peuvent commencer à envoyer des images au modèle en utilisant le point de terminaison REST API fourni et une clé API transmise dans l'en-tête Authorization. Le point de terminaison traite chaque requête et renvoie des prédictions telles que des objets détectés, des boîtes englobantes ou d'autres sorties spécifiques à la tâche.
Pour plus de détails liés au déploiement de modèles, consulte la documentation officielle de la plateforme Ultralytics.
Link to this sectionSurveiller les performances et les métriques des modèles pour les points de terminaison déployés#
Une fois qu'un modèle de vision par ordinateur est déployé, la surveillance de ses performances devient une partie importante du maintien de la fiabilité et de la robustesse du système. Même un modèle bien entraîné doit être observé en production pour garantir qu'il continue de répondre rapidement, de gérer correctement les requêtes entrantes et de fournir des prédictions précises.
La plateforme Ultralytics fournit des outils de surveillance intégrés qui donnent aux équipes une visibilité sur les performances des points de terminaison déployés. La page Déployer de la plateforme agit comme un tableau de bord de surveillance, offrant une vue centralisée de tous les points de terminaison en cours d'exécution ainsi que des métriques clés qui aident à suivre l'état et l'utilisation du système.
Voici quelques-unes des métriques que tu peux surveiller en utilisant la plateforme :
- Latence P95 : Cette métrique mesure le temps de réponse côté serveur du 95e percentile pour les requêtes d'inférence. Elle donne un aperçu de la durée nécessaire à la plupart des requêtes d'inférence et identifie les ralentissements de performance.
- Taux d'erreur : Il représente le pourcentage de requêtes ayant échoué ou retourné des erreurs au cours de la période de surveillance sélectionnée. La surveillance des taux d'erreur permet aux équipes de détecter rapidement les problèmes avec les déploiements ou les requêtes entrantes.
- Nombre total de requêtes : Cette métrique affiche le nombre total de requêtes d'inférence traitées sur les points de terminaison déployés pendant la période sélectionnée (par exemple, les dernières 24 heures). Elle aide les équipes à comprendre les niveaux de trafic et la fréquence à laquelle leurs modèles sont utilisés.
En plus de ces métriques, la plateforme fournit également des contrôles d'état des points de terminaison et des journaux de déploiement. Les contrôles d'état indiquent si un point de terminaison répond correctement, tandis que les journaux fournissent des informations détaillées sur les requêtes récentes et l'activité du système.
Link to this sectionPoints clés#
Le déploiement de modèles de vision par ordinateur est une étape cruciale pour transformer des modèles entraînés en systèmes qui alimentent des applications réelles. Avec la plateforme Ultralytics, les équipes peuvent facilement déployer des modèles via des points de terminaison dédiés dans 43 régions mondiales, exécuter des inférences en temps réel via des API et surveiller les performances à partir d'un environnement unique. En combinant des options de déploiement flexibles, une surveillance intégrée et une infrastructure évolutive, la plateforme aide les développeurs à passer plus rapidement de modèles d'apprentissage automatique entraînés à des applications de vision par ordinateur fiables.
Rejoins notre communauté grandissante ! Plonge dans notre dépôt GitHub pour en savoir plus sur l'IA. Si tu cherches à construire des solutions de vision par ordinateur, consulte nos options de licence. Explore les avantages de la vision par ordinateur dans la santé et vois comment l'IA dans la logistique fait la différence !






