Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant

Terminaux d'inférence dédiés ou inférence partagée pour le déploiement

Découvrez dans quels cas il est préférable d'opter pour des points de terminaison d'inférence dédiés sur la Ultralytics afin de bénéficier d'un déploiement évolutif et à faible latence de l'IA visuelle, plutôt que d'une inférence partagée.

Développez vos projets de vision par ordinateur avec Ultralytics

Démarrer

Nous avons récemment lancé la Ultralytics , une solution complète qui regroupe l'ensemble du processus de vision par ordinateur en un seul endroit, de la préparation des ensembles de données et de l'entraînement des modèles jusqu'à l'inférence, au déploiement et à la surveillance. 

Conçue à partir des retours d'expérience de la communauté de la vision par ordinateur, cette plateforme vise à simplifier chaque étape du développement en proposant des fonctionnalités intégrées qui couvrent l'ensemble du cycle de vie des applications d'IA en vision.

Par exemple, une fois qu'un modèle a été entraîné, l'étape suivante consiste à le déployer afin qu'il puisse être utilisé pour effectuer des inférences et établir des prévisions dans des applications concrètes. La plateforme simplifie ce processus en proposant plusieurs options de déploiement.

Vous pouvez exporter des modèles pour les exécuter dans votre propre environnement, utiliser l'inférence partagée pour effectuer des tests rapides, ou déployer des points de terminaison dédiés pour des applications évolutives et prêtes pour la production. Chacune de ces options de déploiement vous permet d'exécuter l'inférence IA, mais elles sont conçues pour des étapes et des cas d'utilisation différents. 

Fig. 1. Ultralytics permet le déploiement évolutif de modèles d'IA de vision à l'échelle mondiale (Source)

L'exportation de modèles vous offre un contrôle total pour exécuter vos modèles sur votre propre infrastructure ; l'inférence partagée facilite les tests et les expérimentations sans configuration préalable ; et les points de terminaison dédiés sont conçus pour prendre en charge des charges de travail de production fiables et à grande échelle.

À première vue, l'inférence partagée et les terminaux dédiés peuvent sembler assez similaires. Les deux vous permettent d'envoyer des requêtes API à votre modèle et de recevoir des prédictions structurées, ce qui facilite l'intégration de l'IA visuelle dans les applications.

Cependant, à mesure que vos charges de travail augmentent et que vos applications de vision par ordinateur commencent à traiter des requêtes d'inférence en temps réel, les différences entre ces options prennent de l'importance. Dans cet article, nous examinerons de plus près l'inférence partagée et les points de terminaison dédiés, nous comparerons leurs caractéristiques, nous verrons quand utiliser l'un ou l'autre, et nous expliquerons pourquoi les points de terminaison dédiés constituent le meilleur choix à mesure que vos applications évoluent.

Présentation du déploiement à l'aide d'inférences partagées

L'inférence partagée est un moyen simple d'exécuter des opérations d'inférence IA sur vos modèles sans avoir à mettre en place d'infrastructure ni à vous soucier GPU , de l'intégration des frameworks ou de la configuration d'exécution. Une fois votre modèle entraîné ou affiné, vous pouvez l'utiliser pour effectuer des prédictions directement via la plateforme.

Dans cette configuration, votre modèle s'exécute sur des ressources de calcul partagées et multi-locataires réparties dans plusieurs régions clés, telles que les États-Unis, l'Europe et l'Asie-Pacifique. Les requêtes sont automatiquement acheminées vers les services disponibles ; vous n'avez donc pas besoin de configurer GPU ni d'environnements d'exécution. Tout est géré pour vous, ce qui facilite grandement la mise en route.

Lorsque vous utilisez l'inférence partagée, vous envoyez des requêtes à votre modèle via une REST API outils tels que Python CLI, et vous recevez des résultats structurés au format JSON, tels que les objets détectés, les scores de confiance et d'autres détails relatifs aux prédictions. Cela permet de tester les modèles et de les intégrer dans des applications en toute simplicité.

Ce système étant partagé, il est conçu pour le développement, les tests et une utilisation modérée. Il convient parfaitement à la validation des prévisions et à la mise en place d'intégrations préliminaires. Toutefois, ses performances peuvent varier en fonction de la charge du système, et son utilisation est limitée à 20 requêtes par minute et par clé API, ce qui le rend moins adapté aux charges de travail de production à haut débit.

Dans l'ensemble, l'inférence partagée est particulièrement adaptée aux premières phases de développement, où l'accent est mis sur la compréhension et l'amélioration du modèle avant de passer à des applications à plus grande échelle.

Déployer des modèles à l'échelle mondiale à l'aide de points de terminaison dédiés

Les points de terminaison dédiés sont des services d'inférence à locataire unique sur lesquels vos modèles d'IA visuelle s'exécutent sur des ressources de calcul isolées. Au lieu de partager l'infrastructure, chaque point de terminaison dispose de son propre environnement d'exécution avec des ressources configurables telles que CPU la mémoire, ce qui vous offre un meilleur contrôle sur les performances.

Lorsque vous déployez un modèle sous forme de point de terminaison dédié, celui-ci se voit attribuer une URL API unique et utilise votre clé API pour l'authentification, ce qui facilite son intégration dans les applications. Ces points de terminaison peuvent être déployés dans 43 régions à travers le monde, ce qui vous permet d'exécuter des opérations d'inférence plus près de vos utilisateurs et de réduire la latence.

Fig. 2. Vous pouvez déployer des points de terminaison dédiés dans 43 régions à travers le monde (Source)

L'un des principaux avantages réside dans la mise à l'échelle automatique. Les points de terminaison s'adaptent automatiquement en fonction des requêtes entrantes : ils augmentent leur capacité pour gérer un trafic plus important et la réduisent lorsque la demande diminue. La mise à l'échelle jusqu'à zéro étant activée par défaut, les points de terminaison peuvent s'arrêter lorsqu'ils sont inactifs et redémarrer en cas de besoin, ce qui contribue à optimiser l'utilisation des ressources.

En d'autres termes, les terminaux dédiés sont conçus pour les charges de travail en production. Ils offrent une faible latence constante, un débit plus élevé et une plus grande fiabilité par rapport à l'inférence partagée. 

De plus, les points de terminaison dédiés ne sont soumis à aucune limite de débit. Les requêtes sont acheminées directement vers votre point de terminaison ; le volume de trafic que vous pouvez gérer dépend donc de votre configuration et de votre évolutivité, et non de limites fixes.

De plus, grâce aux fonctionnalités intégrées de surveillance, aux journaux, aux contrôles d'intégrité, ainsi qu'à un comportement prévisible en termes de durée d'exécution et de démarrage, il est facile de track et d'assurer la stabilité des déploiements, quel que soit le forfait choisi. Avec le forfait Gratuit, les démarrages à froid prennent généralement entre 5 et 45 secondes, tandis que les points de terminaison du forfait Pro restent actifs, ce qui se traduit par des performances d'inférence plus rapides et plus prévisibles.

En bref, les terminaux dédiés sont parfaits pour les applications d'IA visuelle en temps réel qui nécessitent une inférence fiable, évolutive et hautement performante.

Inférence partagée ou terminaux dédiés : les principales différences

Voici une comparaison détaillée entre l'inférence partagée et les terminaux dédiés :

  • Latence : la latence peut varier dans les environnements partagés en raison du partage des ressources, tandis que les terminaux dédiés offrent des réponses plus régulières et à faible latence.
  • Régions : l'inférence partagée est disponible dans quelques régions (États-Unis, UE, AP), tandis que les points de terminaison dédiés prennent en charge le déploiement dans 43 régions à travers le monde.
  • Évolutivité : l'évolutivité n'est pas configurable dans le cadre de l'inférence partagée, tandis que les points de terminaison dédiés s'adaptent automatiquement en fonction du trafic entrant.
  • Limites de débit : l'inférence partagée est soumise à une limite de débit (20 requêtes ou appels API par minute et par clé API), tandis que les points de terminaison dédiés ne sont soumis à aucune limite de débit imposée par la plateforme.
  • Tarification : l'inférence partagée est incluse sans frais supplémentaires pour les phases de test et de développement, tandis que les points de terminaison dédiés offrent davantage de contrôle et d'évolutivité, leur utilisation dépendant de la configuration des ressources et des besoins de déploiement.

Pourquoi les terminaux dédiés sont-ils plus adaptés aux charges de travail en production ?

À mesure que les applications d'IA et d'apprentissage automatique passent de la phase de test à une utilisation concrète, les performances, l'évolutivité et la fiabilité deviennent essentielles. C'est pourquoi les terminaux dédiés offrent des avantages évidents par rapport à l'inférence partagée.

Grâce aux terminaux dédiés, votre modèle pré-entraîné ou personnalisé s'exécute sur ses propres ressources de calcul, de sorte que ses performances ne sont pas affectées par celles des autres utilisateurs. Cela permet de maintenir une latence faible et constante, ce qui est essentiel pour les applications en temps réel telles que l'analyse vidéo et les systèmes de surveillance.

Fig. 3. Aperçu du déploiement à l'aide d'un point de terminaison d'inférence dédié (Source)

Prenons par exemple un système d'analyse de données pour le commerce de détail qui traite les flux vidéo en direct provenant de plusieurs magasins. En déployant des terminaux dans 43 régions à travers le monde, le traitement des données peut s'effectuer plus près de chaque magasin, ce qui réduit la latence et améliore les temps de réponse. 

Avec l'inférence partagée, où les ressources sont partagées et les zones limitées, les performances peuvent varier pendant les périodes de forte affluence.

Les terminaux dédiés peuvent également gérer un trafic plus important et s'adapter automatiquement à la demande. Grâce à leurs fonctionnalités intégrées de surveillance, de journalisation et de contrôle de l'état de santé, ils offrent des performances plus prévisibles, ce qui en fait une solution idéale pour les charges de travail d'IA à grande échelle et en continu.

La place de l'inférence partagée dans le flux de travail de l'IA visuelle

En examinant les différences entre l'inférence partagée et les terminaux dédiés, vous vous demandez peut-être quelle place occupe l'inférence partagée dans le flux de travail global de la vision par ordinateur.

Revenons à l'exemple de l'analyse des données dans le secteur de la vente au détail. Avant de déployer une solution de vision artificielle dans plusieurs magasins, les équipes doivent généralement tester ses performances sur des données réelles et l'affiner en fonction de ces résultats.

L'inférence partagée simplifie ce processus en vous permettant d'envoyer des échantillons d'images ou d'images vidéo provenant des caméras du magasin et d'examiner rapidement les prédictions sans avoir à mettre en place d'infrastructure. Cela s'avère particulièrement utile pour tester le comportement du modèle, corriger les prédictions erronées et valider les résultats dans différentes conditions, telles que des changements d'éclairage ou d'agencement du magasin.

En procédant ainsi par itérations, les équipes peuvent améliorer la précision et la fiabilité du modèle avant de passer à la mise en production. Une fois que le modèle a fait ses preuves dans ces scénarios de test, il peut alors être déployé sur des terminaux dédiés pour une utilisation en temps réel sur plusieurs sites.

L'inférence partagée peut également s'avérer efficace pour les applications peu utilisées ou utilisées de manière sporadique. Par exemple, un petit commerce de détail pourrait s'en servir pour analyser ponctuellement la fréquentation ou examiner l'activité des clients à des moments précis, sans avoir besoin d'un déploiement à grande échelle. Dans ces cas-là, elle offre un moyen simple et économique d'effectuer des opérations d'inférence à la demande.

Exemples concrets d'utilisation des terminaux dédiés

À mesure que les applications d'IA dépassent le stade des tests, le choix du mode de déploiement commence à avoir un impact direct sur les performances, l'évolutivité et l'expérience utilisateur. Les terminaux dédiés peuvent être largement utilisés dans tous les secteurs, car ils offrent des performances stables, une faible latence et la capacité de gérer des charges de travail à grande échelle.

Voici quelques cas d'utilisation courants qui illustrent comment les points de terminaison dédiés peuvent être utilisés dans des applications concrètes :

  • Commerce de détail et analyse vidéo : une chaîne de magasins peut utiliser la vision par ordinateur pour track les déplacements track , identifier les produits les plus populaires et surveiller l'activité en magasin en temps réel. Des terminaux dédiés garantissent une inférence rapide et cohérente dans tous les magasins, même aux heures de pointe.
  • Fabrication et contrôle qualité : sur une chaîne de production, les modèles peuvent detect ou des anomalies à mesure que les produits circulent dans le système. Des terminaux dédiés prennent en charge l'inférence continue en temps réel, aidant ainsi les équipes à détecter les problèmes à un stade précoce et à maintenir la qualité des produits sans ralentir les opérations.
  • Santé et imagerie médicale : les prestataires de soins de santé et les laboratoires de diagnostic peuvent s'appuyer sur des modèles de vision pour analyser des images médicales telles que des radiographies ou des scanners. Des terminaux dédiés offrent des performances fiables et constantes, ce qui est essentiel lors du traitement de données sensibles et de diagnostics urgents.
  • Automatisation des entrepôts et de la logistique : les grands entrepôts exploitent souvent plusieurs systèmes identiques, tels que des tapis roulants et des lignes de tri, qui constituent en réalité des répliques d'une même installation. Les modèles de vision par ordinateur peuvent surveiller chaque réplique afin de detect tels que des bourrages ou des colis mal acheminés. Des terminaux dédiés garantissent une inférence cohérente sur l'ensemble des répliques en temps réel.

Passage d'une inférence partagée à des terminaux dédiés

L'un des principaux avantages de la Ultralytics réside dans la facilité avec laquelle vous pouvez passer d'une inférence partagée à des terminaux dédiés à mesure que votre application se développe. Au lieu de changer d'outil ou de reconfigurer votre installation, vous pouvez passer à un déploiement prêt pour la production au sein du même environnement.

Une fois que vous avez testé votre modèle avec l'inférence partagée, passer à un point de terminaison dédié constitue une étape logique. Vous pouvez déployer ce même modèle sur un point de terminaison, choisir la région et les ressources de calcul de votre choix, puis mettre à jour l'URL du point de terminaison dans votre application. L'intégration globale reste similaire ; il n'y a donc que peu ou pas de changement dans la manière dont vous envoyez les requêtes ou traitez les réponses.

Fig. 4. Affichage d'une URL de point de terminaison dédiée sur Ultralytics (Source)

Cela signifie que vous pouvez passer de l'environnement de test à l'environnement de production en quelques clics. À mesure que votre charge de travail augmente ou que votre application nécessite des performances plus stables, vous pouvez migrer vers des points de terminaison dédiés sans perturber votre flux de travail actuel.

Pour en savoir plus sur le déploiement de modèles à l'aide de points de terminaison dédiés sur la Ultralytics , consultez la documentation officielle Ultralytics .

Principaux points à retenir

L'inférence partagée constitue un excellent point de départ pour les tests et l'expérimentation, mais les charges de travail en production exigent davantage de cohérence et d'évolutivité. À mesure que les applications se développent, les terminaux dédiés offrent les performances et la fiabilité nécessaires pour prendre en charge une utilisation en conditions réelles. Cela en fait le choix idéal pour la plupart des déploiements en production.

Rejoignez notre communauté et explorez notre dépôt GitHub pour en savoir plus sur les modèles de vision par ordinateur. Découvrez des applications telles que l'IA dans l'agriculture et la vision par ordinateur en robotique sur nos pages Solutions. Consultez nos options de licence et lancez-vous dans l'IA appliquée à la vision. 

Construisons ensemble l'avenir de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique