Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
Retour au glossaire Ultralytics

Inference Latency

Explore l'importance de la latence d'inférence dans l'IA. Apprends comment optimiser les performances en temps réel avec Ultralytics YOLO26 pour des applications plus rapides et réactives.

La latence d'inférence représente le délai entre le moment où un modèle d'apprentissage automatique (ML) reçoit une entrée — comme une image ou une instruction textuelle — et celui où il produit une sortie ou une prédiction correspondante. Dans le contexte de l'intelligence artificielle (IA), cette mesure est généralement exprimée en millisecondes (ms) et constitue un indicateur essentiel de la réactivité d'un système. Pour les développeurs qui créent des applications de vision par ordinateur, comprendre et minimiser la latence est indispensable pour offrir des expériences utilisateur fluides et interactives, en particulier lors du déploiement de modèles dans des environnements aux ressources limitées comme les téléphones mobiles ou les appareils embarqués.

Link to this sectionPourquoi la latence d'inférence est importante#

L'importance de la latence d'inférence dépend fortement du cas d'utilisation spécifique. Si un délai de quelques secondes peut être acceptable pour une tâche de traitement par lots comme l'analyse d'un rapport de serveur nocturne, il est souvent inacceptable pour les applications interactives. Une faible latence est la pierre angulaire de l'inférence en temps réel, où les systèmes doivent traiter les données et réagir instantanément.

Réduire la latence garantit que les agents IA peuvent interagir naturellement avec les humains et que les systèmes automatisés fonctionnent en toute sécurité. Une latence élevée peut entraîner des interfaces « saccadées », une faible rétention des utilisateurs ou, dans des scénarios critiques pour la sécurité, des défaillances opérationnelles dangereuses. Les ingénieurs doivent souvent trouver un équilibre entre la complexité du modèle — qui peut améliorer la précision — et la vitesse d'exécution.

Link to this sectionFacteurs influençant la latence#

Plusieurs composants techniques contribuent au temps total requis pour une seule passe d'inférence :

  • Architecture du modèle : La conception du réseau neuronal (NN) est un facteur majeur. Les modèles profonds avec de nombreuses couches nécessitent généralement plus de calculs que ceux plus superficiels. Les architectures modernes comme YOLO26 sont spécifiquement optimisées pour offrir une précision élevée avec un minimum de surcharge computationnelle.
  • Capacités matérielles : Le choix de l'unité de traitement affecte profondément la vitesse. Bien qu'un CPU soit polyvalent, le matériel spécialisé comme un GPU (Graphics Processing Unit) ou un TPU (Tensor Processing Unit) est conçu pour paralléliser les opérations matricielles au cœur du deep learning, réduisant ainsi considérablement la latence.
  • Taille des entrées : Le traitement de trames vidéo 4K haute résolution prend plus de temps que le traitement d'images standard en 640p. Les développeurs redimensionnent souvent les entrées lors du prétraitement des données pour trouver le juste équilibre entre la vitesse et la capacité à détecter les petits détails.
  • Techniques d'optimisation : Des méthodes telles que la quantification de modèle (conversion des poids vers une précision inférieure) et l'élagage de modèle (suppression des connexions inutiles) sont des moyens efficaces d'accélérer l'exécution. Des outils comme NVIDIA TensorRT peuvent optimiser davantage les modèles pour un matériel spécifique.

Link to this sectionApplications concrètes#

L'impact de la latence d'inférence est mieux illustré par des exemples pratiques où la vitesse est non négociable.

  1. Conduite autonome : Dans le domaine de l'IA dans l'automobile, une voiture autonome doit scanner en continu son environnement à la recherche de piétons, d'autres véhicules et de feux de signalisation. Si le système de détection d'objets a une latence élevée, la voiture pourrait ne pas réussir à freiner à temps lorsqu'un obstacle apparaît. Un délai de seulement 100 millisecondes à vitesse d'autoroute peut entraîner plusieurs mètres de distance de parcours, faisant de la faible latence une exigence de sécurité critique.

  2. Trading haute fréquence : Les institutions financières utilisent la modélisation prédictive pour analyser les tendances du marché et exécuter des transactions. Ces algorithmes doivent traiter de grandes quantités de données et prendre des décisions en quelques microsecondes. Dans ce domaine, une latence plus faible se traduit directement par un avantage concurrentiel, permettant aux entreprises de tirer parti des opportunités de marché fugaces avant que les concurrents ne puissent réagir.

Link to this sectionMesurer la latence avec Python#

Tu peux facilement mesurer la vitesse d'inférence des modèles Ultralytics en utilisant le mode benchmark. Cela aide à sélectionner la bonne taille de modèle pour tes contraintes matérielles spécifiques.

from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Benchmark the model on CPU to measure latency
# This provides a breakdown of preprocess, inference, and postprocess time
model.benchmark(data="coco8.yaml", imgsz=640, device="cpu")

Link to this sectionLatence d'inférence vs débit#

Il est important de distinguer la latence du débit, car ce sont des concepts liés mais distincts dans le déploiement de modèles.

  • La latence d'inférence mesure le temps nécessaire à une seule prédiction (par exemple : « Cela a pris 20ms pour traiter cette image »). C'est la mesure clé pour les applications en temps réel à utilisateur unique.
  • Le débit mesure le volume de prédictions au fil du temps (par exemple : « Le système a traité 500 images par seconde »). Un débit élevé est souvent obtenu en augmentant la taille du lot (batch size), ce qui traite de nombreuses entrées simultanément. Cependant, le traitement par lots peut en fait augmenter la latence pour les éléments individuels en attente dans la file.

Optimiser pour l'un se fait souvent au détriment de l'autre. Par exemple, les applications d'Edge AI privilégient généralement la latence pour garantir un retour immédiat, tandis que les tâches d'exploration de données (data mining) basées sur le cloud peuvent privilégier le débit pour traiter efficacement des jeux de données massifs.

Link to this sectionStratégies d'optimisation#

Developers employ various strategies to minimize latency. Exporting models to optimized formats like ONNX or OpenVINO can yield significant speed improvements on standard CPUs. For mobile deployments, converting models to TFLite or CoreML ensures they run efficiently on iOS and Android devices. Furthermore, using lightweight architectures like MobileNet or the latest Ultralytics YOLO26 ensures that the foundational model is efficient by design. Users can also leverage the Ultralytics Platform to seamlessly deploy models to these optimized formats without complex manual configuration.

Explore solutions

Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique