Continuous Batching

Apprends comment le traitement par lots continu optimise le débit du GPU et réduit la latence. Découvre comment utiliser Ultralytics YOLO26 pour maximiser l'efficacité dans les tâches d'apprentissage automatique en production.

Le continuous batching est une technique avancée d'ordonnancement et d'optimisation de l'inférence utilisée en machine learning (ML) pour maximiser l'utilisation du matériel et le débit. Dans le batching statique traditionnel, un inference engine attend qu'un nombre prédéterminé de requêtes s'accumule avant de les traiter simultanément. Cela entraîne souvent des inefficacités car le système doit attendre que la requête la plus longue du lot se termine avant de libérer des ressources. Le continuous batching, également appelé batching dynamique ou au niveau de l'itération, résout ce problème en injectant de nouvelles requêtes dans le lot de calcul dès qu'une requête active est terminée, réduisant ainsi considérablement le temps d'inactivité sur les GPUs et améliorant l'efficacité globale.

Link to this sectionDistinguer les concepts apparentés#

Pour mieux comprendre comment les données sont traitées lors du déploiement de modèles, il est utile de distinguer le continuous batching d'autres termes connexes dans le glossaire :

Batch Size : Cela fait référence au nombre fixe d'échantillons traités simultanément pendant l'entraînement ou l'inférence. Les flux de travail de traitement par lots traditionnels reposent sur des tailles statiques, tandis que le continuous batching permet à la taille effective du lot de fluctuer dynamiquement en fonction du trafic entrant.
Real-Time Inference : Ce concept se concentre sur la minimisation de la latence d'inférence pour des prédictions immédiates, en traitant les entrées uniques au fur et à mesure de leur arrivée. Le continuous batching comble le fossé entre le batching statique à haut débit et l'inférence en temps réel à faible latence en maintenant un débit élevé sans forcer les requêtes rapides à attendre les plus lentes.

Link to this sectionApplications concrètes#

Le continuous batching est essentiel pour les systèmes de production qui gèrent des volumes élevés de requêtes imprévisibles. Voici deux exemples concrets de son application :

Génération de texte à haut débit : Lors de la mise à disposition de Large Language Models (LLMs), la génération de réponses pour différents utilisateurs prend un temps variable selon la longueur de la sortie. Les frameworks tirant parti du continuous batching — tels que vLLM sur Ray Serve — peuvent diffuser en continu les jetons nouvellement générés et remplacer immédiatement les conversations terminées par de nouvelles invites. Cette méthode, popularisée à l'origine par des recherches sur l'ordonnancement au niveau de l'itération, améliore considérablement le débit de génération de texte.
Analyse vidéo asynchrone : Dans les tâches de compréhension vidéo, telles que le suivi de véhicules à travers le réseau de caméras de circulation d'une ville, les images arrivent à des intervalles différents. Le continuous batching permet aux modèles de suivi d'objets de traiter dynamiquement les images vidéo entrantes dès que les ressources se libèrent, optimisant ainsi les pipelines d'accélération matérielle pour les tableaux de bord de villes intelligentes.

Link to this sectionTraitement continu dans les tâches de vision#

Lors de la gestion de pratiques de déploiement de modèles à fort trafic, les inférences en streaming de manière itérative peuvent simuler les avantages du batching dynamique en garantissant que la mémoire est libérée progressivement plutôt que bloquée. L'exemple Python suivant démontre comment utiliser le modèle de générateur avec l'API de prédiction de modèle pour gérer efficacement un flux continu d'images.

from ultralytics import YOLO

# Load the latest Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")

# Using stream=True acts as a generator, iteratively processing inputs
# to keep memory usage low and throughput high
results = model.predict(source=["img1.jpg", "img2.jpg", "img3.jpg"], stream=True)

# Process each result as soon as it completes
for result in results:
    print(f"Detected {len(result.boxes)} objects in this frame.")

La gestion de l'ordonnancement des ressources au niveau du système nécessite un équilibre entre la vitesse brute et le coût opérationnel. Les équipes déployant des modèles massifs de vision par ordinateur (CV) et de langage comptent de plus en plus sur des frameworks de service avancés pour gérer ces lots dynamiques. Pour les équipes d'entreprise cherchant à rationaliser leur infrastructure, la Ultralytics Platform propose des outils robustes pour l'entraînement, la surveillance et l'exportation de modèles dans des environnements de production hautement optimisés.

Explore solutions

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

Continuous Batching

Link to this sectionDistinguer les concepts apparentés#

Link to this sectionApplications concrètes#

Link to this sectionTraitement continu dans les tâches de vision#

Explore solutions

IA dans la robotique

IA dans la logistique

IA dans le commerce de détail

IA dans la santé

IA dans la fabrication

IA dans l'automobile

IA en agriculture

IA dans la robotique

IA dans la logistique

IA dans le commerce de détail

IA dans la santé

IA dans la fabrication

IA dans l'automobile

IA en agriculture

IA dans la robotique

IA dans la logistique

IA dans le commerce de détail

IA dans la santé

IA dans la fabrication

IA dans l'automobile

IA en agriculture

Construisons ensemble le futur de l'IA !