Comment Ultralytics YOLO26 s'entraîne plus intelligemment avec ProgLoss, STAL et MuSGD
Apprends comment Ultralytics YOLO26 s'entraîne de manière plus fiable en utilisant le ProgLoss, le STAL et l'optimiseur MuSGD.

La semaine dernière, nous avons publié Ultralytics YOLO26, établissant une nouvelle norme pour les modèles de vision par ordinateur en temps réel conçus pour la périphérie (edge). Similaire aux précédents modèles Ultralytics YOLO, tels que Ultralytics YOLO11, YOLO26 prend en charge les tâches de vision par ordinateur fondamentales que les utilisateurs connaissent bien, notamment la détection d'objets, la segmentation d'instances et l'estimation de pose.

Fig 1. Un exemple de YOLO26 utilisé pour segmenter des objets dans une image.
Cependant, YOLO26 n'est pas seulement une mise à jour incrémentale. Bien que les tâches prises en charge puissent sembler familières, ce nouveau modèle représente une avancée innovante dans la manière dont les modèles de vision par ordinateur sont entraînés. Avec YOLO26, l'accent est mis au-delà de l'efficacité de l'inférence pour rendre l'entraînement plus stable.
YOLO26 a été conçu avec l'ensemble du cycle de vie de l'entraînement à l'esprit. Cela signifie une convergence plus rapide, des cycles d'entraînement plus fiables et un comportement de modèle cohérent. Ces améliorations sont particulièrement importantes dans les flux de travail réels, où la fiabilité de l'entraînement affecte directement la rapidité avec laquelle les modèles peuvent être itérés et déployés.
Pour permettre cela, YOLO26 introduit plusieurs innovations d'entraînement ciblées telles que le Progressive Loss Balancing (ProgLoss), le Small-Target-Aware Label Assignment (STAL) et l'optimiseur MuSGD. Ensemble, ces changements améliorent la manière dont la perte d'apprentissage est équilibrée, dont les étiquettes sont assignées et dont l'optimisation se comporte au fil du temps.
Dans cet article, nous explorerons comment chacun de ces mécanismes fonctionne et pourquoi ils rendent Ultralytics YOLO26 plus facile à entraîner et plus fiable à grande échelle. Commençons !
Link to this sectionUltralytics YOLO26 : Conçu pour s'entraîner plus intelligemment, pas seulement pour aller plus vite#
Ultralytics YOLO26 rationalise nativement l'ensemble du pipeline d'inférence en supprimant la dépendance aux étapes de post-traitement telles que le Non-Maximum Suppression. Au lieu de générer de nombreuses prédictions qui se chevauchent et de les filtrer par la suite, YOLO26 produit des détections finales directement à partir du réseau.
Cela fait de YOLO26 un modèle de bout en bout, où la prédiction, la résolution des doublons et les sorties finales sont toutes apprises au sein du réseau lui-même. Cela simplifie le déploiement et améliore l'efficacité de l'inférence, tout en façonnant la manière dont le modèle apprend pendant l'entraînement.

Fig 2. YOLO26 offre une inférence de pointe de bout en bout, sans NMS (Source)
Dans un système de bout en bout comme celui-ci, l'entraînement et l'inférence sont étroitement liés. Puisqu'il n'y a pas d'étape de post-traitement externe pour corriger les prédictions plus tard, le modèle doit apprendre à prendre des décisions claires et confiantes pendant l'entraînement lui-même.
Cela rend l'alignement entre les objectifs d'entraînement et le comportement d'inférence particulièrement important. Toute inadéquation entre la façon dont le modèle est entraîné et la façon dont il est utilisé au moment de l'inférence peut entraîner un apprentissage instable ou une convergence plus lente.
YOLO26 gère cela en concevant son processus d'entraînement autour de l'utilisation réelle dès le départ. Plutôt que de se concentrer uniquement sur la vitesse d'inférence, le système d'entraînement est construit pour supporter un apprentissage stable sur de longues périodes, une convergence cohérente à travers les tailles de modèles, de Nano à Extra Large, et des performances robustes sur divers jeux de données.
Link to this sectionComment deux têtes d'entraînement améliorent l'apprentissage dans Ultralytics YOLO26#
L'une des innovations d'entraînement clés dans Ultralytics YOLO26 repose sur une approche d'entraînement à deux têtes utilisée dans les précédents modèles YOLO. Dans les modèles de détection d'objets, une tête fait référence à la partie du réseau responsable de faire les prédictions.
En d'autres termes, les têtes de détection apprennent à prédire où les objets sont situés dans une image et quels sont ces objets. Elles le font en effectuant une régression des coordonnées de la bbox, ce qui signifie qu'elles apprennent à estimer la position et la taille de chaque objet dans l'image d'entrée.
Pendant l'entraînement, le modèle apprend en minimisant une perte, qui est une mesure numérique de l'éloignement de ses prédictions par rapport aux bonnes réponses ou à la vérité terrain. Une perte plus faible signifie que les prédictions du modèle sont plus proches de la vérité terrain, tandis qu'une perte plus élevée indique des erreurs plus importantes. Le calcul de la perte guide la manière dont le modèle met à jour ses paramètres pendant l'entraînement.
YOLO26 utilise deux têtes de détection pendant l'entraînement qui partagent le même modèle sous-jacent mais servent des objectifs différents. La tête un-à-un est la tête utilisée au moment de l'inférence. Elle apprend à associer chaque objet à une prédiction unique et confiante, ce qui est essentiel pour la conception de bout en bout sans NMS de YOLO26.
Pendant ce temps, la tête un-à-plusieurs est utilisée uniquement pendant l'entraînement. Elle permet à plusieurs prédictions d'être associées au même objet, offrant une supervision plus dense. Ce signal d'apprentissage plus riche aide à stabiliser l'entraînement et à améliorer la précision, surtout dans les premiers stades.
Dans YOLO26, les deux têtes utilisent le même calcul de perte pour la régression de boîte et la classification. Les implémentations précédentes appliquaient un équilibre fixe entre ces deux signaux de perte tout au long de l'entraînement.
En pratique, cependant, l'importance de chaque tête change avec le temps. La supervision dense est plus utile au début, tandis que l'alignement avec le comportement d'inférence devient plus important plus tard dans l'entraînement. YOLO26 est conçu autour de cette idée, ce qui conduit directement à la façon dont il rééquilibre les signaux d'apprentissage au fur et à mesure que l'entraînement progresse.
Link to this sectionUltralytics YOLO26 utilise le Progressive Loss Balancing#
Alors, comment Ultralytics YOLO26 gère-t-il ces besoins d'apprentissage changeants pendant l'entraînement ? Il utilise le Progressive Loss Balancing pour ajuster la pondération des signaux d'apprentissage au fil du temps.
ProgLoss fonctionne en décalant dynamiquement la contribution de chaque tête à la perte totale au fur et à mesure de l'entraînement. Au début, plus de poids est accordé à la tête un-à-plusieurs pour stabiliser l'apprentissage et améliorer le rappel. À mesure que l'entraînement se poursuit, l'équilibre se déplace progressivement vers la tête un-à-un, alignant davantage l'entraînement avec le comportement d'inférence.
Cette transition graduelle permet à YOLO26 d'apprendre dans le bon ordre. Au lieu de forcer le modèle à optimiser des objectifs concurrents en même temps, le Progressive Loss Balancing privilégie le signal d'apprentissage le plus utile à chaque étape de l'entraînement. Le résultat est une convergence plus fluide, moins de cycles d'entraînement instables et des performances finales plus cohérentes.
Link to this sectionComment STAL aide Ultralytics YOLO26 à apprendre à partir de petits objets#
Une autre amélioration intéressante de l'entraînement dans Ultralytics YOLO26 vient de la façon dont le modèle assigne les cibles d'entraînement aux prédictions, un processus connu sous le nom d'assignation d'étiquettes. Il est responsable de faire correspondre les objets de vérité terrain aux prédictions candidates, souvent appelées ancres.
Ces correspondances déterminent quelles prédictions reçoivent une supervision et contribuent à la perte. YOLO26 s'appuie sur une méthode d'assignation d'étiquettes existante appelée Task Alignment Learning (TAL), qui a été conçue pour mieux aligner la classification et la localisation pendant l'entraînement.
Bien que TAL fonctionne bien pour la plupart des objets, l'entraînement a révélé une limitation importante. Pendant le processus de correspondance, de très petits objets pouvaient être complètement ignorés. En pratique, les objets de moins de 8 pixels environ dans une image d'entrée de 640 pixels échouaient souvent à recevoir des assignations d'ancres. Lorsque cela se produit, le modèle reçoit peu ou pas de supervision pour ces objets, ce qui rend difficile l'apprentissage de leur détection de manière fiable.
Pour résoudre ce problème, YOLO26 introduit le Small-Target-Aware Label Assignment (STAL). STAL modifie le processus d'assignation pour garantir que les petits objets ne sont pas ignorés pendant l'entraînement. Spécifiquement, il impose un minimum de quatre assignations d'ancres pour les objets de moins de 8 pixels. Cela garantit que même les minuscules objets contribuent systématiquement à la perte d'entraînement.
En renforçant la supervision pour les petites cibles, STAL améliore la stabilité de l'apprentissage et les performances de détection dans les scénarios où les objets petits ou distants sont courants. Cette amélioration est particulièrement importante pour les applications YOLO26 edge-first telles que l'imagerie aérienne, la robotique et les systèmes Internet des objets (IoT), où les objets sont souvent petits, distants ou partiellement visibles et où une détection fiable est critique.
Link to this sectionUltralytics YOLO26 introduit l'optimiseur MuSGD#
Pour prendre en charge un entraînement plus stable et prévisible, Ultralytics YOLO26 introduit également un nouvel optimiseur appelé MuSGD. Cet optimiseur est conçu pour améliorer la convergence et la fiabilité de l'entraînement dans les modèles de détection de bout en bout, surtout à mesure que la taille du modèle et la complexité de l'entraînement augmentent.
Pour qu'un réseau de neurones apprenne, et modifie par conséquent les poids en conséquence pendant l'entraînement, nous calculons une erreur (également appelée "perte"). Le modèle mesure donc à quel point ses prédictions sont erronées en utilisant une valeur de perte, calcule des gradients qui indiquent comment ses paramètres devraient changer, puis met à jour ces paramètres pour réduire l'erreur. Le Stochastic Gradient Descent (SGD) est un optimiseur largement utilisé qui effectue ces mises à jour, rendant l'entraînement efficace et évolutif.

Fig 3. Descente de gradient stochastique vs descente de gradient (Source)
MuSGD s'appuie sur cette base familière en intégrant des idées d'optimisation inspirées par Muon, une méthode utilisée dans l'entraînement de grands modèles de langage. Ces idées ont été influencées par des avancées récentes telles que Kimi K2 de Moonshot AI, qui a démontré un comportement d'entraînement amélioré grâce à des mises à jour de paramètres plus structurées.
YOLO26 utilise une stratégie de mise à jour hybride. Certains paramètres sont mis à jour en utilisant une combinaison de mises à jour inspirées par Muon et de SGD, tandis que d'autres utilisent uniquement SGD. Cela permet à YOLO26 d'introduire une structure supplémentaire dans le processus d'optimisation tout en conservant la robustesse et les propriétés de généralisation qui ont rendu SGD efficace.
Le résultat est une optimisation plus fluide, une convergence plus rapide et un comportement d'entraînement plus prévisible à travers les tailles de modèles, faisant de MuSGD une partie clé de la raison pour laquelle YOLO26 est plus facile à entraîner et plus fiable à grande échelle.
Link to this sectionL'importance des innovations d'entraînement d'Ultralytics YOLO26#
Les innovations d'entraînement d'Ultralytics YOLO26, combinées à des fonctionnalités clés telles que sa conception de bout en bout, sans NMS et edge-first, rendent le modèle plus facile à entraîner et plus fiable à grande échelle. Tu te demandes peut-être ce que cela signifie réellement pour les applications de vision par ordinateur.

Fig 4. Un aperçu des fonctionnalités clés de YOLO26 (Source)
En pratique, cela facilite grandement l'intégration de la vision par ordinateur là où elle s'exécute réellement. Les modèles s'entraînent de manière plus prévisible, évoluent plus uniformément selon les tailles et sont plus simples à adapter aux nouveaux jeux de données. Cela réduit la friction entre l'expérimentation et le déploiement, surtout dans les environnements où la fiabilité et l'efficacité comptent autant que les performances brutes.
Par exemple, dans les applications de robotique et de vision industrielle, les modèles ont souvent besoin d'être réentraînés fréquemment à mesure que les environnements, les capteurs ou les tâches changent. Avec YOLO26, les équipes peuvent itérer plus rapidement sans s'inquiéter des cycles d'entraînement instables ou d'un comportement incohérent selon les tailles de modèles.
Link to this sectionPoints clés#
Les systèmes de vision par ordinateur fiables dépendent autant de la manière dont les modèles sont entraînés que de la manière dont ils fonctionnent au moment de l'inférence. En améliorant la manière dont les signaux d'apprentissage sont équilibrés, comment les petits objets sont gérés et comment l'optimisation progresse, YOLO26 rend l'entraînement plus stable et plus facile à mettre à l'échelle. Cet accent mis sur un entraînement fiable aide les équipes à passer plus facilement de l'expérimentation au déploiement dans le monde réel, en particulier dans les applications edge-first.
Tu veux en savoir plus sur l'IA ? Visite notre dépôt GitHub pour en découvrir davantage. Rejoins notre communauté active et découvre les innovations dans des secteurs comme l'IA dans la logistique et l'IA de vision dans l'industrie automobile. Pour commencer dès aujourd'hui avec la vision par ordinateur, consulte nos options de licence.






