Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant

Comment Ultralytics s'entraîne plus intelligemment avec ProgLoss, STAL et MuSGD

Découvrez comment Ultralytics s'entraîne de manière plus fiable grâce à l'équilibrage progressif des pertes, à l'attribution d'étiquettes tenant compte des petites cibles et à l'optimiseur MuSGD.

La semaine dernière, nous avons lancé Ultralytics , établissant ainsi une nouvelle norme pour les modèles de vision par ordinateur en temps réel axés sur la périphérie. À l'instar YOLO Ultralytics YOLO précédents, tels que Ultralytics YOLO11, YOLO26 prend en charge les tâches de vision par ordinateur fondamentales auxquelles les utilisateurs sont habitués, notamment la détection d'objets, la segmentation d'instances et l'estimation de poses.

Fig. 1. Exemple d'utilisation de YOLO26 pour segment dans une image.

Cependant, YOLO26 n'est pas seulement une mise à jour incrémentielle. Si les tâches prises en charge peuvent sembler familières, ce nouveau modèle représente une avancée innovante dans la manière dont les modèles de vision par ordinateur sont entraînés. Avec YOLO26, l'accent est mis non seulement sur l'efficacité de l'inférence, mais aussi sur la stabilité de l'entraînement.

YOLO26 a été conçu en tenant compte de l'ensemble du cycle de formation. Cela se traduit par une convergence plus rapide, des cycles de formation plus fiables et un comportement cohérent des modèles. Ces améliorations sont particulièrement importantes dans les flux de travail réels, où la fiabilité de la formation influe directement sur la rapidité avec laquelle les modèles peuvent être itérés et déployés. 

Pour ce faire, YOLO26 introduit plusieurs innovations ciblées en matière d'entraînement, telles que l'équilibrage progressif des pertes (ProgLoss), l'attribution de labels tenant compte des petites cibles (STAL) et l'optimiseur MuSGD. Ensemble, ces changements améliorent l'équilibrage des pertes d'apprentissage, l'attribution des labels et le comportement de l'optimisation au fil du temps.

Dans cet article, nous allons explorer le fonctionnement de chacun de ces mécanismes et expliquer pourquoi ils rendent Ultralytics plus facile à entraîner et plus fiable à grande échelle. C'est parti !

Ultralytics : conçu pour former plus intelligemment, pas seulement pour fonctionner plus rapidement

Ultralytics rationalise de manière native l'ensemble du pipeline d'inférence en supprimant le recours à des étapes de post-traitement telles que la suppression non maximale. Au lieu de générer de nombreuses prédictions qui se chevauchent et de les filtrer par la suite, YOLO26 produit des détections finales directement à partir du réseau. 

Cela fait de YOLO26 un modèle de bout en bout, où la prédiction, la résolution des doublons et les résultats finaux sont tous appris au sein même du réseau. Cela simplifie le déploiement et améliore l'efficacité de l'inférence, tout en façonnant la manière dont le modèle apprend pendant la formation.

Fig. 2. YOLO26 offre une inférence de pointe de bout en bout, NMS(Source)

Dans un système de bout en bout comme celui-ci, l'entraînement et l'inférence sont étroitement liés. Comme il n'y a pas d'étape de post-traitement externe pour corriger les prédictions ultérieurement, le modèle doit apprendre à prendre des décisions claires et sûres pendant l'entraînement lui-même. 

Il est donc particulièrement important d'aligner les objectifs d'entraînement et le comportement d'inférence. Tout décalage entre la manière dont le modèle est entraîné et la manière dont il est utilisé au moment de l'inférence peut entraîner un apprentissage instable ou une convergence plus lente.

YOLO26 résout ce problème en concevant dès le départ son processus d'entraînement autour d'une utilisation réelle. Plutôt que de se concentrer uniquement sur la vitesse d'inférence, le système d'entraînement est conçu pour prendre en charge un apprentissage stable sur le long terme, une convergence cohérente entre les différentes tailles de modèles, de Nano à Extra Large, et des performances robustes sur divers ensembles de données.

Comment deux têtes d'entraînement améliorent l'apprentissage dans Ultralytics

L'une des principales innovations en matière d'entraînement dans Ultralytics s'appuie sur une approche d'entraînement à deux têtes utilisée dans YOLO précédents. Dans les modèles de détection d'objets, une tête désigne la partie du réseau chargée de faire des prédictions. 

En d'autres termes, les têtes de détection apprennent à prédire où se trouvent les objets dans une image et à identifier ces objets. Pour ce faire, elles effectuent une régression des coordonnées du cadre de sélection, ce qui signifie qu'elles apprennent à estimer la position et la taille de chaque objet dans l'image d'entrée.

Pendant l'entraînement, le modèle apprend en minimisant une perte, qui est une mesure numérique de l'écart entre ses prédictions et les réponses correctes ou la vérité terrain. Une perte plus faible signifie que les prédictions du modèle sont plus proches de la vérité terrain, tandis qu'une perte plus élevée indique des erreurs plus importantes. Le calcul de la perte guide la manière dont le modèle met à jour ses paramètres pendant l'entraînement.

YOLO26 utilise deux têtes de détection pendant l'entraînement qui partagent le même modèle sous-jacent mais servent des objectifs différents. La tête un-à-un est celle utilisée au moment de l'inférence. Elle apprend à associer chaque objet à une seule prédiction fiable, ce qui est essentiel pour la conception de bout en bout et NMS de YOLO26.

Par ailleurs, la tête « one-to-many » n'est utilisée que pendant l'entraînement. Elle permet d'associer plusieurs prédictions au même objet, offrant ainsi une supervision plus dense. Ce signal d'apprentissage plus riche contribue à stabiliser l'entraînement et à améliorer la précision, en particulier au début.

Dans YOLO26, les deux têtes utilisent le même calcul de perte pour la régression de boîte et la classification. Les implémentations précédentes appliquaient un équilibre fixe entre ces deux signaux de perte tout au long de l'entraînement. 

Dans la pratique, cependant, l'importance de chaque tête évolue au fil du temps. Une supervision dense est particulièrement utile au début, tandis que l'alignement avec le comportement d'inférence devient plus important à mesure que l'entraînement progresse. YOLO26 est conçu autour de cette idée, qui détermine directement la manière dont il rééquilibre les signaux d'apprentissage au fur et à mesure que l'entraînement progresse.

Ultralytics utilise l'équilibrage progressif des pertes

Alors, comment Ultralytics gère-t-il ces besoins d'apprentissage changeants pendant la formation ? Il utilise l'équilibrage progressif des pertes pour ajuster la pondération des signaux d'apprentissage au fil du temps.

ProgLoss fonctionne en modifiant de manière dynamique la contribution de chaque tête à la perte totale au fur et à mesure que l'entraînement progresse. Au début, une plus grande importance est accordée à la tête « un-à-plusieurs » afin de stabiliser l'apprentissage et d'améliorer la mémorisation. Au fur et à mesure que l'entraînement se poursuit, l'équilibre se déplace progressivement vers la tête « un-à-un », alignant ainsi davantage l'entraînement sur le comportement d'inférence.

Cette transition progressive permet à YOLO26 d'apprendre dans le bon ordre. Au lieu de forcer le modèle à optimiser simultanément des objectifs concurrents, le Progressive Loss Balancing donne la priorité au signal d'apprentissage le plus utile à chaque étape de la formation. Il en résulte une convergence plus fluide, moins de cycles de formation instables et des performances finales plus cohérentes.

Comment STAL aide Ultralytics à apprendre à partir d'objets minuscules

Une autre amélioration intéressante apportée à l'entraînement dans Ultralytics provient de la manière dont le modèle attribue des cibles d'entraînement aux prédictions, un processus appelé « attribution d'étiquettes ». Ce processus est chargé de faire correspondre les objets de référence aux prédictions candidates, souvent appelées « ancres ». 

Ces correspondances déterminent quelles prédictions font l'objet d'une supervision et contribuent à la perte. YOLO26 s'appuie sur une méthode d'attribution d'étiquettes existante appelée Task Alignment Learning (TAL), qui a été conçue pour mieux aligner la classification et la localisation pendant l'entraînement.

Bien que TAL fonctionne bien pour la plupart des objets, la formation a révélé une limitation importante. Au cours du processus de correspondance, les très petits objets pouvaient être entièrement ignorés. En pratique, les objets plus petits qu'environ 8 pixels dans une image d'entrée de 640 pixels ne recevaient souvent aucune attribution d'ancrage. Lorsque cela se produit, le modèle reçoit peu ou pas de supervision pour ces objets, ce qui rend difficile l'apprentissage de detect fiable.

Pour remédier à ce problème, YOLO26 introduit l'attribution de balises tenant compte des petites cibles (STAL). STAL modifie le processus d'attribution afin de garantir que les petits objets ne soient pas ignorés pendant l'entraînement. Plus précisément, il impose un minimum de quatre attributions d'ancrage pour les objets de moins de 8 pixels. Cela garantit que même les objets minuscules contribuent de manière cohérente à la perte d'entraînement.

En renforçant la supervision des petites cibles, STAL améliore la stabilité de l'apprentissage et les performances de détection dans les scénarios où les objets petits ou éloignés sont courants. Cette amélioration est particulièrement importante pour les applications YOLO26 axées sur les contours , telles que l'imagerie aérienne, la robotique et les systèmes Internet des objets (IoT), où les objets sont souvent petits, éloignés ou partiellement visibles et où une détection fiable est essentielle.

Ultralytics présente l'optimiseur MuSGD

Afin de garantir un apprentissage plus stable et plus prévisible, Ultralytics introduit également un nouvel optimiseur appelé MuSGD. Cet optimiseur est conçu pour améliorer la convergence et la fiabilité de l'apprentissage dans les modèles de détection de bout en bout, en particulier lorsque la taille du modèle et la complexité de l'apprentissage augmentent.

Pour qu'un réseau neuronal puisse apprendre et, par conséquent, modifier les poids en conséquence, nous calculons une erreur (également appelée « perte ») pendant l'entraînement. Le modèle mesure donc le degré d'inexactitude de ses prédictions à l'aide d'une valeur de perte, calcule les gradients qui indiquent comment ses paramètres doivent changer, puis met à jour ces paramètres afin de réduire l'erreur. La descente stochastique du gradient (SGD) est un optimiseur largement utilisé qui effectue ces mises à jour, rendant l'entraînement efficace et évolutif.

Fig. 3. Descente stochastique par gradient vs descente par gradient (Source)

MuSGD s'appuie sur cette base familière en intégrant des idées d'optimisation inspirées de Muon, une méthode utilisée dans la formation de grands modèles linguistiques. Ces idées ont été influencées par des avancées récentes telles que Kimi K2 de Moonshot AI, qui a démontré un comportement de formation amélioré grâce à des mises à jour de paramètres plus structurées.

YOLO26 utilise une stratégie de mise à jour hybride. Certains paramètres sont mis à jour à l'aide d'une combinaison de mises à jour inspirées de Muon et SGD, tandis que d'autres utilisent SGD . Cela permet à YOLO26 d'introduire une structure supplémentaire dans le processus d'optimisation tout en conservant les propriétés de robustesse et de généralisation qui ont rendu SGD .

Il en résulte une optimisation plus fluide, une convergence plus rapide et un comportement d'entraînement plus prévisible pour toutes les tailles de modèles, ce qui fait de MuSGD un élément clé expliquant pourquoi YOLO26 est plus facile à entraîner et plus fiable à grande échelle.

L'importance des innovations en matière de formation Ultralytics

Les innovations Ultralytics en matière d'entraînement, associées à des fonctionnalités clés telles que sa conception de bout en bout, NMS et axée sur la périphérie, rendent le modèle plus facile à entraîner et plus fiable à grande échelle. Vous vous demandez peut-être ce que cela signifie réellement pour les applications de vision par ordinateur.

Fig. 4. Aperçu des principales fonctionnalités de YOLO26 (Source)

En pratique, cela facilite considérablement l'intégration de la vision par ordinateur là où elle est réellement utilisée. Les modèles s'entraînent de manière plus prévisible, s'adaptent plus facilement à différentes tailles et s'adaptent plus facilement à de nouveaux ensembles de données. Cela réduit les frictions entre l'expérimentation et le déploiement, en particulier dans les environnements où la fiabilité et l'efficacité sont aussi importantes que les performances brutes.

Par exemple, dans les applications de robotique et de vision industrielle, les modèles doivent souvent être réentraînés fréquemment à mesure que les environnements, les capteurs ou les tâches changent. Avec YOLO26, les équipes peuvent itérer plus rapidement sans se soucier de l'instabilité des cycles d'entraînement ou du comportement incohérent entre les différentes tailles de modèles.

Principaux points à retenir

La fiabilité des systèmes de vision par ordinateur dépend autant de la manière dont les modèles sont entraînés que de leurs performances au moment de l'inférence. En améliorant l'équilibre des signaux d'apprentissage, la gestion des petits objets et la progression de l'optimisation, YOLO26 rend l'entraînement plus stable et plus facile à mettre à l'échelle. L'accent mis sur la fiabilité de l'entraînement aide les équipes à passer plus facilement de l'expérimentation au déploiement en conditions réelles, en particulier dans les applications « edge-first ».

Vous souhaitez en savoir plus sur l'IA ? Visitez notre référentiel GitHub pour en savoir plus. Rejoignez notre communauté active et découvrez les innovations dans des secteurs tels que l'IA dans la logistique et la vision artificielle dans l'industrie automobile. Pour vous lancer dès aujourd'hui dans la vision par ordinateur, consultez nos options de licence.

Construisons ensemble l'avenir
de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique

Démarrer gratuitement