Wie Ultralytics YOLO26 mit ProgLoss, STAL und MuSGD intelligenter trainiert
Erfahre, wie Ultralytics YOLO26 dank Progressive Loss Balancing, Small-Target-Aware Label Assignment und dem MuSGD-Optimierer zuverlässiger trainiert.

Letzte Woche haben wir Ultralytics YOLO26 veröffentlicht und damit einen neuen Standard für Edge-First-Echtzeit-Computer-Vision-Modelle gesetzt. Ähnlich wie frühere Ultralytics YOLO-Modelle, wie z. B. Ultralytics YOLO11, unterstützt YOLO26 die grundlegenden Computer-Vision-Aufgaben, die Anwender kennen, einschließlich Objekterkennung, Instanzsegmentierung und Posenschätzung.

Abb. 1. Ein Beispiel für YOLO26 bei der Segmentierung von Objekten in einem Bild.
YOLO26 ist jedoch nicht nur ein inkrementelles Update. Während die unterstützten Aufgaben vertraut erscheinen mögen, stellt dieses neue Modell einen innovativen Fortschritt darin dar, wie Computer-Vision-Modelle trainiert werden. Bei YOLO26 geht der Fokus über die Effizienz der Inferenz hinaus, um das Training stabiler zu machen.
YOLO26 wurde mit Blick auf den gesamten Trainingslebenszyklus entwickelt. Das bedeutet eine schnellere Konvergenz, zuverlässigere Trainingsläufe und ein konsistentes Modellverhalten. Diese Verbesserungen sind besonders wichtig in realen Workflows, in denen die Zuverlässigkeit des Trainings direkt beeinflusst, wie schnell Modelle iteriert und bereitgestellt werden können.
Um dies zu ermöglichen, führt YOLO26 mehrere gezielte Trainingsinnovationen ein, wie Progressive Loss Balancing (ProgLoss), Small-Target-Aware Label Assignment (STAL) und den MuSGD-Optimierer. Zusammen verbessern diese Änderungen, wie der Lernverlust ausgeglichen wird, wie Labels zugewiesen werden und wie sich die Optimierung im Laufe der Zeit verhält.
In diesem Artikel untersuchen wir, wie jeder dieser Mechanismen funktioniert und warum sie Ultralytics YOLO26 einfacher zu trainieren und skalierbarer machen. Lass uns anfangen!
Link to this sectionUltralytics YOLO26: Entwickelt, um intelligenter zu trainieren, nicht nur schneller zu laufen#
Ultralytics YOLO26 optimiert nativ die gesamte Inferenz-Pipeline, indem es auf Post-Processing-Schritte wie Non-Maximum Suppression verzichtet. Anstatt viele überlappende Vorhersagen zu generieren und diese anschließend zu filtern, produziert YOLO26 finale Erkennungen direkt aus dem Netzwerk.
Das macht YOLO26 zu einem End-to-End-Modell, bei dem Vorhersage, Duplikat-Auflösung und Endergebnisse alle innerhalb des Netzwerks selbst gelernt werden. Dies vereinfacht die Bereitstellung und verbessert die Effizienz der Inferenz, während es gleichzeitig die Art und Weise prägt, wie das Modell während des Trainings lernt.

Abb. 2. YOLO26 liefert modernste End-to-End, NMS-freie Inferenz (Quelle)
In einem solchen End-to-End-System sind Training und Inferenz eng miteinander verbunden. Da es keine externe Post-Processing-Phase gibt, um Vorhersagen später zu korrigieren, muss das Modell lernen, während des Trainings selbst klare und selbstbewusste Entscheidungen zu treffen.
Dies macht die Abstimmung zwischen Trainingszielen und Inferenzverhalten besonders wichtig. Jede Abweichung zwischen der Art und Weise, wie das Modell trainiert wird, und wie es zum Zeitpunkt der Inferenz verwendet wird, kann zu instabilem Lernen oder langsamerer Konvergenz führen.
YOLO26 begegnet dem, indem es seinen Trainingsprozess von Anfang an auf den realen Einsatz ausrichtet. Anstatt sich nur auf die Inferenzgeschwindigkeit zu konzentrieren, ist das Trainingssystem darauf ausgelegt, stabiles Lernen über lange Läufe hinweg zu unterstützen, konsistente Konvergenz über Modellgrößen von Nano bis Extra Large zu ermöglichen und eine robuste Leistung auf verschiedenen Datensätzen zu liefern.
Link to this sectionWie zwei Trainings-Heads das Lernen in Ultralytics YOLO26 verbessern#
Eine der wichtigsten Trainingsinnovationen in Ultralytics YOLO26 baut auf einem Zwei-Head-Trainingsansatz auf, der bereits in früheren YOLO-Modellen verwendet wurde. Bei Objekterkennungsmodellen bezeichnet ein "Head" den Teil des Netzwerks, der für die Erstellung von Vorhersagen verantwortlich ist.
Mit anderen Worten: Detection-Heads lernen vorherzusagen, wo sich Objekte in einem Bild befinden und was diese Objekte sind. Sie tun dies durch die Regression von Bounding-Box-Koordinaten, das heißt, sie lernen, die Position und Größe jedes Objekts im Eingangsbild zu schätzen.
Während des Trainings lernt das Modell durch die Minimierung eines "Loss", einem numerischen Maß dafür, wie weit seine Vorhersagen von den korrekten Antworten oder Ground Truth entfernt sind. Ein niedrigerer Loss bedeutet, dass die Vorhersagen des Modells näher an der Ground Truth liegen, während ein höherer Loss auf größere Fehler hinweist. Die Loss-Berechnung leitet das Modell an, wie es seine Parameter während des Trainings aktualisiert.
YOLO26 verwendet während des Trainings zwei Detection-Heads, die sich dasselbe zugrunde liegende Modell teilen, aber unterschiedliche Zwecke erfüllen. Der One-to-One-Head ist der Head, der zum Zeitpunkt der Inferenz verwendet wird. Er lernt, jedes Objekt einer einzelnen, selbstbewussten Vorhersage zuzuordnen, was für das End-to-End, NMS-freie Design von YOLO26 wesentlich ist.
Der One-to-Many-Head wird hingegen nur während des Trainings verwendet. Er ermöglicht es, mehrere Vorhersagen demselben Objekt zuzuordnen, was eine dichtere Überwachung bietet. Dieses reichhaltigere Lernsignal hilft, das Training zu stabilisieren und die Genauigkeit zu verbessern, insbesondere in den frühen Phasen.
In YOLO26 verwenden beide Heads dieselbe Loss-Berechnung für Box-Regression und Klassifizierung. Frühere Implementierungen wendeten während des gesamten Trainings ein festes Gleichgewicht zwischen diesen beiden Loss-Signalen an.
In der Praxis ändert sich jedoch die Bedeutung jedes Heads im Laufe der Zeit. Dichte Überwachung ist anfangs am nützlichsten, während die Ausrichtung auf das Inferenzverhalten später im Training wichtiger wird. YOLO26 ist um diese Erkenntnis herum aufgebaut, was direkt dazu führt, wie es die Lernsignale während des Trainingsverlaufs neu ausbalanciert.
Link to this sectionUltralytics YOLO26 verwendet Progressive Loss Balancing#
Wie geht Ultralytics YOLO26 also mit diesen sich ändernden Lernbedürfnissen während des Trainings um? Es verwendet Progressive Loss Balancing, um anzupassen, wie Lernsignale im Laufe der Zeit gewichtet werden.
ProgLoss funktioniert, indem es dynamisch verschiebt, wie stark jeder Head zum Gesamt-Loss beiträgt, während das Training voranschreitet. Zu Beginn wird mehr Gewicht auf den One-to-Many-Head gelegt, um das Lernen zu stabilisieren und den Recall zu verbessern. Während das Training fortgesetzt wird, verschiebt sich das Gleichgewicht allmählich in Richtung des One-to-One-Heads, was das Training stärker mit dem Inferenzverhalten in Einklang bringt.
Dieser schrittweise Übergang ermöglicht es YOLO26, in der richtigen Reihenfolge zu lernen. Anstatt das Modell zu zwingen, konkurrierende Ziele gleichzeitig zu optimieren, priorisiert Progressive Loss Balancing in jeder Phase des Trainings das nützlichste Lernsignal. Das Ergebnis ist eine glattere Konvergenz, weniger instabile Trainingsläufe und eine konsistentere finale Leistung.
Link to this sectionWie STAL Ultralytics YOLO26 hilft, von kleinen Objekten zu lernen#
Eine weitere interessante Trainingsverbesserung in Ultralytics YOLO26 ergibt sich daraus, wie das Modell Trainingsziele Vorhersagen zuordnet, ein Prozess, der als Label Assignment bekannt ist. Er ist dafür verantwortlich, Ground-Truth-Objekte mit Kandidatenvorhersagen abzugleichen, die oft als Anchors bezeichnet werden.
Diese Übereinstimmungen bestimmen, welche Vorhersagen eine Überwachung erhalten und zum Loss beitragen. YOLO26 baut auf einer bestehenden Label-Assignment-Methode namens Task Alignment Learning (TAL) auf, die entwickelt wurde, um Klassifizierung und Lokalisierung während des Trainings besser aufeinander abzustimmen.
Während TAL für die meisten Objekte gut funktioniert, zeigte das Training eine wichtige Einschränkung. Während des Matching-Prozesses konnten sehr kleine Objekte vollständig ignoriert werden. In der Praxis erhielten Objekte, die kleiner als etwa 8 Pixel in einem 640-Pixel-Eingangsbild waren, oft keine Anchor-Zuweisungen. Wenn dies geschieht, erhält das Modell wenig oder gar keine Überwachung für diese Objekte, was es schwierig macht, sie zuverlässig zu erkennen.
Um dieses Problem anzugehen, führt YOLO26 Small-Target-Aware Label Assignment (STAL) ein. STAL modifiziert den Zuweisungsprozess, um sicherzustellen, dass kleine Objekte während des Trainings nicht ignoriert werden. Konkret erzwingt es ein Minimum von vier Anchor-Zuweisungen für Objekte, die kleiner als 8 Pixel sind. Dies garantiert, dass selbst winzige Objekte konsistent zum Trainings-Loss beitragen.
Durch die Stärkung der Überwachung kleiner Ziele verbessert STAL die Lernstabilität und Erkennungsleistung in Szenarien, in denen kleine oder weit entfernte Objekte häufig vorkommen. Diese Verbesserung ist besonders wichtig für Edge-First YOLO26-Anwendungen wie Luftaufnahmen, Robotik und Internet of Things (IoT)-Systeme, bei denen Objekte oft klein, entfernt oder teilweise sichtbar sind und eine zuverlässige Erkennung entscheidend ist.
Link to this sectionUltralytics YOLO26 führt den MuSGD-Optimierer ein#
Um ein stabileres und vorhersehbareres Training zu unterstützen, führt Ultralytics YOLO26 auch einen neuen Optimierer namens MuSGD ein. Dieser Optimierer wurde entwickelt, um die Konvergenz und Trainingszuverlässigkeit in End-to-End-Erkennungsmodellen zu verbessern, insbesondere wenn die Modellgröße und die Trainingskomplexität zunehmen.
Damit ein neuronales Netzwerk lernen und folglich die Gewichte entsprechend ändern kann, berechnen wir während des Trainings einen Fehler (auch "Loss" genannt). Das Modell misst daher anhand eines Loss-Werts, wie falsch seine Vorhersagen sind, berechnet Gradienten, die angeben, wie sich seine Parameter ändern sollten, und aktualisiert dann diese Parameter, um den Fehler zu reduzieren. Der Stochastic Gradient Descent (SGD) ist ein weit verbreiteter Optimierer, der diese Aktualisierungen durchführt und das Training effizient und skalierbar macht.

Abb. 3. Stochastic Gradient Descent vs. Gradient Descent (Quelle)
MuSGD baut auf diesem bekannten Fundament auf, indem es Optimierungsideen integriert, die von Muon inspiriert sind, einer Methode, die im Training großer Sprachmodelle verwendet wird. Diese Ideen wurden von jüngsten Fortschritten wie Moonshot AIs Kimi K2 beeinflusst, das durch strukturiertere Parameteraktualisierungen ein verbessertes Trainingsverhalten demonstrierte.
YOLO26 verwendet eine hybride Aktualisierungsstrategie. Einige Parameter werden mit einer Kombination aus Muon-inspirierten Aktualisierungen und SGD aktualisiert, während andere nur SGD verwenden. Dies ermöglicht es YOLO26, zusätzliche Struktur in den Optimierungsprozess einzuführen und gleichzeitig die Robustheit und Generalisierungseigenschaften beizubehalten, die SGD effektiv gemacht haben.
Das Ergebnis ist eine flüssigere Optimierung, schnellere Konvergenz und ein vorhersehbareres Trainingsverhalten über verschiedene Modellgrößen hinweg, was MuSGD zu einem Schlüsselfaktor dafür macht, warum YOLO26 einfacher zu trainieren und skalierbarer ist.
Link to this sectionDie Bedeutung der Trainingsinnovationen von Ultralytics YOLO26#
Die Trainingsinnovationen von Ultralytics YOLO26, kombiniert mit wichtigen Funktionen wie dem End-to-End, NMS-freien und Edge-First-Design, machen das Modell einfacher zu trainieren und zuverlässiger im großen Maßstab. Du fragst dich vielleicht, was das wirklich für Computer-Vision-Anwendungen bedeutet.

Abb. 4. Ein Blick auf die Hauptfunktionen von YOLO26 (Quelle)
In der Praxis macht es das Einbringen von Computer Vision dorthin, wo sie tatsächlich läuft, viel einfacher. Modelle trainieren vorhersehbarer, skalieren konsistenter über Größen hinweg und sind einfacher an neue Datensätze anzupassen. Dies reduziert die Reibung zwischen Experimentieren und Bereitstellung, insbesondere in Umgebungen, in denen Zuverlässigkeit und Effizienz genauso wichtig sind wie die rohe Leistung.
Zum Beispiel müssen Modelle in der Robotik und industriellen Vision-Anwendungen oft häufig neu trainiert werden, wenn sich Umgebungen, Sensoren oder Aufgaben ändern. Mit YOLO26 können Teams schneller iterieren, ohne sich Gedanken über instabile Trainingsläufe oder inkonsistentes Verhalten über Modellgrößen hinweg machen zu müssen.
Link to this sectionWichtige Erkenntnisse#
Zuverlässige Computer-Vision-Systeme hängen genauso davon ab, wie Modelle trainiert werden, wie davon, wie sie zum Zeitpunkt der Inferenz funktionieren. Durch die Verbesserung der Ausgewogenheit von Lernsignalen, der Handhabung kleiner Objekte und des Fortschritts der Optimierung macht YOLO26 das Training stabiler und einfacher zu skalieren. Dieser Fokus auf zuverlässiges Training hilft Teams, reibungsloser von der Experimentierphase zur realen Bereitstellung überzugehen, insbesondere bei Edge-First-Anwendungen.
Möchtest du mehr über KI erfahren? Besuche unser GitHub-Repository, um mehr zu entdecken. Tritt unserer aktiven Community bei und informiere dich über Innovationen in Bereichen wie KI in der Logistik und Vision-KI in der Automobilindustrie. Um heute mit Computer Vision zu beginnen, schaue dir unsere Lizenzoptionen an.






