Ultralytics YOLO

Warum Ultralytics YOLO26 NMS entfernt und wie das die Bereitstellung verändert

Entdecke, wie Ultralytics YOLO26 eine echte End-to-End, NMS-freie Inferenz ermöglicht und warum der Wegfall der Nachbearbeitung den Export und die Edge-Bereitstellung vereinfacht.

ABAbirami Vina

6 min readJanuary 15, 2026

Ultralytics YOLO26 bei der NMS-freien Objekterkennung

Am 14. Januar haben wir Ultralytics YOLO26 veröffentlicht, die neueste Generation unserer Computer Vision-Modelle. Mit YOLO26 war es unser Ziel, nicht nur die Genauigkeit oder Geschwindigkeit zu verbessern, sondern grundlegend zu überdenken, wie Objekterkennungsmodelle in realen Systemen erstellt und eingesetzt werden.

Während Computer Vision von der Forschung in die Produktion wandert, wird zunehmend erwartet, dass Modelle auf CPUs, Edge-Geräten, Kameras, Robotern und eingebetteter Hardware laufen. In diesen Umgebungen sind Zuverlässigkeit, niedrige Latenz und einfache Bereitstellung genauso wichtig wie die Performance.

YOLO26 wurde mit diesem Gedanken entwickelt und verwendet eine optimierte End-to-End-Architektur, die unnötige Komplexität aus der Inferenz-Pipeline entfernt. Eine der wichtigsten Innovationen in YOLO26 ist die Entfernung der Non-Maximum Suppression, allgemein als NMS bekannt.

Seit Jahren ist NMS ein Standardbestandteil von Objekterkennungssystemen und dient als Nachbearbeitungsschritt, um doppelte Erkennungen zu bereinigen. Obwohl es effektiv ist, führte es auch zu zusätzlichem Rechenaufwand und Bereitstellungsherausforderungen, insbesondere auf Edge-Hardware.

Mit YOLO26 haben wir einen anderen Ansatz gewählt. Indem wir die Art und Weise, wie Vorhersagen generiert und trainiert werden, überdacht haben, ermöglichen wir eine echte End-to-End, NMS-freie Inferenz. Das Modell liefert finale Erkennungen direkt, ohne auf externe Bereinigungsschritte oder manuell erstellte Regeln angewiesen zu sein. Das macht YOLO26 schneller, einfacher zu exportieren und zuverlässiger für die Bereitstellung auf einer Vielzahl von Hardwareplattformen.

Objekterkennung in einem Bild mit Ultralytics YOLO26

Abb. 1. Objekterkennung in einem Bild mit Ultralytics YOLO26.

In diesem Artikel werfen wir einen genaueren Blick darauf, warum die klassische Objekterkennung auf NMS angewiesen war, wie es zu einem Flaschenhals bei der Bereitstellung wurde und wie YOLO26 die Notwendigkeit für Workarounds eliminiert. Fangen wir an!

Link to this sectionTraditionelle Objekterkennung erzeugt doppelte Erkennungen#

Bevor wir uns damit befassen, was NMS ist und warum wir es in YOLO26 entfernt haben, lass uns einen Schritt zurücktreten und betrachten, wie traditionelle Objekterkennungsmodelle ihre Vorhersagen generieren.

Traditionelle Objekterkennungsmodelle erzeugen oft mehrere überlappende Bounding Boxes für dasselbe Objekt. Jede dieser Boxen hat ihren eigenen Konfidenzwert, obwohl sie sich alle auf dasselbe Objekt im Bild beziehen.

Das passiert aus einigen Gründen. Erstens trifft das Modell Vorhersagen an vielen räumlichen Positionen und in verschiedenen Skalen gleichzeitig. Dies hilft dem Modell, Objekte unterschiedlicher Größe zu erkennen, bedeutet aber auch, dass nahegelegene Positionen alle unabhängig voneinander dasselbe Objekt identifizieren können.

Zweitens verwenden viele Objekterkennungssysteme Anchor-basierte Ansätze, die eine große Anzahl an Kandidaten-Boxen um jede Position herum generieren. Während dies die Chance verbessert, Objekte präzise zu finden, erhöht es auch die Anzahl der überlappenden Vorhersagen.

Schließlich führt die Raster-basierte Erkennung selbst natürlich zu Redundanz. Wenn ein Objekt nahe der Grenze mehrerer Rasterzellen liegt, können mehrere Zellen eine Box für dieses Objekt vorhersagen, was zu mehreren überlappenden Erkennungen führt.

Aus diesem Grund enthält die rohe Ausgabe des Modells oft mehrere Boxen für ein einzelnes Objekt. Um die Ergebnisse nutzbar zu machen, müssen diese redundanten Vorhersagen gefiltert werden, sodass nur eine finale Erkennung übrig bleibt.

Link to this sectionVerständnis der Non-Maximum Suppression#

Sobald ein Objekterkennungsmodell mehrere überlappende Bounding Boxes für dasselbe Objekt produziert, müssen diese Ergebnisse bereinigt werden, bevor sie verwendet werden können. Hier kommt die Non-Maximum Suppression zum Einsatz.

Non-Maximum Suppression ist ein Nachbearbeitungsschritt, der ausgeführt wird, nachdem das Modell seine Vorhersagen abgeschlossen hat. Ihr Zweck ist es, doppelte Erkennungen zu reduzieren, sodass jedes Objekt durch eine einzige finale Bounding Box dargestellt wird.

Diagramm zur Übersicht über die Non-Maximum Suppression

Abb. 2. Ein Überblick über NMS. Bild vom Autor.

Der Prozess funktioniert, indem Bounding Boxes basierend auf ihren Konfidenzwerten und ihrem Überlappungsgrad verglichen werden. Vorhersagen mit sehr geringer Konfidenz werden zuerst entfernt.

Die verbleibenden Boxen werden dann nach Konfidenz sortiert, und die Box mit dem höchsten Wert wird als beste Erkennung ausgewählt. Diese ausgewählte Box wird mit den anderen Boxen verglichen.

Wenn eine andere Box zu stark mit ihr überlappt, wird diese Box unterdrückt und entfernt. Die Überlappung wird typischerweise mithilfe des Intersection over Union gemessen, einer Metrik, die das Verhältnis zwischen der von zwei Boxen gemeinsam genutzten Fläche und der von beiden abgedeckten Gesamtfläche berechnet. Dieser Vorgang wiederholt sich, bis nur noch die sichersten, nicht überlappenden Erkennungen übrig bleiben.

Link to this sectionWarum NMS die Bereitstellung kompliziert#

Während die Non-Maximum Suppression dabei hilft, doppelte Erkennungen zu filtern, führt sie auch Herausforderungen ein, die deutlicher werden, sobald Modelle die Forschung verlassen und in der realen Welt eingesetzt werden.

Eines der größten Probleme ist die Performance. NMS läuft nach der Inferenz und erfordert den Vergleich von Bounding Boxes miteinander, um zu entscheiden, welche beibehalten werden sollen.

Dieser Prozess ist rechenintensiv und schwer effizient zu parallelisieren. Auf Edge-Geräten und CPU-basierten Systemen kann dieser zusätzliche Aufwand zu spürbarer Latenz führen, was es schwieriger macht, Echtzeitanforderungen zu erfüllen.

NMS erhöht auch die Komplexität der Bereitstellung. Da es nicht Teil des Modells selbst ist, muss es separat als Nachbearbeitungscode implementiert werden.

Verschiedene Runtimes und Plattformen handhaben NMS unterschiedlich, was oft bedeutet, dass für jede Zielumgebung eigene Implementierungen gepflegt werden müssen. Was in einer Konfiguration funktioniert, kann sich in einer anderen leicht anders verhalten, was die Bereitstellung anfälliger und schwerer skalierbar macht.

Hardware-Optimierung ist eine weitere Herausforderung. NMS lässt sich nicht sauber auf spezialisierte KI-Beschleuniger übertragen, die darauf ausgelegt sind, neuronale Netzwerkoperationen effizient auszuführen. Infolgedessen kann NMS, selbst wenn das Modell auf optimierter Hardware schnell läuft, zu einem Flaschenhals werden, der die Gesamtleistung begrenzt.

Zusätzlich zu diesen Faktoren basiert NMS auf manuell gewählten Parametern wie Konfidenzschwellenwerten und Überlappungsschwellenwerten. Diese Einstellungen können Ergebnisse signifikant beeinflussen und müssen oft für verschiedene Datensätze, Anwendungen oder Hardware abgestimmt werden. Dies macht das Verhalten in Produktionssystemen weniger vorhersehbar und erhöht den Konfigurationsaufwand.

Link to this sectionEnd-to-End Objekterkennungsinferenz erklärt#

Die Einschränkungen der Non-Maximum Suppression haben uns dazu gebracht, zu überdenken, wie sich Objekterkennungsmodelle zur Zeit der Inferenz verhalten sollten. Anstatt viele überlappende Vorhersagen zu generieren und diese hinterher zu bereinigen, haben wir eine grundlegendere Frage gestellt.

Was wäre, wenn das Modell finale Erkennungen direkt produzieren könnte? Diese Frage steht im Zentrum der End-to-End Objekterkennungsinferenz. In einem End-to-End-System ist das Modell darauf trainiert, den gesamten Erkennungsprozess von Anfang bis Ende zu handhaben, ohne auf externe Bereinigungsschritte angewiesen zu sein.

Anstatt viele Kandidaten-Boxen zu erzeugen und diese nach der Inferenz zu filtern, lernt das Modell, selbst eine kleine Menge sicherer, nicht überlappender Vorhersagen zu generieren. Doppelte Erkennungen werden innerhalb des Netzwerks aufgelöst, anstatt durch Nachbearbeitung entfernt zu werden.

Neuere Modellarchitekturen zeigten, dass dieser Ansatz sowohl möglich als auch praktisch ist. Mit der richtigen Trainingsstrategie könnten Modelle lernen, jedes Objekt einer einzigen Vorhersage zuzuordnen, anstatt vielen konkurrierenden, wodurch Redundanz an der Quelle reduziert wird.

Objekterkennung in einem Bild mit Ultralytics YOLO26

Abb. 3. Ein Beispiel für die Objekterkennung mit Ultralytics YOLO26.

Damit dies funktioniert, muss sich auch das Training ändern. Anstatt viele Vorhersagen für dasselbe Objekt konkurrieren zu lassen, lernt das Modell, eine klare Entscheidung zu treffen, wodurch weniger und sicherere Erkennungen entstehen.

Das Gesamtergebnis ist eine einfachere Inferenz-Pipeline. Da Duplikate bereits intern aufgelöst werden, ist zur Zeit der Inferenz keine Non-Maximum Suppression erforderlich. Die Modellausgabe ist bereits der finale Satz an Erkennungen.

Dieses End-to-End-Design macht auch die Bereitstellung einfacher. Ohne Nachbearbeitungsschritte oder plattformspezifische NMS-Implementierungen ist das exportierte Modell vollständig in sich geschlossen und verhält sich über verschiedene Inferenz-Frameworks und Hardware-Ziele hinweg konsistent.

Wie unser Lead Partnership Engineer, Francesco Mattioli, erklärt: „Wirkliches End-to-End-Lernen bedeutet, dass das Modell alles von Pixeln bis zu Vorhersagen handhaben sollte, ohne handgefertigte Nachbearbeitungsschritte, die die Differenzierbarkeit brechen und die Bereitstellung verkomplizieren.“

Link to this sectionWie Ultralytics YOLO26 NMS entfernt#

YOLO26 entfernt die Non-Maximum Suppression, indem es die Art und Weise ändert, wie Erkennungen gelernt und produziert werden, anstatt sich auf Nachbearbeitung zur Bereinigung zu verlassen. Anstatt zuzulassen, dass viele Vorhersagen für dasselbe Objekt konkurrieren, ist YOLO26 darauf trainiert, eine klare Eins-zu-eins-Beziehung zwischen Objekten und Ausgaben zu lernen.

Dies wird teilweise durch lernbare abfragebasierte Erkennung ermöglicht, die dem Modell hilft, sich darauf zu konzentrieren, eine einzelne, sichere Vorhersage für jedes Objekt zu produzieren, anstatt viele überlappende Kandidaten. Jedes Objekt wird einer Vorhersage zugeordnet, was doppelte Erkennungen natürlich reduziert.

Dieses Verhalten wird durch konsistente Matching-Strategien während des Trainings verstärkt, die das Modell dazu ermutigen, eine sichere Entscheidung pro Objekt zu treffen, anstatt überlappende Vorhersagen zu generieren. Letztendlich produziert das Modell weniger Vorhersagen, aber jede davon repräsentiert eine finale Erkennung.

Link to this sectionWarum das Entfernen von DFL NMS-freie Erkennung möglich machte#

Eine weitere wichtige Innovation, die NMS-freie Inferenz in YOLO26 ermöglicht, ist die Entfernung von Distribution Focal Loss, oder DFL. In früheren YOLO-Modellen wurde DFL verwendet, um die Bounding-Box-Regression zu verbessern, indem eine Verteilung möglicher Box-Positionen anstelle eines einzelnen Wertes vorhergesagt wurde.

Obwohl dieser Ansatz die Lokalisierungsgenauigkeit verbesserte, erhöhte er auch die Komplexität der Erkennungs-Pipeline. Diese Komplexität wurde zu einer Einschränkung beim Übergang zu echter End-to-End-Inferenz.

DFL führte zusätzliche Berechnungen und feste Regressionsbereiche ein, was es für das Modell schwieriger machte, saubere Eins-zu-eins-Objektzuordnungen zu lernen, und die Abhängigkeit von Nachbearbeitungsschritten wie Non-Maximum Suppression erhöhte. Mit YOLO26 haben wir DFL entfernt und die Bounding-Box-Regression so umgestaltet, dass sie einfacher und direkter ist.

Anstatt sich auf verteilungsbasierte Ausgaben zu verlassen, lernt das Modell, genaue Box-Koordinaten auf eine Weise vorherzusagen, die weniger, aber sicherere Erkennungen unterstützt. Diese Änderung trägt dazu bei, überlappende Vorhersagen an der Quelle zu reduzieren und die Bounding-Box-Regression mit dem End-to-End, NMS-freien Design von YOLO26 in Einklang zu bringen.

Link to this sectionUltralytics YOLO26 ist NMS-frei und einfach bereitzustellen#

Ein NMS-freies Design macht YOLO26 zu einem echten End-to-End-Modell. Dies hat einen wichtigen Einfluss auf das Exportieren von Modellen.

Exportieren bedeutet, ein trainiertes Modell in ein Format umzuwandeln, das außerhalb der Trainingsumgebung laufen kann, wie ONNX, TensorRT, CoreML oder OpenVINO. In traditionellen Pipelines bricht dieser Prozess oft zusammen, da die Non-Maximum Suppression nicht Teil des Modells selbst ist.

Durch das Entfernen von NMS vermeidet YOLO26 dieses Problem vollständig. Das exportierte Modell enthält bereits alles, was für finale Erkennungen benötigt wird.

Dies macht das exportierte Modell vollständig in sich geschlossen und portabler über Inferenz-Frameworks und Hardware-Ziele hinweg. Dasselbe Modell verhält sich konsistent, egal ob es auf Servern, CPU-only-Systemen, eingebetteten Geräten oder Edge-Beschleunigern bereitgestellt wird. Die Bereitstellung wird unkomplizierter, weil das, was du exportierst, genau das ist, was du ausführst.

Diese Einfachheit ist besonders wichtig für Edge-Anwendungen. Zum Beispiel kann YOLO26 problemlos auf Geräten wie Drohnen für Anwendungsfälle wie Ernteüberwachung, Feldinspektion und Pflanzengesundheitsanalyse eingesetzt werden, wo begrenzte Rechen- und Strombudgets komplexe Nachbearbeitungs-Pipelines unpraktisch machen. Da das Modell finale Erkennungen direkt ausgibt, läuft es zuverlässig auf leichtgewichtiger Hardware ohne zusätzliche Bearbeitungsschritte.

Ultralytics YOLO26 bereitgestellt auf einem Edge-Gerät wie einer Drohne

Abb. 4. Ultralytics YOLO26 ist einfach auf Edge-Geräten wie Drohnen bereitzustellen.

Kurz gesagt, NMS-freie Inferenz entfernt Reibungspunkte beim Export und der Bereitstellung und ermöglicht sauberere, zuverlässigere Vision-Systeme. NMS war ein Workaround. YOLO26 benötigt keine Workarounds mehr.

Link to this sectionWichtige Erkenntnisse#

YOLO26 entfernt die Non-Maximum Suppression, indem es das grundlegende Problem doppelter Erkennungen löst, anstatt sie nachträglich zu bereinigen. Sein End-to-End-Design ermöglicht es dem Modell, finale Erkennungen direkt zu produzieren, was Export und Bereitstellung einfacher und konsistenter über verschiedene Hardware hinweg macht. NMS war ein nützlicher Workaround für frühere Systeme, aber YOLO26 benötigt es nicht mehr.

Tritt unserer Community bei und schau dir unser GitHub-Repository an, um mehr über KI zu erfahren. Erkunde unsere Lösungsseiten zu KI in der Landwirtschaft und Computer Vision im Einzelhandel. Entdecke unsere Lizenzierungsoptionen und starte noch heute mit Vision-KI!

Explore solutions

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Warum Ultralytics YOLO26 NMS entfernt und wie das die Bereitstellung verändert

Link to this sectionTraditionelle Objekterkennung erzeugt doppelte Erkennungen#

Link to this sectionVerständnis der Non-Maximum Suppression#

Link to this sectionWarum NMS die Bereitstellung kompliziert#

Link to this sectionEnd-to-End Objekterkennungsinferenz erklärt#

Link to this sectionWie Ultralytics YOLO26 NMS entfernt#

Link to this sectionWarum das Entfernen von DFL NMS-freie Erkennung möglich machte#

Link to this sectionUltralytics YOLO26 ist NMS-frei und einfach bereitzustellen#

Link to this sectionWichtige Erkenntnisse#

Explore solutions

KI in der Robotik

KI in der Logistik

KI im Einzelhandel

KI im Gesundheitswesen

KI in der Fertigung

KI in der Automobilbranche

KI in der Landwirtschaft

KI in der Robotik

KI in der Logistik

KI im Einzelhandel

KI im Gesundheitswesen

KI in der Fertigung

KI in der Automobilbranche

KI in der Landwirtschaft

KI in der Robotik

KI in der Logistik

KI im Einzelhandel

KI im Gesundheitswesen

KI in der Fertigung

KI in der Automobilbranche

KI in der Landwirtschaft

Lass uns gemeinsam die Zukunft der KI bauen!