Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten

Warum Ultralytics NMS entfernt NMS wie sich dadurch die Bereitstellung verändert

Entdecken Sie, wie Ultralytics eine echte End-to-End-Inferenz NMS ermöglicht und warum der Wegfall der Nachbearbeitung den Export und die Edge-Bereitstellung vereinfacht.

Am 14. Januar haben wir Ultralytics vorgestellt, die neueste Generation unserer Computer-Vision-Modelle. Mit YOLO26 wollten wir nicht nur die Genauigkeit oder Geschwindigkeit verbessern, sondern auch die Art und Weise überdenken, wie Objekterkennungsmodelle in realen Systemen aufgebaut und eingesetzt werden.

Da Computer Vision zunehmend von der Forschung in die Produktion übergeht, wird immer häufiger erwartet, dass Modelle auf CPUs, Edge-Geräten, Kameras, Robotern und eingebetteter Hardware laufen. In diesen Umgebungen sind Zuverlässigkeit, geringe Latenz und einfache Bereitstellung ebenso wichtig wie die Leistung. 

YOLO26 wurde unter Berücksichtigung dieser Tatsache entwickelt und verwendet eine optimierte End-to-End-Architektur, die unnötige Komplexität aus der Inferenz-Pipeline entfernt. Eine der wichtigsten Neuerungen in YOLO26 ist die Entfernung der Non-Maximum Suppression, allgemein bekannt als NMS. 

Seit Jahren NMS ein fester Bestandteil von Objekterkennungssystemen und wird als Nachbearbeitungsschritt zur Bereinigung doppelter Erkennungen eingesetzt. Obwohl es effektiv ist, brachte es auch zusätzliche Herausforderungen in Bezug auf Berechnung und Bereitstellung mit sich, insbesondere auf Edge-Hardware.

Mit YOLO26 haben wir einen anderen Ansatz gewählt. Indem wir die Art und Weise, wie Vorhersagen generiert und trainiert werden, neu überdacht haben, ermöglichen wir eine echte End-to-End-Inferenz NMS. Das Modell liefert direkt die endgültigen Erkennungsergebnisse, ohne auf externe Bereinigungsschritte oder manuell erstellte Regeln angewiesen zu sein. Dadurch ist YOLO26 schneller, einfacher zu exportieren und zuverlässiger auf einer Vielzahl von Hardwareplattformen einsetzbar.

Abb. 1: Objekterkennung in einem Bild mit Ultralytics .

In diesem Artikel werden wir uns genauer ansehen, warum die herkömmliche Objekterkennung auf NMS basierte, wie dies zu einem Engpass bei der Bereitstellung wurde und wie YOLO26 die Notwendigkeit von Workarounds beseitigt. Lassen Sie uns beginnen!

Die herkömmliche Objekterkennung erzeugt doppelte Erkennungen.

Bevor wir uns damit befassen, was NMS und warum wir es in YOLO26 entfernt haben, wollen wir einen Schritt zurücktreten und uns ansehen, wie herkömmliche Objekterkennungsmodelle ihre Vorhersagen generieren.

Herkömmliche Objekterkennungsmodelle erzeugen oft mehrere überlappende Begrenzungsrahmen für dasselbe Objekt. Jeder dieser Rahmen verfügt über einen eigenen Konfidenzwert, obwohl sie sich alle auf dasselbe Objekt im Bild beziehen.

Dies geschieht aus mehreren Gründen. Erstens erstellt das Modell gleichzeitig Vorhersagen an vielen räumlichen Standorten und in unterschiedlichen Maßstäben. Dies hilft dem Modell, detect unterschiedlicher Größe detect , bedeutet aber auch, dass benachbarte Standorte alle unabhängig voneinander dasselbe Objekt identifizieren können.

Zweitens verwenden viele Objekterkennungssysteme ankerbasierte Ansätze, die eine große Anzahl von Kandidatenboxen um jeden Standort herum generieren. Dies verbessert zwar die Chance, Objekte genau zu finden, erhöht aber auch die Anzahl der sich überschneidenden Vorhersagen.

Schließlich führt die gitterbasierte Erkennung selbst natürlich zu Redundanz. Befindet sich ein Objekt in der Nähe der Grenze mehrerer Gitterzellen, können mehrere Zellen eine Box für dieses Objekt vorhersagen, was zu mehreren überlappenden Erkennungen führt. 

Aus diesem Grund enthält die Rohausgabe des Modells oft mehrere Boxen für ein einzelnes Objekt. Um die Ergebnisse nutzbar zu machen, müssen diese redundanten Vorhersagen gefiltert werden, sodass nur eine endgültige Erkennung übrig bleibt.

Nicht-maximale Unterdrückung verstehen

Sobald ein Objekterkennungsmodell mehrere überlappende Begrenzungsrahmen für dasselbe Objekt erzeugt, müssen diese Ergebnisse bereinigt werden, bevor sie verwendet werden können. Hier kommt die Nicht-Maximal-Unterdrückung zum Einsatz.

Die Nicht-Maximalunterdrückung ist ein Nachbearbeitungsschritt, der ausgeführt wird, nachdem das Modell seine Vorhersagen getroffen hat. Ihr Zweck besteht darin, doppelte Erkennungen zu reduzieren, sodass jedes Objekt durch einen einzigen endgültigen Begrenzungsrahmen dargestellt wird.

Abb. 2: Überblick über NMS. Bild vom Autor.

Der Prozess funktioniert durch den Vergleich von Begrenzungsrahmen auf der Grundlage ihrer Konfidenzwerte und ihres Überlappungsgrades. Vorhersagen mit sehr geringer Konfidenz werden zuerst entfernt. 

Die verbleibenden Boxen werden dann nach Konfidenz sortiert, und die Box mit der höchsten Punktzahl wird als beste Erkennung ausgewählt. Diese ausgewählte Box wird mit den anderen Boxen verglichen. 

Wenn eine andere Box zu stark mit ihr überlappt, wird diese Box unterdrückt und entfernt. Die Überlappung wird in der Regel anhand der Metrik „Intersection over Union“ gemessen , die das Verhältnis zwischen der von zwei Boxen gemeinsam genutzten Fläche und der von beiden Boxen abgedeckten Gesamtfläche berechnet. Dieser Vorgang wird so lange wiederholt, bis nur noch die sichersten, nicht überlappenden Erkennungen übrig bleiben.

Warum NMS die Bereitstellung NMS

Die Nicht-Maximalunterdrückung hilft zwar dabei, doppelte Erkennungen herauszufiltern, bringt jedoch auch Herausforderungen mit sich, die deutlicher werden, sobald Modelle aus der Forschung in die reale Welt übertragen werden.

Eines der größten Probleme ist die Leistung. NMS nach der Inferenz und erfordert den Vergleich von Begrenzungsrahmen miteinander, um zu entscheiden, welche beibehalten werden sollen. 

Dieser Prozess ist rechenintensiv und lässt sich nur schwer effizient parallelisieren. Auf Edge-Geräten und CPU Systemen kann dieser zusätzliche Aufwand zu einer spürbaren Latenz führen, wodurch es schwieriger wird, Echtzeitanforderungen zu erfüllen.

NMS erhöht NMS die Komplexität der Bereitstellung. Da es nicht Teil des Modells selbst ist, muss es separat als Nachbearbeitungscode implementiert werden. 

Verschiedene Laufzeiten und Plattformen behandeln NMS unterschiedliche Weise, was oft bedeutet, dass für jede Zielumgebung benutzerdefinierte Implementierungen gepflegt werden müssen. Was in einer Konfiguration funktioniert, kann sich in einer anderen etwas anders verhalten, was die Bereitstellung anfälliger und schwerer skalierbar macht.

Die Hardwareoptimierung ist eine weitere Herausforderung. NMS sauber auf spezielle KI-Beschleuniger abbilden, die für die effiziente Ausführung neuronaler Netzwerkoperationen ausgelegt sind. Selbst wenn das Modell auf optimierter Hardware schnell läuft, NMS daher zu einem Engpass werden, der die Gesamtleistung einschränkt.

Zusätzlich zu diesen Faktoren NMS auf manuell ausgewählte Parameter wie Konfidenzschwellen und Überlappungsschwellen. Diese Einstellungen können die Ergebnisse erheblich beeinflussen und müssen häufig für verschiedene Datensätze, Anwendungen oder Hardware angepasst werden. Dies macht das Verhalten in Produktionssystemen weniger vorhersehbar und verursacht zusätzlichen Konfigurationsaufwand.

End-to-End-Objekterkennung – Erklärung der Inferenz

Die Einschränkungen der Nicht-Maximalunterdrückung veranlassten uns dazu, das Verhalten von Objekterkennungsmodellen während der Inferenz zu überdenken. Anstatt viele überlappende Vorhersagen zu generieren und diese anschließend zu bereinigen, stellten wir uns eine grundlegendere Frage. 

Was wäre, wenn das Modell direkt endgültige Erkennungsergebnisse liefern könnte? Diese Frage steht im Mittelpunkt der End-to-End-Objekterkennung. In einem End-to-End-System wird das Modell so trainiert, dass es den gesamten Erkennungsprozess von Anfang bis Ende ohne externe Bereinigungsschritte bewältigen kann.

Anstatt viele Kandidatenboxen zu erzeugen und diese nach der Inferenz zu filtern, lernt das Modell, selbstständig eine kleine Menge zuverlässiger, sich nicht überschneidender Vorhersagen zu generieren. Doppelte Erkennungen werden innerhalb des Netzwerks aufgelöst, anstatt durch Nachbearbeitung entfernt zu werden.

Neuere Modellarchitekturen zeigten, dass dieser Ansatz sowohl möglich als auch praktikabel war. Mit der richtigen Trainingsstrategie konnten Modelle lernen, jedes Objekt mit einer einzigen Vorhersage statt mit vielen konkurrierenden Vorhersagen zu verknüpfen, wodurch Redundanzen an der Quelle reduziert wurden.

Abb. 3: Ein Beispiel für die Erkennung von Objekten mit Ultralytics .

Damit dies funktioniert, muss sich auch das Training ändern. Anstatt viele Vorhersagen um dasselbe Objekt konkurrieren zu lassen, lernt das Modell, eine klare Entscheidung zu treffen, wodurch weniger, aber zuverlässigere Erkennungen erzielt werden.

Das Gesamtergebnis ist eine einfachere Inferenz-Pipeline. Da Duplikate bereits intern aufgelöst werden, ist zum Zeitpunkt der Inferenz keine Nicht-Maximalunterdrückung erforderlich. Die Modellausgabe ist bereits der endgültige Satz von Erkennungen.

Dieses End-to-End-Design vereinfacht auch die Bereitstellung. Ohne Nachbearbeitungsschritte oder plattformspezifische NMS ist das exportierte Modell vollständig in sich geschlossen und verhält sich über verschiedene Inferenz-Frameworks und Hardware-Ziele hinweg konsistent.

Wie unser Lead Partnership Engineer Francesco Mattioli erklärt: „Echtes End-to-End-Lernen bedeutet, dass das Modell alles von Pixeln bis hin zu Vorhersagen verarbeiten sollte, ohne manuelle Nachbearbeitungsschritte, die die Differenzierbarkeit beeinträchtigen und die Bereitstellung erschweren.“

Wie Ultralytics NMS entfernt

YOLO26 beseitigt die Nicht-Maximalunterdrückung, indem es die Art und Weise ändert, wie Erkennungen gelernt und erzeugt werden, anstatt sich auf die Nachbearbeitung zu verlassen, um sie zu bereinigen. Anstatt zuzulassen, dass viele Vorhersagen um dasselbe Objekt konkurrieren, wird YOLO26 darauf trainiert, eine klare Eins-zu-Eins-Beziehung zwischen Objekten und Ausgaben zu lernen.

Dies wird zum Teil durch eine lernfähige, abfragebasierte Erkennung ermöglicht, die dem Modell hilft, sich auf die Erstellung einer einzigen, zuverlässigen Vorhersage für jedes Objekt zu konzentrieren, anstatt viele sich überschneidende Kandidaten zu liefern. Jedes Objekt wird mit einer Vorhersage verknüpft, wodurch doppelte Erkennungen auf natürliche Weise reduziert werden.

Dieses Verhalten wird durch konsistente Abgleichstrategien während des Trainings verstärkt, wodurch das Modell dazu angeregt wird, pro Objekt eine sichere Entscheidung zu treffen, anstatt sich überschneidende Vorhersagen zu generieren. Letztendlich liefert das Modell weniger Vorhersagen, aber jede einzelne davon stellt eine endgültige Erkennung dar. 

Warum die Entfernung von DFL eine NMS Erkennung ermöglichte

Eine weitere wichtige Neuerung, die eine NMS Inferenz in YOLO26 ermöglicht, ist die Entfernung des Distribution Focal Loss (DFL). In früheren YOLO wurde DFL verwendet, um die Bounding-Box-Regression zu verbessern, indem statt eines einzelnen Werts eine Verteilung möglicher Box-Positionen vorhergesagt wurde. 

Dieser Ansatz verbesserte zwar die Lokalisierungsgenauigkeit, erhöhte jedoch auch die Komplexität der Erkennungspipeline. Diese Komplexität wurde zu einer Einschränkung, als man sich in Richtung einer echten End-to-End-Inferenz bewegte. 

DFL führte zusätzliche Berechnungen und feste Regressionsbereiche ein, wodurch es für das Modell schwieriger wurde, saubere Eins-zu-Eins-Objektzuweisungen zu lernen, und die Abhängigkeit von Nachbearbeitungsschritten wie der Nicht-Maximalunterdrückung zunahm. Mit YOLO26 haben wir DFL entfernt und die Begrenzungsrahmenregression einfacher und direkter gestaltet.

Anstatt sich auf verteilungsbasierte Ergebnisse zu stützen, lernt das Modell, genaue Box-Koordinaten auf eine Weise vorherzusagen, die weniger, aber zuverlässigere Erkennungen ermöglicht. Diese Änderung trägt dazu bei, überlappende Vorhersagen an ihrer Quelle zu reduzieren und die Bounding-Box-Regression an das durchgängige, NMS Design von YOLO26 anzupassen. 

Ultralytics ist NMS und einfach zu implementieren.

Durch das NMS Design ist YOLO26 ein echtes End-to-End-Modell. Dies hat wichtige Auswirkungen auf den Export von Modellen

Exportieren bedeutet, ein trainiertes Modell in ein Format zu konvertieren, das außerhalb der Trainingsumgebung ausgeführt werden kann, z. B. ONNX, TensorRT, CoreML oder OpenVINO. In herkömmlichen Pipelines scheitert dieser Prozess häufig, da die Nicht-Maximalunterdrückung nicht Teil des Modells selbst ist. 

Durch das Entfernen NMS vermeidet YOLO26 dieses Problem vollständig. Das exportierte Modell enthält bereits alles, was für die endgültige Erkennung erforderlich ist. 

Dadurch ist das exportierte Modell vollständig eigenständig und lässt sich besser zwischen Inferenz-Frameworks und Hardware-Zielen übertragen. Das gleiche Modell verhält sich konsistent, unabhängig davon, ob es auf Servern, CPU CPU-Systemen, eingebetteten Geräten oder Edge-Beschleunigern eingesetzt wird. Die Bereitstellung wird einfacher, da Sie genau das exportieren, was Sie ausführen.

Diese Einfachheit ist besonders wichtig für Edge-Anwendungen. So lässt sich YOLO26 beispielsweise problemlos auf Geräten wie Drohnen für Anwendungsfälle wie Ernteüberwachung, Feldinspektion und Pflanzenzustandsanalyse einsetzen, bei denen komplexe Nachbearbeitungspipelines aufgrund begrenzter Rechen- und Leistungsressourcen nicht praktikabel sind. Da das Modell die endgültigen Erkennungsergebnisse direkt ausgibt, läuft es ohne zusätzliche Verarbeitungsschritte zuverlässig auf leichter Hardware.

Abb. 4: Ultralytics lässt sich leicht auf Edge-Geräten wie Drohnen einsetzen.

Kurz gesagt, die NMS Inferenz beseitigt Reibungsverluste beim Export und bei der Bereitstellung und ermöglicht sauberere, zuverlässigere Bildverarbeitungssysteme. NMS eine Notlösung. YOLO26 benötigt keine Notlösungen mehr.

Wesentliche Erkenntnisse

YOLO26 beseitigt die Nicht-Maximalunterdrückung (Non-Maximum Suppression, NMS), indem es das zugrunde liegende Problem der doppelten Erkennungen löst, anstatt diese nachträglich zu bereinigen. Dank seines End-to-End-Designs kann das Modell direkt endgültige Erkennungen erstellen, wodurch der Export und die Bereitstellung auf verschiedenen Hardwarekomponenten einfacher und konsistenter werden. NMS eine nützliche Übergangslösung für frühere Systeme, wird von YOLO26 jedoch nicht mehr benötigt.

Treten Sie unserer Community bei und besuchen Sie unser GitHub-Repository, um mehr über KI zu erfahren. Entdecken Sie unsere Lösungsseiten zu KI in der Landwirtschaft und Computer Vision im Einzelhandel. Informieren Sie sich über unsere Lizenzoptionen und starten Sie noch heute mit Vision AI! 

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten