Ultralytics YOLO

Perché Ultralytics YOLO26 rimuove NMS e come ciò cambia l'implementazione

Scopri come Ultralytics YOLO26 abilita un'inferenza realmente end-to-end e priva di NMS e perché rimuovere la post-elaborazione semplifica l'esportazione e l'implementazione edge.

ABAbirami Vina

6 min readJanuary 15, 2026

Ultralytics YOLO26 che esegue il rilevamento di oggetti senza NMS

Il 14 gennaio abbiamo lanciato Ultralytics YOLO26, l'ultima generazione dei nostri modelli di computer vision. Con YOLO26, il nostro obiettivo non era solo migliorare la precisione o la velocità, ma ripensare a come i modelli di object detection vengono costruiti e distribuiti nei sistemi del mondo reale.

Mentre la computer vision passa dalla ricerca alla produzione, ci si aspetta sempre più che i modelli vengano eseguiti su CPU, edge device, telecamere, robot e hardware embedded. In questi ambienti, l'affidabilità, la bassa latenza e la facilità di deployment contano tanto quanto le prestazioni.

YOLO26 è stato progettato tenendo presente questa realtà, utilizzando un'architettura end-to-end ottimizzata che rimuove la complessità non necessaria dalla pipeline di inferenza. Una delle innovazioni più importanti apportate in YOLO26 è la rimozione del Non-Maximum Suppression, comunemente noto come NMS.

Per anni, NMS è stato una parte standard dei sistemi di object detection, utilizzato come passaggio di post-processing per eliminare i rilevamenti duplicati. Sebbene efficace, ha anche introdotto calcoli extra e sfide di deployment, specialmente su hardware edge.

Con YOLO26, abbiamo adottato un approccio diverso. Ripensando al modo in cui le predizioni vengono generate e addestrate, abilitiamo una vera inferenza end-to-end senza NMS. Il modello produce i rilevamenti finali direttamente, senza fare affidamento su passaggi di pulizia esterni o regole create manualmente. Questo rende YOLO26 più veloce, più facile da esportare e più affidabile da distribuire su un'ampia gamma di piattaforme hardware.

Rilevamento di oggetti in un'immagine tramite Ultralytics YOLO26

Fig 1. Rilevamento di oggetti in un'immagine utilizzando Ultralytics YOLO26.

In questo articolo, esamineremo più da vicino perché la tradizionale object detection si basava su NMS, come sia diventata un collo di bottiglia per il deployment e come YOLO26 elimini la necessità di soluzioni alternative. Iniziamo!

Link to this sectionLa tradizionale object detection produce rilevamenti duplicati#

Prima di addentrarci in cosa sia NMS e perché l'abbiamo rimosso in YOLO26, facciamo un passo indietro e guardiamo come i modelli di object detection tradizionali generano le loro predizioni.

I modelli di object detection tradizionali producono spesso più bounding box sovrapposti per lo stesso oggetto. Ognuno di questi box ha il proprio punteggio di confidenza, anche se tutti si riferiscono allo stesso oggetto nell'immagine.

Ciò accade per alcune ragioni. Primo, il modello effettua predizioni in molte posizioni spaziali e su diverse scale contemporaneamente. Questo aiuta il modello a rilevare oggetti di dimensioni diverse, ma significa anche che posizioni vicine possono identificare lo stesso oggetto in modo indipendente.

Secondo, molti sistemi di object detection utilizzano approcci basati su anchor, che generano un gran numero di box candidati attorno a ciascuna posizione. Sebbene ciò migliori le possibilità di trovare gli oggetti con precisione, aumenta anche il numero di predizioni sovrapposte.

Infine, il rilevamento basato su griglia porta naturalmente alla ridondanza. Quando un oggetto si trova vicino al confine di più celle della griglia, diverse celle potrebbero predire un box per quell'oggetto, risultando in più rilevamenti sovrapposti.

Per questo motivo, l'output grezzo del modello contiene spesso diversi box per un singolo oggetto. Per rendere utilizzabili i risultati, queste predizioni ridondanti devono essere filtrate in modo che rimanga solo un rilevamento finale.

Link to this sectionCapire il Non-Maximum Suppression#

Una volta che un modello di object detection produce più bounding box sovrapposti per lo stesso oggetto, quei risultati devono essere ripuliti prima di poter essere utilizzati. È qui che viene applicato il Non-Maximum Suppression.

Il Non-Maximum Suppression è un passaggio di post-processing che viene eseguito dopo che il modello ha terminato di effettuare le sue predizioni. Il suo scopo è ridurre i rilevamenti duplicati in modo che ogni oggetto sia rappresentato da un singolo bounding box finale.

Diagramma che offre una panoramica della soppressione dei non massimi

Fig 2. Una panoramica del NMS. Immagine dell'autore.

Il processo funziona confrontando i bounding box in base ai loro punteggi di confidenza e a quanto si sovrappongono. Le predizioni con una confidenza molto bassa vengono rimosse per prime.

I box rimanenti vengono quindi ordinati per confidenza e il box con il punteggio più alto viene selezionato come il miglior rilevamento. Quel box selezionato viene confrontato con gli altri.

Se un altro box si sovrappone troppo, quel box viene soppresso e rimosso. La sovrapposizione viene solitamente misurata utilizzando Intersection over Union, una metrica che calcola il rapporto tra l'area condivisa da due box e l'area totale coperta da entrambi. Questo processo si ripete finché non rimangono solo i rilevamenti più sicuri e non sovrapposti.

Link to this sectionPerché NMS complica il deployment#

Sebbene il Non-Maximum Suppression aiuti a filtrare i rilevamenti duplicati, introduce anche sfide che diventano più visibili una volta che i modelli escono dalla ricerca e passano al deployment nel mondo reale.

Uno dei problemi principali è la performance. NMS viene eseguito dopo l'inferenza e richiede di confrontare i bounding box tra loro per decidere quali mantenere.

Questo processo è computazionalmente costoso e difficile da parallelizzare in modo efficiente. Su edge device e sistemi basati su CPU, questo lavoro extra può aggiungere una latenza notevole, rendendo più difficile soddisfare i requisiti in tempo reale.

NMS aumenta anche la complessità del deployment. Poiché non fa parte del modello stesso, deve essere implementato separatamente come codice di post-processing.

Runtime e piattaforme diversi gestiscono NMS in modi diversi, il che spesso significa dover mantenere implementazioni personalizzate per ogni ambiente di destinazione. Ciò che funziona in una configurazione potrebbe comportarsi in modo leggermente diverso in un'altra, rendendo il deployment più fragile e difficile da scalare.

L'ottimizzazione dell'hardware è un'altra sfida. NMS non si adatta bene agli acceleratori AI specializzati, progettati per eseguire operazioni di rete neurale in modo efficiente. Di conseguenza, anche quando il modello viene eseguito rapidamente su hardware ottimizzato, NMS può diventare un collo di bottiglia che limita le prestazioni complessive.

Oltre a questi fattori, NMS si basa su parametri scelti manualmente come soglie di confidenza e soglie di sovrapposizione. Queste impostazioni possono influenzare significativamente i risultati e spesso devono essere regolate per diversi dataset, applicazioni o hardware. Ciò rende il comportamento meno prevedibile nei sistemi di produzione e aggiunge un overhead di configurazione extra.

Link to this sectionSpiegazione dell'inferenza end-to-end nell'object detection#

I limiti del Non-Maximum Suppression ci hanno spinto a ripensare a come i modelli di object detection dovrebbero comportarsi durante l'inferenza. Invece di generare molte predizioni sovrapposte e ripulirle in seguito, abbiamo posto una domanda fondamentale.

Cosa succederebbe se il modello potesse produrre direttamente i rilevamenti finali? Questa domanda è al centro dell'inferenza di object detection end-to-end. In un sistema end-to-end, il modello viene addestrato per gestire l'intero processo di rilevamento dall'inizio alla fine, senza fare affidamento su passaggi di pulizia esterni.

Piuttosto che produrre molti box candidati e filtrarli dopo l'inferenza, il modello impara a generare autonomamente un piccolo set di predizioni sicure e non sovrapposte. I rilevamenti duplicati vengono risolti all'interno della rete invece di essere rimossi tramite post-processing.

Le nuove architetture di modelli hanno dimostrato che questo approccio era possibile e pratico. Con la giusta strategia di addestramento, i modelli potevano imparare ad associare ogni oggetto a una singola predizione invece che a molte in competizione, riducendo la ridondanza alla fonte.

Rilevamento di oggetti in un'immagine tramite Ultralytics YOLO26

Fig 3. Un esempio di rilevamento di oggetti utilizzando Ultralytics YOLO26.

Affinché funzioni, anche l'addestramento deve cambiare. Invece di lasciare che molte predizioni competano per lo stesso oggetto, il modello impara a prendere una decisione chiara, producendo rilevamenti più ridotti e più sicuri.

Il risultato complessivo è una pipeline di inferenza più semplice. Poiché i duplicati vengono risolti internamente, non c'è bisogno del Non-Maximum Suppression durante l'inferenza. L'output del modello è già il set finale di rilevamenti.

Questo design end-to-end rende anche il deployment più semplice. Senza passaggi di post-processing o implementazioni NMS specifiche per la piattaforma, il modello esportato è completamente autosufficiente e si comporta in modo coerente tra diversi framework di inferenza e target hardware.

Come spiega il nostro Lead Partnership Engineer, Francesco Mattioli, “Un vero apprendimento end-to-end significa che il modello dovrebbe gestire tutto, dai pixel alle predizioni, senza passaggi di post-processing artigianali che rompono la differenziabilità e complicano il deployment.”

Link to this sectionCome Ultralytics YOLO26 rimuove NMS#

YOLO26 rimuove il Non-Maximum Suppression cambiando il modo in cui i rilevamenti vengono appresi e prodotti, piuttosto che fare affidamento sul post-processing per ripulirli. Invece di consentire a molte predizioni di competere per lo stesso oggetto, YOLO26 è addestrato a imparare una chiara relazione uno-a-uno tra oggetti e output.

Ciò è abilitato in parte dal rilevamento basato su query apprendibili, che aiuta il modello a concentrarsi sulla produzione di una singola predizione sicura per ogni oggetto piuttosto che su molti candidati sovrapposti. Ogni oggetto è associato a una predizione, riducendo naturalmente i rilevamenti duplicati.

Questo comportamento è rafforzato attraverso strategie di matching coerenti durante l'addestramento, incoraggiando il modello a prendere una decisione sicura per oggetto invece di generare predizioni sovrapposte. Alla fine, il modello produce meno predizioni, ma ognuna di esse rappresenta un rilevamento finale.

Link to this sectionPerché la rimozione di DFL ha reso possibile il rilevamento senza NMS#

Un'altra importante innovazione che abilita l'inferenza senza NMS in YOLO26 è la rimozione del Distribution Focal Loss, o DFL. Nei precedenti modelli YOLO, DFL veniva utilizzato per migliorare la regressione del bounding box predicendo una distribuzione delle possibili posizioni del box invece di un singolo valore.

Sebbene questo approccio abbia migliorato la precisione della localizzazione, ha anche aggiunto complessità alla pipeline di rilevamento. Tale complessità è diventata un limite nel passaggio verso una vera inferenza end-to-end.

DFL ha introdotto calcoli aggiuntivi e range di regressione fissi, che hanno reso più difficile per il modello imparare assegnazioni di oggetti pulite uno-a-uno e hanno aumentato la dipendenza da passaggi di post-processing come il Non-Maximum Suppression. Con YOLO26, abbiamo rimosso DFL e riprogettato la regressione del bounding box per renderla più semplice e diretta.

Invece di basarsi su output basati sulla distribuzione, il modello impara a predire coordinate del box accurate in un modo che supporta rilevamenti più ridotti e più sicuri. Questo cambiamento aiuta a ridurre le predizioni sovrapposte alla fonte e allinea la regressione del bounding box con il design end-to-end senza NMS di YOLO26.

Link to this sectionUltralytics YOLO26 è senza NMS e facile da distribuire#

Un design senza NMS rende YOLO26 un modello veramente end-to-end. Questo ha un impatto importante sull'esportazione dei modelli.

Esportare significa convertire un modello addestrato in un formato che può essere eseguito al di fuori dell'ambiente di addestramento, come ONNX, TensorRT, CoreML o OpenVINO. Nelle pipeline tradizionali, questo processo spesso fallisce perché il Non-Maximum Suppression non fa parte del modello stesso.

Rimuovendo NMS, YOLO26 evita completamente questo problema. Il modello esportato include già tutto il necessario per produrre i rilevamenti finali.

Ciò rende il modello esportato completamente autosufficiente e più portabile tra framework di inferenza e target hardware. Lo stesso modello si comporta in modo coerente sia che venga distribuito su server, sistemi solo CPU, dispositivi embedded o acceleratori edge. Il deployment diventa più semplice perché ciò che esporti è esattamente ciò che esegui.

Questa semplicità è particolarmente importante per le applicazioni edge. Ad esempio, YOLO26 può essere facilmente distribuito su dispositivi come droni per casi d'uso come il monitoraggio delle colture, l'ispezione sul campo e l'analisi della salute delle piante, dove il calcolo limitato e i budget energetici rendono impraticabili le pipeline di post-processing complesse. Poiché il modello restituisce direttamente i rilevamenti finali, viene eseguito in modo affidabile su hardware leggero senza passaggi di elaborazione extra.

Ultralytics YOLO26 distribuito su un dispositivo edge come un drone

Fig 4. Ultralytics YOLO26 è facile da distribuire su edge device come i droni.

In breve, l'inferenza senza NMS rimuove gli ostacoli dall'esportazione e dal deployment e abilita sistemi di visione più puliti e affidabili. NMS era una soluzione alternativa. YOLO26 non ne ha più bisogno.

Link to this sectionPunti chiave#

YOLO26 rimuove il Non-Maximum Suppression risolvendo il problema sottostante dei rilevamenti duplicati, piuttosto che ripulirli dopo il fatto. Il suo design end-to-end consente al modello di produrre rilevamenti finali direttamente, rendendo l'esportazione e il deployment più semplici e coerenti su diversi hardware. NMS è stato un utile espediente per i sistemi precedenti, ma YOLO26 non ne ha più bisogno.

Unisciti alla nostra community e dai un'occhiata al nostro repository GitHub per saperne di più sull'AI. Esplora le nostre pagine di soluzioni su AI nell'agricoltura e computer vision nella vendita al dettaglio. Scopri le nostre opzioni di licenza e inizia oggi stesso con la vision AI!

Explore solutions

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Perché Ultralytics YOLO26 rimuove NMS e come ciò cambia l'implementazione

Link to this sectionLa tradizionale object detection produce rilevamenti duplicati#

Link to this sectionCapire il Non-Maximum Suppression#

Link to this sectionPerché NMS complica il deployment#

Link to this sectionSpiegazione dell'inferenza end-to-end nell'object detection#

Link to this sectionCome Ultralytics YOLO26 rimuove NMS#

Link to this sectionPerché la rimozione di DFL ha reso possibile il rilevamento senza NMS#

Link to this sectionUltralytics YOLO26 è senza NMS e facile da distribuire#

Link to this sectionPunti chiave#

Explore solutions

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

Costruiamo insieme il futuro dell'AI!