L'impatto del design più veloce e incentrato sull'edge di Ultralytics YOLO26
Guarda come Ultralytics YOLO26 è più veloce sull'edge e perché questo è importante per le applicazioni di computer vision di nuova generazione che richiedono bassa latenza ed efficienza.

All'inizio di questa settimana, Ultralytics ha lanciato ufficialmente Ultralytics YOLO26, un modello YOLO più veloce, leggero e compatto che mira a ridefinire le prestazioni dei sistemi di computer vision all'edge. YOLO26 supporta le stesse attività di visione principali dei precedenti modelli YOLO, inclusi il rilevamento di oggetti e la segmentazione delle istanze.

Fig 1. Un esempio di utilizzo di YOLO26 per segmentare un oggetto.
La differenza fondamentale tra YOLO26 e i modelli precedenti risiede nell'ambiente in cui è stato progettato per operare. Piuttosto che ottimizzare principalmente per le unità di elaborazione grafica (GPU) cloud o per prestazioni basate su benchmark, YOLO26 è stato progettato fin dalle fondamenta per l'implementazione nel mondo reale su dispositivi edge e hardware embedded.
Mentre la computer vision passa dalla ricerca alla produzione, la realtà dei vincoli di prestazione sta diventando più chiara. Gli ambienti edge sono modellati da rigidi vincoli di latenza, memoria limitata, potenza, vincoli termici e dalla necessità di un comportamento prevedibile su diverse piattaforme.
In queste impostazioni, le prestazioni complessive del sistema dipendono non solo dalla velocità di inferenza grezza, ma anche dall'efficienza con cui opera l'intera pipeline. Il sovraccarico di post-elaborazione, la pressione sulla memoria e i percorsi di esecuzione specifici della piattaforma sono spesso dei colli di bottiglia.
YOLO26 affronta queste sfide adottando un approccio più veloce e incentrato sull'edge che guarda all'intera pipeline di inferenza piuttosto che alle singole metriche del modello. Concentrandosi sull'ottimizzazione edge, semplificando la pipeline di inferenza e rimuovendo i passaggi di post-elaborazione non necessari, YOLO26 offre miglioramenti di velocità che si traducono in una latenza inferiore e in un comportamento più affidabile in produzione.
In questo articolo, esploreremo come le scelte architettoniche di YOLO26 si traducano in miglioramenti delle prestazioni nel mondo reale e perché essere più veloci all'edge cambi fondamentalmente ciò che è possibile per le applicazioni di computer vision di nuova generazione.
Link to this sectionLa realtà dell'implementazione edge#
Eseguire modelli di computer vision all'edge è molto diverso dall'eseguirli nel cloud. Negli ambienti cloud, i sistemi hanno solitamente accesso a GPU potenti, grandi quantità di memoria e hardware stabile. All' edge, le stesse ipotesi non si applicano.
La maggior parte delle implementazioni edge viene eseguita su diverse architetture hardware, non su GPU. I dispositivi utilizzano solitamente più processori specializzati per compiti diversi, ottimizzati per l'efficienza e il basso consumo energetico piuttosto che per la capacità di calcolo grezza delle GPU cloud.
La latenza è un altro vincolo importante. I sistemi edge operano spesso entro rigidi limiti di tempo reale, dove anche piccoli ritardi possono influenzare la reattività o la sicurezza. In questi casi, la latenza end-to-end conta più della velocità di inferenza grezza. Un modello può essere veloce sulla carta ma non essere all'altezza una volta aggiunti la post-elaborazione e il movimento dei dati.
Anche la memoria gioca un ruolo importante. Molti dispositivi edge hanno memoria limitata e cache condivise. Grandi tensori intermedi e un uso inefficiente della memoria possono rallentare i sistemi, anche quando il modello stesso è efficiente.
I limiti di potenza e termici aggiungono ulteriori vincoli. I dispositivi edge funzionano spesso senza raffreddamento attivo e con budget energetici fissi. Le prestazioni devono essere efficienti e sostenibili, non solo veloci in brevi picchi.
Oltre a tutto questo, le implementazioni edge richiedono coerenza. I modelli devono comportarsi allo stesso modo su diversi dispositivi e runtime. Codice specifico per la piattaforma o complessi passaggi di post-elaborazione possono introdurre sottili differenze che rendono i sistemi più difficili da implementare e mantenere.

Fig 2. Uno sguardo ai vincoli dell'implementazione edge. Immagine dell'autore.
Questi vincoli definiscono cosa significano davvero le prestazioni all'edge. In altre parole, le prestazioni sono definite dall'intera pipeline, non da una singola metrica.
Link to this sectionPerché la visione edge richiede un modello di prestazione diverso#
Quindi, come sono correlati i vincoli dell'implementazione edge ai requisiti di un modello di computer vision costruito per l'edge? La connessione diventa chiara una volta che i modelli passano dagli ambienti di ricerca ai sistemi del mondo reale.
Negli ambienti cloud, le prestazioni vengono spesso misurate utilizzando benchmark come la velocità di inferenza e l'accuratezza. All'edge, quelle metriche raccontano solo una parte della storia. I sistemi di visione solitamente vengono eseguiti su hardware eterogeneo, dove l'inferenza della rete neurale viene scaricata su acceleratori specializzati mentre altre parti della pipeline vengono eseguite su processori di uso generale.
In questo contesto, la velocità del modello non è sufficiente. È fondamentale come si comporta l'intero sistema una volta che il modello è stato distribuito. Un modello può apparire veloce di per sé, ma non essere all'altezza se la post-elaborazione, il movimento dei dati o i passaggi specifici della piattaforma aggiungono un sovraccarico.
Ecco perché la visione edge richiede un modello di prestazione che si concentri sull'efficienza a livello di sistema piuttosto che su benchmark isolati. YOLO26 riflette questo cambiamento concentrandosi sull'ottimizzazione edge-first, sull'inferenza semplificata e sull'esecuzione end-to-end costruita per l'implementazione nel mondo reale.
Link to this sectionLa base per la velocità: un design edge-first#
All'edge, le prestazioni sono definite da quanto bene un modello si adatta all'architettura hardware reale del dispositivo. Progettare prima per l'edge garantisce che i sistemi di visione funzionino in modo affidabile su piattaforme reali, indipendentemente dal mix specifico di unità di elaborazione disponibili.
Un approccio edge-first dà priorità a un'esecuzione prevedibile ed efficiente su hardware eterogeneo, piuttosto che adattare modelli ottimizzati per le GPU cloud dopo il fatto. In poche parole, questo significa favorire le operazioni che si traducono bene negli acceleratori di rete neurale, riducendo al minimo il lavoro non neurale al di fuori del modello e diminuendo la complessità non necessaria che può rallentare l'esecuzione end-to-end.
YOLO26 è stato progettato tenendo a mente questi vincoli. La sua architettura si concentra su prestazioni coerenti invece che sul throughput di picco in condizioni ideali. Semplificando i percorsi di esecuzione ed eliminando calcoli non necessari, YOLO26 riduce il sovraccarico attraverso la pipeline di inferenza e sfrutta meglio l'accelerazione disponibile del dispositivo e la gerarchia di memoria.
Questo approccio migliora anche l'affidabilità. L'ottimizzazione edge-first porta a tempi più prevedibili e a meno picchi di prestazioni, il che è fondamentale per i sistemi in tempo reale. Invece di fare affidamento su hardware specializzato o pesante post-elaborazione per ottenere velocità, YOLO26 enfatizza l'efficienza durante tutta la pipeline di inferenza.
Link to this sectionInferenza end-to-end e il costo della post-elaborazione#
Potresti chiederti cosa significhi eliminare i passaggi di post-elaborazione non necessari. Per capirlo, facciamo un passo indietro e guardiamo come funzionano i sistemi di rilevamento oggetti tradizionali.
In molte pipeline di rilevamento oggetti, l'inferenza non termina quando il modello produce le sue previsioni. Invece, il modello emette un gran numero di riquadri di delimitazione sovrapposti, che devono quindi essere filtrati e rifiniti prima di poter essere utilizzati. Questa pulizia avviene attraverso passaggi di post-elaborazione che vengono eseguiti al di fuori del modello stesso.
Uno dei passaggi di post-elaborazione più comuni è Non-Maximum Suppression, o NMS. NMS confronta i riquadri di delimitazione sovrapposti e mantiene solo i rilevamenti più sicuri, rimuovendo i duplicati che si riferiscono allo stesso oggetto. Sebbene questo approccio sia efficace, introduce calcoli extra dopo che l'inferenza è completa.

Fig 3. Capire NMS. Immagine dell'autore.
All'edge, questo lavoro extra ha un costo. I passaggi di post-elaborazione come NMS non sono ben adatti agli acceleratori specializzati utilizzati per l'inferenza della rete neurale, che sono ottimizzati per il calcolo neurale denso piuttosto che per operazioni pesanti in termini di controllo o memoria.
Di conseguenza, NMS introduce latenza aggiuntiva e sovraccarico di memoria, e il suo costo aumenta all'aumentare del numero di rilevamenti. Anche quando il modello stesso è veloce, NMS può comunque consumare una parte significativa del runtime totale.
La post-elaborazione aumenta anche la complessità del sistema. Poiché vive al di fuori del modello, deve essere implementata separatamente per diversi runtime e target hardware. Questo porta spesso a percorsi di codice specifici per la piattaforma, comportamenti incoerenti tra i dispositivi e pipeline di implementazione più fragili.
Ancora più importante, la post-elaborazione rompe l'idea di una vera prestazione end-to-end. Misurare la velocità di inferenza del modello non riflette come il sistema si comporta in produzione. Ciò che conta alla fine è il tempo totale dall'input all'output finale, incluso ogni passaggio nella pipeline.
In queste situazioni, la post-elaborazione diventa un collo di bottiglia nascosto all'edge. Aggiunge latenza, consuma risorse CPU e complica l'implementazione, il tutto restando al di fuori del modello stesso.
Link to this sectionCome YOLO26 rimuove NMS e perché questo lo rende più veloce#
YOLO26 rimuove NMS affrontando la causa principale dei rilevamenti duplicati invece di pulirli dopo l'inferenza. Invece di produrre molte previsioni sovrapposte che devono essere filtrate, il modello viene addestrato a generare direttamente un set più piccolo di rilevamenti finali e sicuri.
Ciò è reso possibile modificando il modo in cui i rilevamenti vengono appresi durante l'addestramento. YOLO26 incoraggia una relazione uno-a-uno più chiara tra oggetti e previsioni, riducendo la ridondanza alla fonte. Di conseguenza, i rilevamenti duplicati vengono risolti all'interno della rete stessa piuttosto che attraverso una post-elaborazione esterna.
La rimozione di NMS ha un impatto immediato sulle prestazioni edge. Poiché NMS non si traduce bene negli acceleratori di rete neurale, eliminarlo riduce il movimento di memoria ed evita costosi passaggi di elaborazione non neurale. Ciò riduce la latenza end-to-end e rende le prestazioni più prevedibili, specialmente sui dispositivi edge dove la post-elaborazione può altrimenti consumare una parte notevole del runtime totale.
Semplifica anche la pipeline di inferenza. Con meno passaggi al di fuori del modello, c'è meno movimento di dati e meno passaggi di mano tra i componenti. L'output del modello è già il risultato finale, il che rende l'esecuzione più prevedibile.
Link to this sectionRimozione di DFL per consentire una vera prestazione end-to-end#
Un'altra innovazione in YOLO26 è la rimozione di Distribution Focal Loss, o DFL, che veniva utilizzata nei precedenti modelli YOLO per la regressione dei riquadri di delimitazione. Invece di prevedere direttamente una singola coordinata, i modelli che utilizzano DFL apprendevano una distribuzione di possibili valori e poi derivavano un riquadro di delimitazione finale da quella distribuzione. Questo approccio aiutava a migliorare l'accuratezza della localizzazione ed è stato un importante passo avanti nelle generazioni precedenti.
Nel tempo, tuttavia, DFL ha anche introdotto dei compromessi. Prevedere le distribuzioni aumenta il calcolo e aggiunge complessità all'architettura del modello, il che può rallentare l'inferenza sulle CPU e rendere i modelli più difficili da esportare attraverso i formati di implementazione. DFL imponeva anche intervalli di regressione fissi, che potevano limitare la flessibilità durante il rilevamento di oggetti molto grandi.
YOLO26 rimuove DFL come parte del suo passaggio verso un design più semplice ed end-to-end. La regressione dei riquadri di delimitazione è stata riprogettata per essere più diretta, riducendo calcoli non necessari pur mantenendo l'accuratezza. Questo cambiamento si allinea con l'approccio senza NMS di YOLO26.
Link to this sectionDa dove deriva il 43% di inferenza CPU più veloce#
Nei benchmark basati su CPU, YOLO26 mostra un chiaro miglioramento delle prestazioni rispetto ai modelli YOLO precedenti. Rispetto a Ultralytics YOLO11, il modello nano di YOLO26 offre un'inferenza CPU fino al 43% più veloce, una differenza che ha un impatto significativo nelle implementazioni edge del mondo reale.

Fig 4. Benchmarking della velocità CPU di YOLO26.
Questo guadagno deriva dalla semplificazione dell'intera pipeline di inferenza piuttosto che dall'ottimizzazione di un singolo componente. L'esecuzione end-to-end rimuove il sovraccarico di post-elaborazione, un metodo di regressione dei riquadri di delimitazione più diretto riduce i calcoli e le scelte di design incentrate sulla CPU migliorano l'efficienza di esecuzione sui processori di uso generale.
Insieme, questi cambiamenti riducono la latenza, diminuiscono il carico di lavoro della CPU e portano a prestazioni più veloci e coerenti su hardware edge del mondo reale.
Link to this sectionL'impatto di YOLO26 sull'implementazione e sulle esportazioni edge#
I guadagni in termini di prestazioni di YOLO26 vanno oltre l'inferenza più veloce. Semplificando il modello e riducendo il sovraccarico di memoria, diventa più facile da implementare e più affidabile da eseguire negli ambienti edge.
Il design end-to-end di YOLO26 semplifica anche l' esportazione. Con meno componenti ausiliari e nessun passaggio di post-elaborazione esterno, i modelli esportati sono completamente autosufficienti. Ciò riduce le dipendenze specifiche della piattaforma e aiuta a garantire un comportamento coerente tra i runtime e i target hardware.
In pratica, questo significa che YOLO26 può essere implementato più facilmente su dispositivi edge come fotocamere, robot e sistemi embedded, utilizzando vari formati di esportazione. Ciò che esporti è ciò che esegui, con meno passaggi di integrazione e meno rischi di deriva dell'implementazione.
Link to this sectionL'inferenza edge più veloce abilita la robotica e la visione industriale AI#
Finora, abbiamo esaminato come il design edge-first di YOLO26 migliori le prestazioni a livello di sistema. Il vero impatto, tuttavia, sta nel modo in cui rende più facile integrare la visione AI nelle applicazioni del mondo reale.
Ad esempio, nella robotica e negli ambienti industriali, i sistemi di visione operano spesso sotto rigidi vincoli di tempo reale. Le decisioni devono essere prese rapidamente e in modo coerente, utilizzando una potenza di calcolo limitata e senza fare affidamento sulla connettività cloud. Con Ultralytics YOLO26, soddisfare questi requisiti diventa pratico.
Applicazioni come la navigazione robotica e la manipolazione degli oggetti beneficiano di una latenza inferiore e di un'inferenza più prevedibile, consentendo ai robot di rispondere senza problemi ai cambiamenti nel loro ambiente. Allo stesso modo, negli ambienti industriali, i modelli di visione possono essere eseguiti direttamente sulle linee di produzione per rilevare difetti, tracciare componenti e monitorare i processi senza introdurre ritardi o ulteriore complessità.
Abilitando un'inferenza veloce e affidabile sull'hardware edge, YOLO26 aiuta a rendere la visione AI una parte naturale della robotica e dei sistemi industriali, piuttosto che una sfida da implementare e mantenere.
Link to this sectionPunti chiave#
YOLO26 è stato costruito per l'edge, dove i vincoli del mondo reale come la latenza, la memoria e l'affidabilità definiscono ciò che è possibile. Progettando il modello attorno all'esecuzione CPU-first, all'inferenza end-to-end e a un'implementazione più semplice, YOLO26 rende la visione AI pratica da integrare nei sistemi reali. Questo approccio edge-first abilita una vasta gamma di applicazioni, dalla robotica e la visione industriale all'IA integrata e on-device, dove le prestazioni e la prevedibilità contano di più.
Unisciti alla nostra crescente community ed esplora il nostro repository GitHub per risorse AI pratiche. Per costruire oggi con la visione AI, esplora le nostre opzioni di licenza. Scopri come l' AI in agricoltura stia trasformando l'agricoltura e come la vision AI in sanità stia plasmando il futuro visitando le nostre pagine delle soluzioni.






