Confronto tra Ultralytics YOLO11 e i modelli YOLO precedenti

Abirami Vina

4 minuti di lettura

2 aprile 2025

Confrontate Ultralytics YOLOv8, YOLOv9, YOLOv10 e Ultralytics YOLO11 per capire come si sono evoluti e migliorati questi modelli dal 2023 al 2025.

Dall'automazione delle attività quotidiane all'aiuto nel prendere decisioni informate in tempo reale, l'intelligenza artificiale (AI) sta ridisegnando il futuro di diversi settori. Un'area particolarmente affascinante dell'IA è la computer vision, altrimenti nota come Vision AI. Si tratta di consentire alle macchine di analizzare e interpretare i dati visivi come fanno gli esseri umani. 

In particolare, i modelli di computer vision sono alla base di innovazioni che migliorano la sicurezza e l'efficienza. Per esempio, questi modelli sono utilizzati nelle auto a guida autonoma per rilevare i pedoni e nelle telecamere di sicurezza per monitorare i locali 24 ore su 24. 

Alcuni dei modelli di computer vision più noti sono i modelli YOLO (You Only Look Once), noti per le loro capacità di rilevamento degli oggetti in tempo reale. Nel tempo, i modelli YOLO sono migliorati e ogni nuova versione offre prestazioni migliori e maggiore flessibilità.

Le versioni più recenti, come Ultralytics YOLO11, sono in grado di gestire una varietà di compiti, come la segmentazione delle istanze, la classificazione delle immagini, la stima della posa e il tracciamento di più oggetti, con un'accuratezza, una velocità e una precisione mai viste prima.

In questo articolo confronteremo Ultralytics YOLOv8, YOLOv9, YOLOv10 e Ultralytics YOLO11 per avere un'idea più precisa dell'evoluzione di questi modelli. Analizzeremo le loro caratteristiche principali, i risultati dei benchmark e le differenze di prestazioni. Iniziamo!

Una panoramica di Ultralytics YOLOv8

YOLOv8, rilasciato da Ultralytics il 10 gennaio 2023, rappresenta un importante passo avanti rispetto ai precedenti modelli YOLO. È ottimizzato per un rilevamento accurato in tempo reale, combinando approcci ben collaudati con aggiornamenti innovativi per ottenere risultati migliori.

Oltre al rilevamento degli oggetti, supporta anche le seguenti attività di computer vision: segmentazione dell'istanza, stima della posa, rilevamento degli oggetti oriented bounding box (OBB) e classificazione delle immagini. Un'altra caratteristica importante di YOLOv8 è che è disponibile in cinque diverse varianti di modello - Nano, Small, Medium, Large e X - in modo da poter scegliere il giusto equilibrio tra velocità e precisione in base alle proprie esigenze.

Grazie alla sua versatilità e alle sue ottime prestazioni, YOLOv8 può essere utilizzato in molte applicazioni reali, come i sistemi di sicurezza, le smart city, la sanità e l'automazione industriale.

__wf_reserved_inherit
Figura 1. Gestione dei parcheggi nelle città intelligenti con YOLOv8.

Caratteristiche principali di YOLOv8

Ecco un approfondimento su alcune delle altre caratteristiche principali di YOLOv8:

  • Architettura di rilevamento migliorata: YOLOv8 utilizza un backbone CSPDarknet migliorato. Questo backbone è ottimizzato per l'estrazione delle caratteristiche, ovvero il processo di identificazione e cattura di modelli o dettagli importanti dalle immagini di input che aiutano il modello a fare previsioni accurate.

  • Testa di rilevamento: Utilizza un design disaccoppiato e privo di ancore, il che significa che non si affida alle forme predefinite dei riquadri di delimitazione (ancore) e impara invece a prevedere direttamente la posizione degli oggetti. Grazie alla configurazione disaccoppiata, i compiti di classificazione dell'oggetto e di previsione della sua posizione (regressione) sono gestiti separatamente, il che contribuisce a migliorare la precisione e a velocizzare l'addestramento.

  • Bilanciamento di accuratezza e velocità: questo modello raggiunge un'accuratezza impressionante pur mantenendo tempi di inferenza rapidi, rendendolo adatto sia agli ambienti cloud che edge.

  • Semplicità d'uso: YOLOv8 è stato progettato per essere facile da usare: è possibile iniziare a prevedere e vedere i risultati in pochi minuti utilizzando il pacchetto Ultralytics Python.

YOLOv9 si concentra sull'efficienza computazionale

YOLOv9 è stato rilasciato il 21 febbraio 2024 da Chien-Yao Wang e Hong-Yuan Mark Liao dell'Institute of Information Science, Academia Sinica, Taiwan. Supporta compiti come il rilevamento di oggetti e la segmentazione di istanze

Questo modello si basa su Ultralytics YOLOv5 e introduce due importanti innovazioni: Programmable Gradient Information (PGI) e Generalized Efficient Layer Aggregation Network (GELAN). 

L'IGP aiuta YOLOv9 a conservare le informazioni importanti mentre elabora i dati attraverso i suoi livelli, il che porta a risultati più accurati. Nel frattempo, GELAN migliora il modo in cui il modello utilizza i suoi livelli, aumentando le prestazioni e l'efficienza di calcolo. Grazie a questi aggiornamenti, YOLOv9 è in grado di gestire attività in tempo reale su dispositivi edge e applicazioni mobili, dove le risorse di calcolo sono spesso limitate.

__wf_reserved_inherit
Figura 2. Comprensione di come GELAN migliora l'accuratezza di YOLOv9.

Caratteristiche principali di YOLOv9

Ecco un assaggio di alcune delle altre caratteristiche principali di YOLOv8:

  • Alta precisione ed efficienza: YOLOv9 offre un'elevata precisione di rilevamento senza consumare molta potenza di calcolo, il che lo rende un'ottima scelta quando le risorse sono limitate.
  • Modelli leggeri: Le varianti di modelli leggeri di YOLOv9 sono ottimizzate per le implementazioni edge e mobili.
  • Facile da usare: YOLOv9 è supportato dal pacchetto Ultralytics Python, quindi è semplice da configurare ed eseguire in diversi ambienti, sia che si utilizzi il codice che la riga di comando.

YOLOv10 consente il rilevamento di oggetti senza NMS

YOLOv10 è stato presentato il 23 maggio 2024 dai ricercatori della Tsinghua University ed è incentrato sul rilevamento degli oggetti in tempo reale. Affronta le limitazioni delle versioni precedenti di YOLO eliminando la necessità di soppressione non massimale (NMS), una fase di post-elaborazione utilizzata per eliminare i rilevamenti doppi, e perfezionando il design complessivo del modello. Il risultato è un rilevamento più rapido ed efficiente degli oggetti, pur mantenendo un'accuratezza all'avanguardia.

Una parte fondamentale di ciò che rende possibile tutto questo è un approccio all'addestramento noto come assegnazione coerente di due etichette. Esso combina due strategie: una che consente di apprendere più previsioni dallo stesso oggetto (one-to-many) e un'altra che si concentra sulla scelta della migliore previsione singola (one-to-one). Poiché entrambe le strategie seguono le stesse regole di corrispondenza, il modello impara da solo a evitare i duplicati, quindi non è necessario l'NMS.

__wf_reserved_inherit
Figura 3. YOLOv10 utilizza assegnazioni coerenti di etichette doppie per l'addestramento senza NMS.

L'architettura di YOLOv10 si avvale inoltre di una spina dorsale CSPNet migliorata per apprendere le caratteristiche in modo più efficace e di un collo PAN (Path Aggregation Network) che combina le informazioni provenienti da diversi livelli, migliorando il rilevamento di oggetti sia piccoli che grandi. Questi miglioramenti consentono di utilizzare YOLOv10 per applicazioni reali nei settori della produzione, della vendita al dettaglio e della guida autonoma.

Caratteristiche principali di YOLOv10

Ecco alcune delle altre caratteristiche di YOLOv10:

  • Convoluzioni a grande nocciolo: Il modello utilizza convoluzioni large-kernel per catturare più contesto da aree più ampie dell'immagine, aiutando a comprendere meglio la scena complessiva.
  • Moduli di autoattenzione parziale: Il modello incorpora moduli di autoattenzione parziale per concentrarsi sulle parti più importanti dell'immagine senza utilizzare troppa potenza di calcolo, aumentando in modo efficiente le prestazioni.
  • Variante unica del modello: Oltre alle consuete dimensioni di YOLOv10 - Nano, Small, Medium, Large e X - esiste anche una versione speciale chiamata YOLOv10b (Balanced). Si tratta di un modello più ampio, che elabora un maggior numero di caratteristiche a ogni livello, contribuendo a migliorare la precisione e a bilanciare velocità e dimensioni.
  • Facile da usare: YOLOv10 è compatibile con il pacchetto Ultralytics Python, che lo rende facile da usare.

Ultralytics YOLO11: velocità e precisione migliorate

Quest'anno, il 30 settembre, Ultralytics ha lanciato ufficialmente YOLO11 - uno degli ultimi modelli della serie YOLO - in occasione dell'evento ibrido annuale YOLO Vision 2024 (YV24).

Questa versione ha introdotto miglioramenti significativi rispetto alle versioni precedenti. YOLO11 è più veloce, più preciso e altamente efficiente. Supporta l'intera gamma di attività di computer vision che gli utenti di YOLOv8 conoscono bene, tra cui il rilevamento di oggetti, la segmentazione di istanze e la classificazione di immagini. Inoltre, mantiene la compatibilità con i flussi di lavoro di YOLOv8, facilitando la transizione degli utenti alla nuova versione.

Inoltre, YOLO11 è progettato per soddisfare un'ampia gamma di esigenze informatiche, dai dispositivi edge leggeri ai potenti sistemi cloud. Il modello è disponibile sia in versione open-source sia in versione enterprise, il che lo rende adattabile a diversi casi d'uso.

È un'ottima opzione per compiti di precisione come l'imaging medico e il rilevamento di satelliti, oltre che per applicazioni più ampie nei veicoli autonomi, nell'agricoltura e nella sanità.

__wf_reserved_inherit
Figura 4. Utilizzo di Ultralytics YOLO11 per rilevare, contare e tracciare il traffico.

Caratteristiche principali di YOLO11

Ecco alcune delle altre caratteristiche uniche di YOLO11:

  • Rilevamento rapido ed efficiente: YOLO11 è dotato di una testa di rilevamento progettata per ridurre al minimo la latenza, concentrandosi sulla velocità dei livelli finali di predizione senza compromettere le prestazioni.
  • Miglioramento dell'estrazione delle caratteristiche: Un'architettura ottimizzata della spina dorsale e del collo migliora l'estrazione delle caratteristiche, portando a previsioni più precise.
  • Distribuzione senza problemi su tutte le piattaforme: YOLO11 è ottimizzato per essere eseguito in modo efficiente su dispositivi edge, piattaforme cloud e GPU NVIDIA, garantendo l'adattabilità a diversi ambienti.

Benchmarking dei modelli YOLO sul set di dati COCO

Quando si esplorano diversi modelli, non è sempre facile confrontarli solo guardando le loro caratteristiche. È qui che entra in gioco il benchmarking. Eseguendo tutti i modelli sullo stesso set di dati, possiamo misurare e confrontare oggettivamente le loro prestazioni. Vediamo come si comporta ogni modello sul set di dati COCO.

Se si confrontano i modelli YOLO, ogni nuova versione apporta notevoli miglioramenti in termini di precisione, velocità e flessibilità. In particolare, YOLO11m fa un balzo in avanti in quanto utilizza il 22% di parametri in meno rispetto a YOLOv8m, il che significa che è più leggero e veloce da eseguire. Inoltre, nonostante le dimensioni ridotte, ottiene una precisione media superiore (mAP) sul set di dati COCO. Questa metrica misura la capacità del modello di rilevare e localizzare gli oggetti, per cui una mAP più alta significa previsioni più accurate. 

__wf_reserved_inherit
Figura 5. Benchmarking di YOLO11 e di altri modelli YOLO sul dataset COCO.

Prova e confronto dei modelli YOLO su un video

Vediamo come si comportano questi modelli in una situazione reale.

Per confrontare YOLOv8, YOLOv9, YOLOv10 e YOLO11, tutti e quattro sono stati eseguiti sullo stesso video del traffico utilizzando un punteggio di confidenza di 0,3 (il modello visualizza i rilevamenti solo quando è sicuro di aver identificato correttamente un oggetto per almeno il 30%) e una dimensione dell'immagine di 640 per una valutazione equa. I risultati del rilevamento e del tracciamento degli oggetti hanno evidenziato differenze fondamentali in termini di accuratezza, velocità e precisione del rilevamento. 

Fin dal primo fotogramma, YOLO11 ha individuato veicoli di grandi dimensioni, come i camion, che YOLOv10 non ha rilevato. YOLOv8 e YOLOv9 hanno mostrato prestazioni decenti, ma variabili a seconda delle condizioni di illuminazione e delle dimensioni dell'oggetto. I veicoli più piccoli e distanti sono rimasti una sfida per tutti i modelli, anche se YOLO11 ha mostrato notevoli miglioramenti anche in questi rilevamenti.

__wf_reserved_inherit
Figura 6. Confronto tra YOLOv8, YOLOv9, YOLOv10 e YOLO11.

In termini di velocità, tutti i modelli hanno operato tra i 10 e i 20 millisecondi per fotogramma, abbastanza velocemente da gestire attività in tempo reale a oltre 50 FPS. Da un lato, YOLOv8 e YOLOv9 hanno fornito rilevamenti costanti e affidabili per tutto il video. È interessante notare che YOLOv10, progettato per una latenza più bassa, è stato più veloce ma ha mostrato alcune incongruenze nel rilevamento di alcuni tipi di oggetti. 

YOLO11, invece, si è distinto per la sua precisione, offrendo un forte equilibrio tra velocità e accuratezza. Anche se nessuno dei modelli si è comportato perfettamente in ogni fotogramma, il confronto fianco a fianco ha dimostrato chiaramente che YOLO11 ha fornito le migliori prestazioni complessive. 

Quale modello YOLO è il migliore per le attività di computer vision?

La scelta di un modello per un progetto dipende dai suoi requisiti specifici. Ad esempio, alcune applicazioni possono dare la priorità alla velocità, mentre altre possono richiedere una maggiore precisione o devono affrontare vincoli di distribuzione che influenzano la decisione. 

Un altro fattore importante è il tipo di compiti di computer vision che dovete affrontare. Se siete alla ricerca di una maggiore flessibilità tra i vari compiti, YOLOv8 e YOLO11 sono buone opzioni.

La scelta di YOLOv8 o YOLO11 dipende dalle vostre esigenze. YOLOv8 è un'opzione valida se siete alle prime armi con la computer vision e apprezzate una comunità più ampia, un maggior numero di tutorial e ampie integrazioni di terze parti

D'altra parte, se cercate prestazioni all'avanguardia con una migliore precisione e velocità, YOLO11 è la scelta migliore, anche se è dotato di una comunità più piccola e di un numero minore di integrazioni a causa del fatto che è una versione più recente.

Punti di forza

Da Ultralytics YOLOv8 a Ultralytics YOLO11, l'evoluzione della serie di modelli YOLO riflette una spinta costante verso modelli di computer vision più intelligenti. Ogni versione di YOLO apporta significativi miglioramenti in termini di velocità, accuratezza e precisione. 

Con il continuo progresso della computer vision, questi modelli offrono soluzioni affidabili alle sfide del mondo reale, dal rilevamento degli oggetti ai sistemi autonomi. Il continuo sviluppo dei modelli YOLO dimostra quanta strada sia stata fatta nel settore e quanto ancora ci si possa aspettare in futuro.

Per saperne di più sull'IA, visitate il nostro repository GitHub e partecipate alla nostra comunità. Scoprite i progressi in tutti i settori, dalla Vision AI nel settore manifatturiero alla computer vision nel settore sanitario. Scoprite le nostre opzioni di licenza per iniziare oggi stesso i vostri progetti di Vision AI.

Costruiamo insieme il futuro
dell'IA!

Iniziate il vostro viaggio nel futuro dell'apprendimento automatico

Iniziare gratuitamente
Link copiato negli appunti