Sintonizzati su YOLO Vision 2025!
25 settembre 2025
10:00 — 18:00 BST
Evento ibrido
Yolo Vision 2024

Confronto tra Ultralytics YOLO11 e i precedenti modelli YOLO

Abirami Vina

4 minuti di lettura

2 aprile 2025

Confronta Ultralytics YOLOv8, YOLOv9, YOLOv10 e Ultralytics YOLO11 per capire come questi modelli si sono evoluti e migliorati dal 2023 al 2025.

Dall'automazione delle attività quotidiane all'aiuto nel prendere decisioni informate in tempo reale, l'intelligenza artificiale (IA) sta rimodellando il futuro di vari settori. Un'area particolarmente affascinante dell'IA è la computer vision, altrimenti nota come Vision AI. Si concentra sul consentire alle macchine di analizzare e interpretare i dati visivi come fanno gli umani. 

Nello specifico, i modelli di computer vision stanno guidando innovazioni che migliorano sia la sicurezza che l'efficienza. Ad esempio, questi modelli vengono utilizzati nelle auto a guida autonoma per rilevare i pedoni e nelle telecamere di sicurezza per monitorare i locali 24 ore su 24. 

Alcuni dei modelli di computer vision più noti sono i modelli YOLO (You Only Look Once), conosciuti per le loro capacità di rilevamento degli oggetti in tempo reale. Nel tempo, i modelli YOLO sono migliorati, con ogni nuova versione che offre prestazioni migliori e maggiore flessibilità.

Le versioni più recenti come Ultralytics YOLO11 possono gestire una varietà di compiti, come la segmentazione delle istanze, la classificazione delle immagini, la stima della posa e il tracciamento multi-oggetto, con una migliore accuratezza, velocità e precisione che mai.

In questo articolo, confronteremo Ultralytics YOLOv8, YOLOv9, YOLOv10 e Ultralytics YOLO11 per avere un'idea migliore di come questi modelli si sono evoluti. Analizzeremo le loro caratteristiche principali, i risultati dei benchmark e le differenze di prestazioni. Iniziamo!

Una panoramica di Ultralytics YOLOv8

YOLOv8, rilasciato da Ultralytics il 10 gennaio 2023, è stato un importante passo avanti rispetto ai precedenti modelli YOLO. È ottimizzato per il rilevamento accurato in tempo reale, combinando approcci ben collaudati con aggiornamenti innovativi per risultati migliori.

Andando oltre il rilevamento di oggetti, supporta anche le seguenti attività di computer vision: segmentazione di istanze, stima della posa, rilevamento di oggetti con bounding box orientati (OBB) e classificazione delle immagini. Un'altra caratteristica importante di YOLOv8 è che è disponibile in cinque diverse varianti di modello: Nano, Small, Medium, Large e X, quindi puoi scegliere il giusto equilibrio tra velocità e precisione in base alle tue esigenze.

Grazie alla sua versatilità e alle ottime prestazioni, YOLOv8 può essere utilizzato in molte applicazioni reali, come sistemi di sicurezza, smart city, sanità e automazione industriale.

__wf_reserved_inherit
Fig. 1. Gestione dei parcheggi nelle smart city con YOLOv8.

Caratteristiche principali di YOLOv8

Ecco uno sguardo più da vicino ad alcune delle altre caratteristiche chiave di YOLOv8:

  • Architettura di rilevamento migliorata: YOLOv8 utilizza un backbone CSPDarknet migliorato. Questo backbone è ottimizzato per l'estrazione delle feature, ovvero il processo di identificazione e acquisizione di pattern o dettagli importanti dalle immagini di input che aiutano il modello a fare previsioni accurate.

  • Detection head: Utilizza un design disaccoppiato e anchor-free, il che significa che non si basa su forme di bounding box preimpostate (anchor) e invece impara a prevedere direttamente le posizioni degli oggetti. Grazie alla configurazione disaccoppiata, i task di classificazione dell'oggetto e di previsione della sua posizione (regressione) vengono gestiti separatamente, il che contribuisce a migliorare l'accuratezza e ad accelerare il training.

  • Bilancia accuratezza e velocità: Questo modello raggiunge un'accuratezza impressionante pur mantenendo tempi di inferenza rapidi, rendendolo adatto sia per ambienti cloud che edge.

  • Facile da usare: YOLOv8 è progettato per essere facile da usare fin da subito: puoi iniziare a fare previsioni e vedere i risultati in pochi minuti utilizzando il pacchetto Python Ultralytics.

YOLOv9 si concentra sull'efficienza computazionale

YOLOv9 è stato rilasciato il 21 febbraio 2024 da Chien-Yao Wang e Hong-Yuan Mark Liao dell'Institute of Information Science, Academia Sinica, Taiwan. Supporta attività come il rilevamento di oggetti e la segmentazione di istanze

Questo modello si basa su Ultralytics YOLOv5 e introduce due importanti innovazioni: Programmable Gradient Information (PGI) e Generalized Efficient Layer Aggregation Network (GELAN). 

PGI aiuta YOLOv9 a conservare informazioni importanti mentre elabora i dati attraverso i suoi livelli, il che porta a risultati più accurati. Nel frattempo, GELAN migliora il modo in cui il modello utilizza i suoi livelli, aumentando le prestazioni e l'efficienza computazionale. Grazie a questi aggiornamenti, YOLOv9 può gestire attività in tempo reale su dispositivi edge e app mobili, dove le risorse di calcolo sono spesso limitate.

__wf_reserved_inherit
Fig 2. Comprensione di come GELAN migliora l'accuratezza di YOLOv9.

Caratteristiche principali di YOLOv9

Ecco un'anteprima di alcune delle altre caratteristiche chiave di YOLOv8:

  • Elevata precisione con efficienza: YOLOv9 offre un'elevata accuratezza di rilevamento senza consumare molta potenza di calcolo, il che lo rende un'ottima scelta quando le risorse sono limitate.
  • Modelli leggeri: Le varianti di modello leggero di YOLOv9 sono ottimizzate per implementazioni edge e mobile. 
  • Facile da usare: YOLOv9 è supportato dal pacchetto Python di Ultralytics, quindi è semplice da configurare ed eseguire in diversi ambienti, sia che tu stia utilizzando il codice o la riga di comando.

YOLOv10 abilita il rilevamento di oggetti senza NMS

YOLOv10 è stato introdotto il 23 maggio 2024 da ricercatori dell'Università di Tsinghua ed è focalizzato sul rilevamento di oggetti in tempo reale. Affronta le limitazioni delle versioni precedenti di YOLO eliminando la necessità della soppressione non massima (NMS), una fase di post-elaborazione utilizzata per eliminare i rilevamenti duplicati, e perfezionando il design complessivo del modello. Ciò si traduce in un rilevamento di oggetti più veloce ed efficiente, pur raggiungendo un'accuratezza all'avanguardia.

Un elemento essenziale che rende ciò possibile è un approccio di addestramento noto come assegnazioni coerenti di etichette duali. Questo approccio combina due strategie: una che consente a più previsioni di apprendere dallo stesso oggetto (uno-a-molti) e un'altra che si concentra sulla scelta della migliore singola previsione (uno-a-uno). Poiché entrambe le strategie seguono le stesse regole di corrispondenza, il modello impara a evitare i duplicati da solo, quindi l'NMS non è necessario.

__wf_reserved_inherit
Fig. 3. YOLOv10 utilizza assegnazioni dual-label coerenti per l'addestramento senza NMS.

L'architettura di YOLOv10 utilizza anche un backbone CSPNet migliorato per apprendere le caratteristiche in modo più efficace e un neck PAN (Path Aggregation Network) che combina le informazioni provenienti da diversi livelli, migliorando il rilevamento di oggetti sia piccoli che grandi. Questi miglioramenti rendono possibile l'utilizzo di YOLOv10 per applicazioni nel mondo reale nei settori manifatturiero, della vendita al dettaglio e della guida autonoma.

Caratteristiche principali di YOLOv10

Ecco alcune delle altre caratteristiche distintive di YOLOv10:

  • Convoluzioni con Kernel Ampio: Il modello utilizza convoluzioni con kernel ampio per acquisire più contesto da aree più estese dell'immagine, aiutandolo a comprendere meglio la scena complessiva.
  • Moduli di auto-attenzione parziale: Il modello incorpora moduli di auto-attenzione parziale per concentrarsi sulle parti più importanti dell'immagine senza utilizzare troppa potenza di calcolo, migliorando efficacemente le prestazioni.
  • Variante di modello unica: Oltre alle solite dimensioni di YOLOv10 - Nano, Small, Medium, Large e X - c'è anche una versione speciale chiamata YOLOv10b (Balanced). È un modello più ampio, il che significa che elabora più funzionalità a ogni livello, il che aiuta a migliorare la precisione bilanciando al contempo velocità e dimensioni.
  • Facile da usare: YOLOv10 è compatibile con il pacchetto Python Ultralytics, il che lo rende facile da usare.

Ultralytics YOLO11: maggiore velocità e precisione

Quest'anno, il 30 settembre, Ultralytics ha lanciato ufficialmente YOLO11, uno degli ultimi modelli della serie YOLO, al suo evento ibrido annuale, YOLO Vision 2024 (YV24).

Questa release ha introdotto miglioramenti significativi rispetto alle versioni precedenti. YOLO11 è più veloce, più preciso e altamente efficiente. Supporta l'intera gamma di task di computer vision con cui gli utenti di YOLOv8 hanno familiarità, tra cui object detection, instance segmentation e image classification. Mantiene inoltre la compatibilità con i workflow di YOLOv8, facilitando la transizione degli utenti alla nuova versione.

In aggiunta a ciò, YOLO11 è progettato per soddisfare un'ampia gamma di esigenze di calcolo, dai dispositivi edge leggeri ai potenti sistemi cloud. Il modello è disponibile sia in versione open-source che enterprise, rendendolo adattabile a diversi casi d'uso.

È un'ottima opzione per attività di precisione come l'imaging medico e il rilevamento satellitare, nonché per applicazioni più ampie in veicoli autonomi, agricoltura e assistenza sanitaria.

__wf_reserved_inherit
Fig. 4. Utilizzo di Ultralytics YOLO11 per rilevare, contare e tracciare il traffico.

Caratteristiche principali di YOLO11

Ecco alcune delle altre caratteristiche uniche di YOLO11:

  • Rilevamento rapido ed efficiente: YOLO11 presenta un head di rilevamento progettato per una latenza minima, concentrandosi sulla velocità negli strati di previsione finale senza compromettere le prestazioni.
  • Migliore estrazione delle feature: Un'architettura backbone e neck ottimizzata migliora l'estrazione delle feature, portando a previsioni più precise. 
  • Distribuzione fluida su tutte le piattaforme: YOLO11 è ottimizzato per funzionare in modo efficiente su dispositivi edge, piattaforme cloud e GPU NVIDIA, garantendo adattabilità in diversi ambienti.

Benchmarking dei modelli YOLO sul dataset COCO

Quando si valutano diversi modelli, non è sempre facile confrontarli semplicemente osservando le loro caratteristiche. È qui che entra in gioco il benchmarking. Eseguendo tutti i modelli sullo stesso set di dati, possiamo misurare e confrontare oggettivamente le loro prestazioni. Diamo un'occhiata alle prestazioni di ciascun modello sul set di dati COCO.

Quando si confrontano i modelli YOLO, ogni nuova versione porta notevoli miglioramenti in termini di accuratezza, velocità e flessibilità. In particolare, YOLO11m fa un salto in avanti in quanto utilizza il 22% in meno di parametri rispetto a YOLOv8m, il che significa che è più leggero e veloce da eseguire. Inoltre, nonostante le sue dimensioni ridotte, raggiunge una precisione media media (mAP) più elevata sul dataset COCO. Questa metrica misura quanto bene il modello rileva e localizza gli oggetti, quindi una mAP più alta significa previsioni più accurate. 

__wf_reserved_inherit
Fig 5. Benchmarking di YOLO11 e altri modelli YOLO sul dataset COCO.

Test e confronto di modelli YOLO su un video

Analizziamo le prestazioni di questi modelli in situazioni reali.

Per confrontare YOLOv8, YOLOv9, YOLOv10 e YOLO11, tutti e quattro sono stati eseguiti sullo stesso video di traffico utilizzando un punteggio di confidenza di 0,3 (il modello visualizza solo i rilevamenti quando è sicuro almeno al 30% di aver identificato correttamente un oggetto) e una dimensione dell'immagine di 640 per una valutazione equa. I risultati del rilevamento e del tracciamento degli oggetti hanno evidenziato le principali differenze in termini di accuratezza, velocità e precisione del rilevamento. 

Fin dal primo frame, YOLO11 ha rilevato veicoli di grandi dimensioni come i camion che YOLOv10 non aveva individuato. YOLOv8 e YOLOv9 hanno mostrato prestazioni discrete, ma variabili a seconda delle condizioni di illuminazione e delle dimensioni dell'oggetto. I veicoli più piccoli e distanti sono rimasti una sfida per tutti i modelli, anche se YOLO11 ha mostrato notevoli miglioramenti anche in questi rilevamenti.

__wf_reserved_inherit
Fig 6. Confronto tra YOLOv8, YOLOv9, YOLOv10 e YOLO11.

In termini di velocità, tutti i modelli hanno operato tra i 10 e i 20 millisecondi per frame, abbastanza velocemente da gestire attività in tempo reale a oltre 50 FPS. Da un lato, YOLOv8 e YOLOv9 hanno fornito rilevamenti stabili e affidabili durante tutto il video. È interessante notare che YOLOv10, progettato per una latenza inferiore, è stato più veloce ma ha mostrato alcune incongruenze nel rilevamento di alcuni tipi di oggetti. 

YOLO11, d'altra parte, si è distinto per la sua precisione, offrendo un forte equilibrio tra velocità e accuratezza. Sebbene nessuno dei modelli si sia comportato perfettamente in ogni frame, il confronto affiancato ha dimostrato chiaramente che YOLO11 ha fornito le migliori prestazioni complessive. 

Quale modello YOLO è il migliore per le attività di computer vision?

La selezione di un modello per un progetto dipende dai suoi requisiti specifici. Ad esempio, alcune applicazioni possono dare priorità alla velocità, mentre altre possono richiedere una maggiore accuratezza o affrontare vincoli di deployment che influenzano la decisione. 

Un altro fattore importante è il tipo di attività di computer vision che devi affrontare. Se cerchi una maggiore flessibilità tra diverse attività, YOLOv8 e YOLO11 sono buone opzioni.

La scelta tra YOLOv8 e YOLO11 dipende davvero dalle tue esigenze. YOLOv8 è un'ottima opzione se sei alle prime armi con la computer vision e apprezzi una comunità più ampia, più tutorial e ampie integrazioni di terze parti

D'altra parte, se stai cercando prestazioni all'avanguardia con maggiore accuratezza e velocità, YOLO11 è la scelta migliore, anche se ha una community più piccola e meno integrazioni a causa della sua recente pubblicazione.

Punti chiave

Da Ultralytics YOLOv8 a Ultralytics YOLO11, l'evoluzione della serie di modelli YOLO riflette una spinta costante verso modelli di visione artificiale più intelligenti. Ogni versione di YOLO apporta aggiornamenti significativi in termini di velocità, accuratezza e precisione. 

Con il continuo progresso della computer vision, questi modelli offrono soluzioni affidabili a sfide del mondo reale, dal rilevamento di oggetti ai sistemi autonomi. Lo sviluppo continuo dei modelli YOLO mostra quanta strada ha fatto il settore e quanto altro possiamo aspettarci in futuro.

Per saperne di più sull'IA, visita il nostro repository GitHub e interagisci con la nostra community. Scopri i progressi in diversi settori, dalla Vision AI nel manufacturing alla computer vision nella sanità. Consulta le nostre opzioni di licenza per iniziare oggi stesso i tuoi progetti di Vision AI.

Costruiamo insieme il futuro
dell'AI!

Inizia il tuo viaggio con il futuro del machine learning

Inizia gratis
Link copiato negli appunti