YOLO12 spiegato: Applicazioni e casi d'uso reali

Abirami Vina

5 minuti di lettura

26 febbraio 2025

Scoprite YOLO12, l'ultimo modello di computer vision! Scoprite come la sua architettura incentrata sull'attenzione e la tecnologia FlashAttention migliorano le attività di rilevamento degli oggetti in tutti i settori.

La computer vision è una branca dell'intelligenza artificiale (AI) che aiuta le macchine a comprendere immagini e video. È un campo che avanza a un ritmo incredibile perché i ricercatori e gli sviluppatori di IA si spingono costantemente oltre i limiti. La comunità dell'IA mira sempre a rendere i modelli più veloci, più intelligenti e più efficienti. Una delle ultime scoperte è YOLO12, l'ultimo nato della serie di modelli YOLO (You Only Look Once), uscito il 18 febbraio 2025.

YOLO12 è stato sviluppato da ricercatori dell'Università di Buffalo, della SUNY (State University of New York) e dell'Università dell'Accademia delle Scienze cinese. Con un nuovo approccio unico, YOLO12 introduce meccanismi di attenzione che consentono al modello di concentrarsi sulle parti più essenziali di un'immagine, anziché elaborare tutto allo stesso modo. 

È inoltre dotato di FlashAttention, una tecnica che velocizza l'elaborazione utilizzando meno memoria, e di un meccanismo di attenzione ad area, progettato per imitare il modo in cui gli esseri umani si concentrano naturalmente sugli oggetti centrali.

Questi miglioramenti rendono YOLO12n più preciso del 2,1% rispetto a YOLOv10n e YOLO12m più preciso del +1,0% rispetto a YOLO11m. Tuttavia, ciò comporta un compromesso: YOLO12n è più lento del 9% rispetto a YOLOv10n e YOLO12m è più lento del 3% rispetto a YOLO11m.

__wf_reserved_inherit
Figura 1. Un esempio di utilizzo di YOLO12 per il rilevamento di oggetti.

In questo articolo esploreremo cosa rende YOLO12 diverso, come si confronta con le versioni precedenti e dove può essere applicato.

Il cammino verso l'uscita di YOLO12

La serie di modelli YOLO è una collezione di modelli di computer vision progettati per il rilevamento di oggetti in tempo reale, ovvero in grado di identificare e localizzare rapidamente gli oggetti in immagini e video. Nel corso del tempo, ogni versione è migliorata in termini di velocità, precisione ed efficienza.

Ad esempio, Ultralytics YOLOv5, rilasciato nel 2020, si è diffuso perché era veloce e facile da addestrare e distribuire. In seguito, Ultralytics YOLOv8 ha migliorato questo aspetto offrendo un supporto aggiuntivo per attività di computer vision come la segmentazione delle istanze e il tracciamento degli oggetti. 

Più recentemente, Ultralytics YOLO11 si è concentrato sul miglioramento dell'elaborazione in tempo reale, mantenendo un equilibrio tra velocità e precisione. Ad esempio, YOLO11m aveva il 22% di parametri in meno rispetto a YOLOv8m, pur garantendo prestazioni di rilevamento migliori sul set di dati COCO, un benchmark ampiamente utilizzato per valutare i modelli di rilevamento degli oggetti.

Sulla base di questi progressi, YOLO12 introduce un cambiamento nel modo in cui elabora le informazioni visive. Invece di trattare tutte le parti di un'immagine allo stesso modo, dà priorità alle aree più rilevanti, migliorando l'accuratezza del rilevamento. In poche parole, YOLO12 si basa sui miglioramenti precedenti e mira a essere più preciso.

Caratteristiche principali di YOLO12

YOLO12 introduce numerosi miglioramenti che migliorano le attività di computer vision mantenendo intatta la velocità di elaborazione in tempo reale. Ecco una panoramica delle caratteristiche principali di YOLO12:

  • Architettura incentrata sull'attenzione: Invece di trattare ogni parte dell'immagine allo stesso modo, YOLO12 si concentra sulle aree più importanti. Questo migliora l'accuratezza e riduce le elaborazioni non necessarie, rendendo il rilevamento più nitido ed efficiente, anche in immagini ingombre.
  • FlashAttenzione: YOLO12 accelera l'analisi delle immagini utilizzando meno memoria. Grazie a FlashAttention (un algoritmo di efficienza della memoria), ottimizza la gestione dei dati, riducendo l'affaticamento dell'hardware e rendendo le attività in tempo reale più fluide e affidabili.
  • Residual Efficient Layer Aggregation Networks (R-ELAN): YOLO12 organizza i suoi livelli in modo più efficiente utilizzando R-ELAN, che migliora il modo in cui il modello elabora e apprende dai dati. Ciò rende l'addestramento più stabile, il riconoscimento degli oggetti più nitido e i requisiti di calcolo più bassi, in modo da funzionare in modo efficiente in ambienti diversi.

Per capire come funzionano queste funzioni nella vita reale, basti pensare a un centro commerciale. YOLO12 può aiutare a tracciare gli acquirenti, a identificare le decorazioni del negozio, come le piante in vaso o i cartelli promozionali, e a individuare gli articoli smarriti o abbandonati. 

La sua architettura incentrata sull'attenzione consente di concentrarsi sui dettagli più importanti, mentre FlashAttention garantisce un'elaborazione rapida di tutte le informazioni senza sovraccaricare il sistema. In questo modo i gestori dei centri commerciali possono migliorare la sicurezza, organizzare il layout dei negozi e migliorare l'esperienza di acquisto complessiva.

__wf_reserved_inherit
Figura 2. Rilevamento di oggetti in un centro commerciale con YOLO12.

Tuttavia, YOLO12 presenta anche alcune limitazioni da considerare:

  • Tempi di formazione più lenti: A causa della sua architettura, YOLO12 richiede un tempo di addestramento maggiore rispetto a YOLO11.
  • Problemi di esportazione: Alcuni utenti possono incontrare difficoltà nell'esportazione dei modelli YOLO12, in particolare quando li integrano in ambienti di distribuzione specifici.

Comprendere i benchmark delle prestazioni di YOLO12

YOLO12 è disponibile in più varianti, ciascuna ottimizzata per esigenze diverse. Le versioni più piccole (nano e small) privilegiano la velocità e l'efficienza, rendendole ideali per i dispositivi mobili e l'edge computing. Le versioni medie e grandi raggiungono un equilibrio tra velocità e precisione, mentre YOLO12x (extra large) è progettato per applicazioni di alta precisione, come l'automazione industriale, l'imaging medico e i sistemi di sorveglianza avanzati.

Con queste varianti, YOLO12 offre diversi livelli di prestazioni a seconda delle dimensioni del modello. I test di benchmark mostrano che alcune varianti di YOLO12 superano YOLOv10 e YOLO11 in termini di accuratezza, ottenendo una precisione media superiore (mAP). 

Tuttavia, alcuni modelli, come YOLO12m, YOLO12l e YOLO12x, elaborano le immagini più lentamente di YOLO11, mostrando un compromesso tra accuratezza del rilevamento e velocità. Nonostante ciò, YOLO12 rimane efficiente, richiedendo meno parametri di molti altri modelli, anche se ne utilizza comunque di più rispetto a YOLO11. Questo lo rende un'ottima scelta per le applicazioni in cui l'accuratezza è più importante della velocità grezza.

__wf_reserved_inherit
Figura 3. Confronto tra gli Ultralitici YOLO11 e YOLO12.

Utilizzo di YOLO12 attraverso il pacchetto Ultralytics Python

YOLO12 è supportato dal pacchetto Ultralytics Python ed è facile da usare, rendendolo accessibile sia ai principianti che ai professionisti. Con poche righe di codice, gli utenti possono caricare modelli pre-addestrati, eseguire varie operazioni di computer vision su immagini e video e addestrare YOLO12 su set di dati personalizzati. Il pacchetto Ultralytics Python semplifica il processo, eliminando la necessità di complesse fasi di configurazione.

Ad esempio, ecco i passaggi da seguire per utilizzare YOLO12 per il rilevamento degli oggetti:

  • Installare il pacchetto Ultralytics: Innanzitutto, installare il pacchetto Ultralytics Python, che fornisce gli strumenti necessari per eseguire YOLO12 in modo efficiente. Questo assicura che tutte le dipendenze siano impostate correttamente.
  • Caricare un modello YOLO12 pre-addestrato: Scegliere la variante YOLO12 appropriata (nano, small, medium, large o extra large) in base al livello di precisione e velocità richiesto per l'attività.
  • Fornire un'immagine o un video: Immettere un'immagine o un file video da analizzare. YOLO12 è in grado di elaborare anche flussi video in diretta per il rilevamento in tempo reale.
  • Eseguire il processo di rilevamento: Il modello analizza i dati visivi, identifica gli oggetti e li delimita. Etichetta ogni oggetto rilevato con la classe prevista e il punteggio di confidenza.
  • Regolare le impostazioni di rilevamento: È inoltre possibile modificare parametri quali le soglie di fiducia per regolare con precisione la precisione e le prestazioni del rilevamento.
  • Salvare o utilizzare l'output: L'immagine o il video elaborati, ora contenenti gli oggetti rilevati, possono essere salvati o integrati in un'applicazione per ulteriori analisi, automazione o decisioni.

Questi passaggi rendono YOLO12 facile da usare per una varietà di applicazioni, dalla sorveglianza e dal tracciamento della vendita al dettaglio all'imaging medico e ai veicoli autonomi.

Applicazioni pratiche di YOLO12

YOLO12 può essere utilizzato in una varietà di applicazioni reali grazie al suo supporto per il rilevamento di oggetti, la segmentazione di istanze, la classificazione di immagini, la stima della posa e il rilevamento di oggetti orientati (OBB). 

__wf_reserved_inherit
Figura 4. YOLO12 supporta compiti come il rilevamento di oggetti e la segmentazione di istanze.

Tuttavia, come abbiamo detto in precedenza, i modelli YOLO12 privilegiano la precisione rispetto alla velocità, il che significa che impiegano un tempo leggermente superiore per elaborare le immagini rispetto alle versioni precedenti. Questo compromesso rende YOLO12 ideale per le applicazioni in cui la precisione è più importante della velocità in tempo reale, come ad esempio:

  • Immagini mediche: YOLO12 può essere addestrato per rilevare tumori o anomalie in radiografie e risonanze magnetiche con un'elevata precisione, rendendolo uno strumento utile per medici e radiologi che necessitano di un'analisi precisa delle immagini per la diagnosi.
  • Controllo di qualità nella produzione: Può aiutare a identificare i difetti del prodotto durante il processo di produzione, assicurando che solo i prodotti di alta qualità arrivino sul mercato, riducendo gli sprechi e migliorando l'efficienza.
  • Analisi forense: Le forze dell'ordine possono mettere a punto YOLO12 per analizzare i filmati di sorveglianza e raccogliere prove. Nelle indagini criminali, la precisione è fondamentale per identificare i dettagli chiave.
  • Agricoltura di precisione: Gli agricoltori possono utilizzare YOLO12 per analizzare lo stato di salute delle colture, rilevare malattie o infestazioni di parassiti e monitorare le condizioni del suolo. Valutazioni accurate aiutano a ottimizzare le strategie agricole, migliorando la resa e la gestione delle risorse.

Come iniziare con YOLO12

Prima di eseguire YOLO12, è importante assicurarsi che il sistema soddisfi i requisiti necessari.

Tecnicamente, YOLO12 può essere eseguito su qualsiasi GPU (Graphics Processing Unit) dedicata. Per impostazione predefinita, non richiede FlashAttention, quindi può funzionare sulla maggior parte dei sistemi con GPU anche senza. Tuttavia, l'attivazione di FlashAttention può essere particolarmente utile quando si lavora con grandi insiemi di dati o immagini ad alta risoluzione, in quanto aiuta a prevenire i rallentamenti, a ridurre l'uso della memoria e a migliorare l'efficienza dell'elaborazione. 

Per utilizzare FlashAttention, è necessaria una GPU NVIDIA di una delle seguenti serie: Turing (T4, Quadro RTX), Ampere (RTX 30 series, A30, A40, A100), Ada Lovelace (RTX 40 series) o Hopper (H100, H200).

Tenendo conto dell'usabilità e dell'accessibilità, il pacchetto Ultralytics Python non supporta ancora l'inferenza di FlashAttention, poiché la sua installazione può essere piuttosto complessa dal punto di vista tecnico. Per saperne di più su come iniziare a utilizzare YOLO12 e ottimizzare le sue prestazioni, consultate la documentazione ufficiale di Ultralytics.

Punti di forza

Con il progredire della computer vision, i modelli diventano sempre più precisi ed efficienti. YOLO12 migliora le attività di computer vision come il rilevamento degli oggetti, la segmentazione delle istanze e la classificazione delle immagini grazie all'elaborazione incentrata sull'attenzione e a FlashAttention, migliorando la precisione e ottimizzando l'uso della memoria.

Allo stesso tempo, la computer vision è più accessibile che mai. YOLO12 è facile da usare grazie al pacchetto Ultralytics Python e, grazie alla sua attenzione per l'accuratezza rispetto alla velocità, è adatto all'imaging medico, alle ispezioni industriali e alla robotica, applicazioni in cui la precisione è fondamentale.

Siete curiosi di conoscere l'intelligenza artificiale? Visitate il nostro repository GitHub e partecipate alla nostra comunità. Esplorate le innovazioni in settori come l'IA nelle auto a guida autonoma e la computer vision in agricoltura sulle nostre pagine dedicate alle soluzioni. Scoprite le nostre opzioni di licenza e date vita ai vostri progetti Vision AI. 🚀

Costruiamo insieme il futuro
dell'IA!

Iniziate il vostro viaggio nel futuro dell'apprendimento automatico

Iniziare gratuitamente
Link copiato negli appunti