YOLO12 spiegato: applicazioni e casi d'uso nel mondo reale
Scopri YOLO12, il più recente modello di computer vision! Impara come la sua architettura incentrata sull'attenzione e la tecnologia FlashAttention migliorino le attività di object detection tra i vari settori.

La computer vision è un ramo dell'intelligenza artificiale (AI) che aiuta le macchine a comprendere immagini e video. È un campo che sta avanzando a un ritmo incredibile perché ricercatori e sviluppatori AI spingono costantemente oltre i limiti. La comunità AI punta sempre a rendere i modelli più veloci, intelligenti ed efficienti. Una delle ultime novità è YOLO12, l'ultima aggiunta alla serie di modelli YOLO (You Only Look Once), rilasciata il 18 febbraio 2025.
YOLO12 è stato sviluppato dai ricercatori dell'Università di Buffalo, SUNY (State University of New York) e dall'Università dell'Accademia Cinese delle Scienze. Con un nuovo approccio unico, YOLO12 introduce meccanismi di attenzione, permettendo al modello di concentrarsi sulle parti più essenziali di un'immagine invece di elaborare tutto allo stesso modo.
Presenta inoltre FlashAttention, una tecnica che velocizza l'elaborazione utilizzando meno memoria, e un meccanismo di area attention, progettato per imitare il modo in cui gli umani si concentrano naturalmente sugli oggetti centrali.
Questi miglioramenti rendono YOLO12n più preciso del 2,1% rispetto a YOLOv10n e YOLO12m più preciso dell'1,0% rispetto a YOLO11m. Tuttavia, questo comporta un compromesso: YOLO12n è più lento del 9% rispetto a YOLOv10n e YOLO12m è più lento del 3% rispetto a YOLO11m.

Fig 1. Un esempio di YOLO12 utilizzato per rilevare oggetti.
In questo articolo, esploreremo cosa rende diverso YOLO12, come si confronta con le versioni precedenti e dove può essere applicato.
Link to this sectionIl percorso verso il rilascio di YOLO12#
La serie di modelli YOLO è una collezione di modelli di computer vision progettati per il rilevamento di oggetti in tempo reale, il che significa che possono identificare e localizzare rapidamente oggetti in immagini e video. Nel tempo, ogni versione è migliorata in termini di velocità, precisione ed efficienza.
Ad esempio, Ultralytics YOLOv5, rilasciato nel 2020, è diventato ampiamente utilizzato perché veloce e facile da addestrare e implementare su misura. Successivamente, Ultralytics YOLOv8 ha migliorato questo aspetto offrendo ulteriore supporto per attività di computer vision come la segmentazione di istanze e il tracciamento di oggetti.
Più recentemente, Ultralytics YOLO11 si è concentrato sul miglioramento dell'elaborazione in tempo reale mantenendo un equilibrio tra velocità e precisione. Ad esempio, YOLO11m aveva il 22% di parametri in meno rispetto a YOLOv8m, pur offrendo migliori prestazioni di rilevamento sul dataset COCO, un benchmark ampiamente utilizzato per valutare i modelli di rilevamento di oggetti.
Basandosi su questi progressi, YOLO12 introduce un cambiamento nel modo in cui elabora le informazioni visive. Invece di trattare tutte le parti di un'immagine allo stesso modo, dà priorità alle aree più rilevanti, migliorando la precisione del rilevamento. In parole povere, YOLO12 si basa sui miglioramenti precedenti puntando a essere più preciso.
Link to this sectionCaratteristiche chiave di YOLO12#
YOLO12 introduce diversi miglioramenti che potenziano le attività di computer vision mantenendo intatte le velocità di elaborazione in tempo reale. Ecco una panoramica delle caratteristiche chiave di YOLO12:
- Architettura incentrata sull'attenzione: Invece di trattare ogni parte di un'immagine allo stesso modo, YOLO12 si concentra sulle aree più importanti. Ciò migliora la precisione e riduce l'elaborazione non necessaria, rendendo il rilevamento più nitido ed efficiente, anche in immagini complesse.
- FlashAttention: YOLO12 velocizza l'analisi delle immagini utilizzando meno memoria. Con FlashAttention (un algoritmo efficiente per la memoria), ottimizza la gestione dei dati, riducendo lo stress dell'hardware e rendendo le attività in tempo reale più fluide e affidabili.
- Residual Efficient Layer Aggregation Networks (R-ELAN): YOLO12 organizza i suoi strati in modo più efficiente utilizzando R-ELAN, che migliora il modo in cui il modello elabora e apprende dai dati. Questo rende l'addestramento più stabile, il riconoscimento degli oggetti più nitido e i requisiti di calcolo inferiori, in modo che funzioni in modo efficiente in diversi ambienti.
Per capire come funzionano queste caratteristiche nella vita reale, pensa a un centro commerciale. YOLO12 può aiutare a tracciare gli acquirenti, identificare le decorazioni del negozio come piante in vaso o insegne promozionali e individuare oggetti smarriti o abbandonati.
La sua architettura incentrata sull'attenzione lo aiuta a concentrarsi sui dettagli più importanti, mentre FlashAttention assicura un'elaborazione rapida senza sovraccaricare il sistema. Questo rende più facile per i gestori dei centri commerciali migliorare la sicurezza, organizzare la disposizione dei negozi e migliorare l'esperienza di acquisto complessiva.

Fig 2. Rilevamento di oggetti in un centro commerciale utilizzando YOLO12.
Tuttavia, YOLO12 presenta anche alcune limitazioni da considerare:
- Tempi di addestramento più lunghi: A causa della sua architettura, YOLO12 richiede più tempo di addestramento rispetto a YOLO11.
- Sfide di esportazione: Alcuni utenti potrebbero riscontrare difficoltà durante l'esportazione dei modelli YOLO12, in particolare quando li integrano in specifici ambienti di distribuzione.
Link to this sectionComprendere i benchmark delle prestazioni di YOLO12#
YOLO12 è disponibile in diverse varianti, ciascuna ottimizzata per esigenze diverse. Le versioni più piccole (nano e small) danno priorità alla velocità e all'efficienza, rendendole ideali per dispositivi mobili ed edge computing. Le versioni medium e large offrono un equilibrio tra velocità e precisione, mentre YOLO12x (extra large) è progettato per applicazioni ad alta precisione, come l'automazione industriale, l'imaging medico e sistemi di sorveglianza avanzati.
Con queste variazioni, YOLO12 offre diversi livelli di prestazioni a seconda della dimensione del modello. I test di benchmark mostrano che alcune varianti di YOLO12 superano YOLOv10 e YOLO11 in precisione, ottenendo una mean average precision (mAP) più elevata.
Tuttavia, alcuni modelli, come YOLO12m, YOLO12l e YOLO12x, elaborano le immagini più lentamente rispetto a YOLO11, mostrando un compromesso tra precisione di rilevamento e velocità. Nonostante ciò, YOLO12 rimane efficiente, richiedendo meno parametri rispetto a molti altri modelli, sebbene ne utilizzi comunque più di YOLO11. Questo lo rende un'ottima scelta per le applicazioni in cui la precisione è più importante della velocità grezza.

Fig 3. Confronto tra Ultralytics YOLO11 e YOLO12.
Link to this sectionUtilizzo di YOLO12 tramite il pacchetto Python Ultralytics#
YOLO12 è supportato dal pacchetto Python Ultralytics ed è facile da usare, rendendolo accessibile sia ai principianti che ai professionisti. Con poche righe di codice, puoi caricare modelli pre-addestrati, eseguire varie attività di computer vision su immagini e video, e anche addestrare YOLO12 su dataset personalizzati. Il pacchetto Python Ultralytics semplifica il processo, eliminando la necessità di complessi passaggi di configurazione.
Ad esempio, ecco i passaggi che dovresti seguire per utilizzare YOLO12 per il rilevamento di oggetti:
- Installa il pacchetto Ultralytics: Per prima cosa, installa il pacchetto Python Ultralytics, che fornisce gli strumenti necessari per eseguire YOLO12 in modo efficiente. Ciò garantisce che tutte le dipendenze siano configurate correttamente.
- Carica un modello YOLO12 pre-addestrato: Scegli la variante YOLO12 appropriata (nano, small, medium, large o extra large) in base al livello di precisione e velocità richiesto per la tua attività.
- Fornisci un'immagine o un video: Inserisci un file immagine o video che desideri analizzare. YOLO12 può anche elaborare feed video in diretta per il rilevamento in tempo reale.
- Esegui il processo di rilevamento: Il modello scansiona i dati visivi, identifica gli oggetti e posiziona dei riquadri di delimitazione attorno ad essi. Etichetta ogni oggetto rilevato con la sua classe prevista e il punteggio di confidenza.
- Regola le impostazioni di rilevamento: Puoi anche modificare parametri come le soglie di confidenza per affinare la precisione e le prestazioni del rilevamento.
- Salva o utilizza l'output: L'immagine o il video elaborato, che ora contiene gli oggetti rilevati, può essere salvato o integrato in un'applicazione per ulteriori analisi, automazione o processo decisionale.
Questi passaggi rendono YOLO12 facile da usare per una varietà di applicazioni, dalla sorveglianza e tracciamento retail all'imaging medico e ai veicoli autonomi.
Link to this sectionApplicazioni pratiche di YOLO12#
YOLO12 può essere utilizzato in una varietà di applicazioni del mondo reale grazie al suo supporto per il rilevamento di oggetti, la segmentazione di istanze, la classificazione di immagini, la stima della posa e il rilevamento orientato di oggetti (OBB).

Fig 4. YOLO12 supporta attività come il rilevamento di oggetti e la segmentazione di istanze.
Tuttavia, come abbiamo discusso in precedenza, i modelli YOLO12 danno priorità alla precisione rispetto alla velocità, il che significa che impiegano leggermente più tempo per elaborare le immagini rispetto alle versioni precedenti. Questo compromesso rende YOLO12 ideale per le applicazioni in cui la precisione è più importante della velocità in tempo reale, come:
- Imaging medico: YOLO12 può essere addestrato su misura per rilevare tumori o anomalie in radiografie e risonanze magnetiche con elevata precisione, rendendolo uno strumento utile per medici e radiologi che necessitano di un'analisi precisa delle immagini per la diagnosi.
- Controllo qualità nella produzione: Può aiutare a identificare i difetti del prodotto durante il processo di produzione, garantendo che solo gli articoli di alta qualità arrivino sul mercato, riducendo al contempo gli sprechi e migliorando l'efficienza.
- Analisi forense: Le forze dell'ordine possono affinare YOLO12 per analizzare i filmati di sorveglianza e raccogliere prove. Nelle indagini penali, la precisione è vitale per identificare dettagli chiave.
- Agricoltura di precisione: Gli agricoltori possono utilizzare YOLO12 per analizzare la salute delle colture, rilevare malattie o infestazioni di parassiti e monitorare le condizioni del suolo. Valutazioni accurate aiutano a ottimizzare le strategie agricole, portando a migliori rese e gestione delle risorse.
Link to this sectionIniziare con YOLO12#
Prima di eseguire YOLO12, è importante assicurarsi che il tuo sistema soddisfi i requisiti necessari.
Tecnicamente, YOLO12 può funzionare su qualsiasi GPU (Graphics Processing Unit) dedicata. Per impostazione predefinita, non richiede FlashAttention, quindi può funzionare sulla maggior parte dei sistemi GPU senza di essa. Tuttavia, abilitare FlashAttention può essere particolarmente utile quando si lavora con grandi dataset o immagini ad alta risoluzione, poiché aiuta a prevenire rallentamenti, ridurre l'utilizzo della memoria e migliorare l'efficienza di elaborazione.
Per utilizzare FlashAttention, avrai bisogno di una GPU NVIDIA di una di queste serie: Turing (T4, Quadro RTX), Ampere (RTX 30 series, A30, A40, A100), Ada Lovelace (RTX 40 series) o Hopper (H100, H200).
Tenendo a mente l'usabilità e l'accessibilità, il pacchetto Python Ultralytics non supporta ancora l'inferenza FlashAttention, poiché la sua installazione può essere tecnicamente complessa. Per saperne di più su come iniziare con YOLO12 e ottimizzare le sue prestazioni, dai un'occhiata alla documentazione ufficiale Ultralytics.
Link to this sectionPunti chiave#
Con l'avanzare della computer vision, i modelli stanno diventando più precisi ed efficienti. YOLO12 migliora le attività di computer vision come il rilevamento di oggetti, la segmentazione di istanze e la classificazione delle immagini con un'elaborazione incentrata sull'attenzione e FlashAttention, migliorando la precisione e ottimizzando l'uso della memoria.
Allo stesso tempo, la computer vision è più accessibile che mai. YOLO12 è facile da usare tramite il pacchetto Python Ultralytics e, con la sua attenzione alla precisione rispetto alla velocità, è particolarmente adatto per l'imaging medico, le ispezioni industriali e la robotica: applicazioni in cui la precisione è fondamentale.
Curioso dell'AI? Visita il nostro repository GitHub e interagisci con la nostra comunità. Esplora le innovazioni in settori come AI nelle auto a guida autonoma e computer vision in agricoltura nelle nostre pagine di soluzioni. Dai un'occhiata alle nostre opzioni di licenza e dai vita ai tuoi progetti di AI visiva. 🚀






