Sintonizzati su YOLO Vision 2025!
25 settembre 2025
10:00 — 18:00 BST
Evento ibrido
Yolo Vision 2024

L'evoluzione dell'object detection e dei modelli YOLO di Ultralytics

Abirami Vina

4 minuti di lettura

18 ottobre 2024

Unisciti a noi mentre ripercorriamo l'evoluzione del rilevamento oggetti. Ci concentreremo su come i modelli YOLO (You Only Look Once) si sono evoluti negli ultimi anni.

La computer vision è un sottocampo dell'intelligenza artificiale (AI) che si concentra sull'insegnamento alle macchine di vedere e comprendere immagini e video, in modo simile a come gli umani percepiscono il mondo reale. Mentre riconoscere oggetti o identificare azioni è naturale per gli esseri umani, queste attività richiedono tecniche di computer vision specifiche e specializzate quando si tratta di macchine. Ad esempio, un'attività chiave nella computer vision è il rilevamento oggetti, che implica l'identificazione e la localizzazione di oggetti all'interno di immagini o video. 

Dagli anni '60, i ricercatori hanno lavorato per migliorare il modo in cui i computer possono rilevare oggetti. I primi metodi, come il template matching, prevedevano lo scorrimento di un template predefinito su un'immagine per trovare corrispondenze. Pur essendo innovativi, questi approcci avevano difficoltà con i cambiamenti di dimensione, orientamento e illuminazione degli oggetti. Oggi, abbiamo modelli avanzati come Ultralytics YOLO11 che possono rilevare anche oggetti piccoli e parzialmente nascosti, noti come oggetti occlusi, con una precisione impressionante.

Man mano che la computer vision continua a evolversi, è importante guardare indietro a come queste tecnologie si sono sviluppate. In questo articolo, esploreremo l'evoluzione del rilevamento oggetti e metteremo in luce la trasformazione dei modelli YOLO (You Only Look Once). Iniziamo!

Le origini della computer vision

Prima di immergerci nel rilevamento oggetti, diamo un'occhiata a come è iniziata la computer vision. Le origini della computer vision risalgono alla fine degli anni '50 e all'inizio degli anni '60, quando gli scienziati iniziarono a esplorare come il cervello elabora le informazioni visive. In esperimenti con i gatti, i ricercatori David Hubel e Torsten Wiesel scoprirono che il cervello reagisce a modelli semplici come bordi e linee. Questo ha costituito la base per l'idea alla base dell'estrazione di feature - il concetto che i sistemi visivi rilevano e riconoscono le caratteristiche di base nelle immagini, come i bordi, prima di passare a modelli più complessi.

Fig 1. Imparare come il cervello di un gatto reagisce alle barre luminose ha aiutato a sviluppare l'estrazione di feature nella computer vision.

Nello stesso periodo, è emersa una nuova tecnologia in grado di trasformare le immagini fisiche in formati digitali, suscitando interesse su come le macchine potessero elaborare le informazioni visive. Nel 1966, il Summer Vision Project del Massachusetts Institute of Technology (MIT) ha spinto ulteriormente le cose. Sebbene il progetto non sia riuscito completamente, mirava a creare un sistema in grado di separare il primo piano dallo sfondo nelle immagini. Per molti nella comunità Vision AI, questo progetto segna l'inizio ufficiale della computer vision come campo scientifico.

Comprendere la storia del rilevamento oggetti

Man mano che la computer vision avanzava alla fine degli anni '90 e all'inizio degli anni 2000, i metodi di rilevamento oggetti sono passati da tecniche di base come il template matching ad approcci più avanzati. Un metodo popolare era Haar Cascade, che divenne ampiamente utilizzato per attività come il rilevamento dei volti. Funzionava scansionando le immagini con una finestra scorrevole, controllando la presenza di caratteristiche specifiche come bordi o texture in ogni sezione dell'immagine, e quindi combinando queste caratteristiche per rilevare oggetti come i volti. Haar Cascade era molto più veloce dei metodi precedenti.

Fig 2. Utilizzo di Haar Cascade per il rilevamento dei volti.

Accanto a questi, sono stati introdotti anche metodi come l'Histogram of Oriented Gradients (HOG) e le Support Vector Machines (SVM). HOG utilizzava la tecnica della finestra scorrevole per analizzare come la luce e le ombre cambiavano in piccole sezioni di un'immagine, aiutando a identificare oggetti in base alle loro forme. Le SVM hanno quindi classificato queste caratteristiche per determinare l'identità dell'oggetto. Questi metodi hanno migliorato la precisione, ma hanno comunque avuto difficoltà negli ambienti del mondo reale ed erano più lenti rispetto alle tecniche odierne.

La necessità di rilevamento oggetti in tempo reale

Negli anni 2010, l'ascesa del deep learning e delle reti neurali convoluzionali (CNN) ha portato a un importante cambiamento nel rilevamento oggetti. Le CNN hanno reso possibile ai computer apprendere automaticamente caratteristiche importanti da grandi quantità di dati, il che ha reso il rilevamento molto più accurato. 

I primi modelli come R-CNN (Region-based Convolutional Neural Networks) hanno rappresentato un grande miglioramento in termini di precisione, aiutando a identificare gli oggetti in modo più accurato rispetto ai metodi precedenti. 

Tuttavia, questi modelli erano lenti perché elaboravano le immagini in più fasi, rendendoli impraticabili per applicazioni in tempo reale in aree come le auto a guida autonoma o la videosorveglianza.

Con l'obiettivo di accelerare le cose, sono stati sviluppati modelli più efficienti. Modelli come Fast R-CNN e Faster R-CNN hanno aiutato a perfezionare il modo in cui venivano scelte le regioni di interesse e a ridurre il numero di passaggi necessari per il rilevamento. Sebbene ciò abbia reso più veloce il rilevamento oggetti, non era ancora abbastanza rapido per molte applicazioni del mondo reale che necessitavano di risultati immediati. La crescente domanda di rilevamento in tempo reale ha spinto lo sviluppo di soluzioni ancora più veloci ed efficienti in grado di bilanciare velocità e precisione.

Fig. 3. Confronto delle velocità di R-CNN, Fast R-CNN e Faster R-CNN.

Modelli YOLO (You Only Look Once): una pietra miliare importante

YOLO è un modello di rilevamento oggetti che ha ridefinito la computer vision consentendo il rilevamento in tempo reale di più oggetti in immagini e video, rendendolo piuttosto unico rispetto ai precedenti metodi di rilevamento. Invece di analizzare ogni oggetto rilevato individualmente, l'architettura di YOLO tratta il rilevamento oggetti come un singolo compito, prevedendo sia la posizione che la classe degli oggetti in un colpo solo utilizzando le CNN. 

Il modello funziona dividendo un'immagine in una griglia, con ogni parte responsabile del rilevamento degli oggetti nella sua rispettiva area. Effettua più previsioni per ogni sezione e filtra i risultati meno attendibili, mantenendo solo quelli accurati. 

Fig 4. Una panoramica di come funziona YOLO.

L'introduzione di YOLO nelle applicazioni di computer vision ha reso il rilevamento oggetti molto più veloce ed efficiente rispetto ai modelli precedenti. Grazie alla sua velocità e precisione, YOLO è diventata rapidamente una scelta popolare per le soluzioni in tempo reale in settori come la produzione, la sanità e la robotica.

Un altro punto importante da notare è che, poiché YOLO era open-source, sviluppatori e ricercatori sono stati in grado di migliorarlo continuamente, portando a versioni ancora più avanzate.

Il percorso da YOLO a YOLO11

I modelli YOLO sono migliorati costantemente nel tempo, basandosi sui progressi di ogni versione. Oltre a prestazioni migliori, questi miglioramenti hanno reso i modelli più facili da usare per persone con diversi livelli di esperienza tecnica.

Ad esempio, quando è stato introdotto Ultralytics YOLOv5, il deploy dei modelli è diventato più semplice con PyTorch, consentendo a una gamma più ampia di utenti di lavorare con l'AI avanzata. Ha unito accuratezza e usabilità, offrendo a più persone la possibilità di implementare il rilevamento oggetti senza la necessità di essere esperti di programmazione.

Fig. 5. L'evoluzione dei modelli YOLO.

Ultralytics YOLOv8 ha continuato questo progresso aggiungendo il supporto per attività come la segmentazione delle istanze e rendendo i modelli più flessibili. È diventato più facile usare YOLO sia per applicazioni di base che più complesse, rendendolo utile in una vasta gamma di scenari.

Con l'ultimo modello, Ultralytics YOLO11, sono state apportate ulteriori ottimizzazioni. Riducendo il numero di parametri migliorando al contempo l'accuratezza, è ora più efficiente per le attività in tempo reale. Che tu sia uno sviluppatore esperto o un nuovo utente dell'AI, YOLO11 offre un approccio avanzato al rilevamento oggetti facilmente accessibile.

Conoscere YOLO11: nuove funzionalità e miglioramenti

YOLO11, lanciato all'evento ibrido annuale di Ultralytics, YOLO Vision 2024 (YV24), supporta le stesse attività di computer vision di YOLOv8, come il rilevamento oggetti, la segmentazione delle istanze, la classificazione delle immagini e la stima della posa. Pertanto, gli utenti possono passare facilmente a questo nuovo modello senza la necessità di modificare i propri flussi di lavoro. Inoltre, l'architettura aggiornata di YOLO11 rende le previsioni ancora più precise. Infatti, YOLO11m raggiunge una precisione media media (mAP) più elevata sul dataset COCO con il 22% in meno di parametri rispetto a YOLOv8m.

YOLO11 è anche progettato per funzionare in modo efficiente su una gamma di piattaforme, dagli smartphone e altri dispositivi edge a sistemi cloud più potenti. Questa flessibilità garantisce prestazioni fluide su diverse configurazioni hardware per applicazioni in tempo reale. Oltre a ciò, YOLO11 è più veloce ed efficiente, riducendo i costi computazionali e accelerando i tempi di inferenza. Sia che tu stia utilizzando il pacchetto Python Ultralytics o l'Ultralytics HUB no-code, è facile integrare YOLO11 nei tuoi flussi di lavoro esistenti.

Il futuro dei modelli YOLO e del rilevamento oggetti

L'impatto del rilevamento oggetti avanzato sulle applicazioni in tempo reale e sull'edge AI si fa già sentire in tutti i settori. Poiché settori come quello petrolifero e del gas, sanitario e retail si affidano sempre più all'AI, la domanda di rilevamento oggetti veloce e preciso continua ad aumentare. YOLO11 mira a rispondere a questa domanda consentendo il rilevamento ad alte prestazioni anche su dispositivi con potenza di calcolo limitata. 

Con la crescita dell'edge AI, è probabile che i modelli di rilevamento oggetti come YOLO11 diventeranno ancora più essenziali per il processo decisionale in tempo reale in ambienti in cui velocità e accuratezza sono fondamentali. Con i continui miglioramenti nella progettazione e nell'adattabilità, il futuro del rilevamento oggetti sembra destinato a portare ancora più innovazioni in una varietà di applicazioni.

Punti chiave

Il rilevamento oggetti ha fatto molta strada, evolvendosi da metodi semplici alle avanzate tecniche di deep learning che vediamo oggi. I modelli YOLO sono stati al centro di questo progresso, offrendo un rilevamento in tempo reale più veloce e preciso in diversi settori. YOLO11 si basa su questa eredità, migliorando l'efficienza, riducendo i costi computazionali e migliorando l'accuratezza, rendendolo una scelta affidabile per una varietà di applicazioni in tempo reale. Con i continui progressi nell'AI e nella computer vision, il futuro del rilevamento oggetti appare brillante, con spazio per ulteriori miglioramenti in termini di velocità, precisione e adattabilità.

Sei curioso sull'AI? Rimani connesso con la nostra community per continuare a imparare! Dai un'occhiata al nostro repository GitHub per scoprire come stiamo utilizzando l'AI per creare soluzioni innovative in settori come il manufacturing e l'healthcare. 🚀

Costruiamo insieme il futuro
dell'AI!

Inizia il tuo viaggio con il futuro del machine learning

Inizia gratis
Link copiato negli appunti