Sintonizzati su YOLO Vision 2025!
25 settembre 2025
10:00 — 18:00 BST
Evento ibrido
Yolo Vision 2024

Una storia dei modelli di visione

Mostafa Ibrahim

5 minuti di lettura

16 luglio 2024

Esplora la storia, i risultati, le sfide e le direzioni future dei modelli di visione.

Cos'è la computer vision?

Immagina di entrare in un negozio dove una telecamera identifica il tuo viso, analizza il tuo umore e suggerisce prodotti su misura per le tue preferenze, tutto in tempo reale. Questa non è fantascienza, ma una realtà resa possibile dai moderni modelli di visione. Secondo un rapporto di Fortune Business Insight, la dimensione del mercato globale della computer vision è stata valutata a 20,31 miliardi di dollari nel 2023 e si prevede che crescerà da 25,41 miliardi di dollari nel 2024 a 175,72 miliardi di dollari entro il 2032, riflettendo i rapidi progressi e la crescente adozione di questa tecnologia in vari settori.

Il campo della computer vision consente ai computer di rilevare, identificare e analizzare oggetti all'interno delle immagini. Simile ad altri campi correlati all'IA, la computer vision ha subito una rapida evoluzione negli ultimi decenni, ottenendo notevoli progressi. 

La storia della computer vision è molto ampia. Nei primi anni, i modelli di computer vision erano in grado di rilevare forme e bordi semplici, spesso limitati a compiti basilari come il riconoscimento di schemi geometrici o la distinzione tra aree chiare e scure. Tuttavia, i modelli odierni possono eseguire compiti complessi come il rilevamento di oggetti in tempo reale, il riconoscimento facciale e persino l'interpretazione delle emozioni dalle espressioni facciali con eccezionale accuratezza ed efficienza. Questa notevole progressione evidenzia gli incredibili progressi compiuti nella potenza di calcolo, nella sofisticazione algoritmica e nella disponibilità di enormi quantità di dati per il training.

In questo articolo, esploreremo le principali tappe dell'evoluzione della computer vision. Ripercorreremo i suoi primi inizi, approfondiremo l'impatto trasformativo delle reti neurali convoluzionali (CNN) ed esamineremo i significativi progressi che ne sono seguiti.

Gli albori della computer vision

Come per altri campi dell'IA, lo sviluppo iniziale della computer vision è iniziato con la ricerca di base e il lavoro teorico. Una pietra miliare significativa è stata l'opera pionieristica di Lawrence G. Roberts sul riconoscimento di oggetti 3D, documentata nella sua tesi "Machine Perception of Three-Dimensional Solids" nei primi anni '60. I suoi contributi hanno gettato le basi per i futuri progressi nel settore.

I primi algoritmi: rilevamento dei contorni (edge detection)

Le prime ricerche sulla computer vision si sono concentrate su tecniche di elaborazione delle immagini, come il rilevamento dei bordi e l'estrazione delle caratteristiche. Algoritmi come l'operatore di Sobel, sviluppato alla fine degli anni '60, furono tra i primi a rilevare i bordi calcolando il gradiente dell'intensità dell'immagine.

Fig. 1. Un'immagine che dimostra il rilevamento dei bordi, dove il lato sinistro mostra l'oggetto originale e il lato destro visualizza la versione con bordi rilevati.

Tecniche come i rilevatori di bordi di Sobel e Canny hanno svolto un ruolo cruciale nell'identificazione dei contorni all'interno delle immagini, essenziali per il riconoscimento degli oggetti e la comprensione delle scene.

Apprendimento automatico e computer vision

Riconoscimento di pattern

Negli anni '70, il riconoscimento di pattern è emerso come un'area chiave della computer vision. I ricercatori hanno sviluppato metodi per riconoscere forme, texture e oggetti nelle immagini, aprendo la strada a compiti di visione più complessi.

Fig. 2. Riconoscimento di pattern.

Uno dei primi metodi per il riconoscimento di pattern prevedeva il template matching, in cui un'immagine viene confrontata con una serie di template per trovare la corrispondenza migliore. Questo approccio era limitato dalla sua sensibilità alle variazioni di scala, rotazione e rumore.

Fig. 3. Un modello sul lato sinistro trovato all'interno dell'immagine di destra.

I primi sistemi di computer vision erano limitati dalla potenza di calcolo limitata dell'epoca. I computer negli anni '60 e '70 erano ingombranti, costosi e avevano capacità di elaborazione limitate.

Cambiare le regole del gioco con il Deep Learning

Deep Learning e Reti Neurali Convoluzionali

Il deep learning e le Reti Neurali Convoluzionali (CNN) hanno segnato un momento cruciale nel campo della computer vision. Questi progressi hanno trasformato radicalmente il modo in cui i computer interpretano e analizzano i dati visivi, consentendo un'ampia gamma di applicazioni che prima si pensavano impossibili.

Come funzionano le CNN?

Fig 4. Architettura di una rete neurale convoluzionale (CNN).

  1. Livelli convoluzionali: Le CNN utilizzano livelli convoluzionali che sono un tipo di modello di deep learning progettato per l'elaborazione di dati strutturati a griglia, come immagini o sequenze, apprendendo automaticamente modelli gerarchici. per scansionare un'immagine utilizzando filtri o kernel. Questi filtri rilevano varie caratteristiche come bordi, texture e colori scorrendo attraverso l'immagine e calcolando i prodotti puntuali. Ogni filtro attiva modelli specifici nell'immagine, consentendo al modello di apprendere caratteristiche gerarchiche.
  2. Funzioni di attivazione: Dopo la convoluzione, funzioni di attivazione come ReLU (Rectified Linear Unit), che è una funzione di attivazione popolare nel deep learning che restituisce direttamente l'input se positivo e zero altrimenti, aiutando le reti neurali ad apprendere in modo efficiente le relazioni non lineari nei dati. Questo aiuta la rete ad apprendere pattern e rappresentazioni complessi.
  3. Livelli di Pooling: I livelli di pooling forniscono un'operazione di downsampling che riduce la dimensionalità della feature map, contribuendo a estrarre le features più rilevanti riducendo al contempo il costo computazionale e l'overfitting.
  4. Livelli Fully Connected: I livelli finali di una CNN sono livelli fully connected che interpretano le caratteristiche estratte dai livelli convoluzionali e di pooling per fare previsioni. Questi livelli sono simili a quelli delle reti neurali tradizionali.

Evoluzione dei modelli di visione CNN

Il percorso dei modelli di visione è stato ampio, caratterizzato da alcuni dei più importanti:

  • LeNet (1989): LeNet è stata una delle prime architetture CNN, utilizzata principalmente per il riconoscimento delle cifre negli assegni scritti a mano. Il suo successo ha gettato le basi per CNN più complesse, dimostrando il potenziale del deep learning nell'elaborazione delle immagini.
  • AlexNet (2012): AlexNet ha sovraperformato in modo significativo i modelli esistenti nella competizione ImageNet, dimostrando la potenza del deep learning. Questo modello ha utilizzato attivazioni ReLU, dropout e data augmentation, stabilendo nuovi benchmark nella classificazione delle immagini e suscitando un diffuso interesse per le CNN.
  • VGGNet (2014): Utilizzando filtri convoluzionali più piccoli (3x3), VGGNet ha ottenuto risultati impressionanti nelle attività di classificazione delle immagini, rafforzando l'importanza della profondità della rete per ottenere una maggiore accuratezza.
  • ResNet (2015): ResNet ha affrontato il problema del degrado nelle reti profonde introducendo l'apprendimento residuo. Questa innovazione ha permesso l'addestramento di reti molto più profonde, portando a prestazioni all'avanguardia in varie attività di computer vision.
  • YOLO (You Only Look Once): YOLO ha rivoluzionato il rilevamento di oggetti inquadrandolo come un singolo problema di regressione, prevedendo direttamente i bounding box e le probabilità di classe dalle immagini complete in una singola valutazione. Questo approccio ha consentito il rilevamento di oggetti in tempo reale con velocità e precisione senza precedenti, rendendolo adatto per applicazioni che richiedono l'elaborazione istantanea, come la guida autonoma e la sorveglianza.

Applicazioni di computer vision

Sanità

Gli usi della computer vision sono numerosi. Ad esempio, i modelli di visione come Ultralytics YOLOv8 sono utilizzati nell'imaging medicale per rilevare malattie come il cancro e la retinopatia diabetica. Analizzano radiografie, risonanze magnetiche e TAC con elevata precisione, identificando precocemente le anomalie. Questa capacità di rilevamento precoce consente interventi tempestivi e migliori risultati per i pazienti.

Fig. 5. Rilevamento di tumori cerebrali tramite Ultralytics YOLOv8.

Preservazione ambientale

I modelli di computer vision aiutano a monitorare e proteggere le specie in via di estinzione analizzando immagini e video provenienti dagli habitat naturali. Identificano e tracciano il comportamento degli animali, fornendo dati sulla loro popolazione e sui loro movimenti. Questa tecnologia fornisce informazioni per le strategie di conservazione e le decisioni politiche volte a proteggere specie come tigri ed elefanti.

Con l'aiuto della vision AI, è possibile monitorare altre minacce ambientali come gli incendi boschivi e la deforestazione, garantendo tempi di risposta rapidi da parte delle autorità locali.

Fig 6. Un'immagine satellitare di un incendio.

Sfide e direzioni future

Anche se hanno già ottenuto risultati significativi, a causa della loro estrema complessità e della natura impegnativa del loro sviluppo, i modelli di visione devono affrontare numerose sfide che richiedono una ricerca continua e progressi futuri.

Interpretabilità e spiegabilità

I modelli di visione, specialmente quelli di deep learning, sono spesso visti come "scatole nere" con trasparenza limitata. Ciò è dovuto alla loro incredibile complessità. La mancanza di interpretabilità ostacola la fiducia e la responsabilità, specialmente in applicazioni critiche come l'assistenza sanitaria, ad esempio.

Requisiti computazionali

L'addestramento e il deployment di modelli di IA all'avanguardia richiedono notevoli risorse computazionali. Ciò è particolarmente vero per i modelli di visione, che spesso richiedono l'elaborazione di grandi quantità di dati di immagini e video. Le immagini e i video ad alta definizione, essendo tra gli input di addestramento più intensivi in termini di dati, aumentano il carico computazionale. Ad esempio, una singola immagine HD può occupare diversi megabyte di spazio di archiviazione, rendendo il processo di addestramento dispendioso in termini di risorse e tempo.

Ciò richiede hardware potente e algoritmi di computer vision ottimizzati per gestire gli estesi dati e i complessi calcoli coinvolti nello sviluppo di modelli di visione efficaci. La ricerca su architetture più efficienti, la compressione dei modelli e gli acceleratori hardware come GPU e TPU sono aree chiave che faranno progredire il futuro dei modelli di visione.

Questi miglioramenti mirano a ridurre le esigenze computazionali e ad aumentare l'efficienza dell'elaborazione. Inoltre, sfruttare modelli pre-addestrati avanzati come YOLOv8 può ridurre significativamente la necessità di un addestramento estensivo, semplificando il processo di sviluppo e migliorando l'efficienza.

Un panorama in continua evoluzione

Oggigiorno, le applicazioni dei modelli di visione sono ampiamente diffuse, spaziando dall'assistenza sanitaria, come il rilevamento di tumori, agli usi quotidiani come il monitoraggio del traffico. Questi modelli avanzati hanno portato innovazione a innumerevoli settori fornendo maggiore accuratezza, efficienza e capacità che prima erano inimmaginabili.

Man mano che la tecnologia continua ad avanzare, il potenziale dei modelli di visione per innovare e migliorare vari aspetti della vita e dell'industria rimane illimitato. Questa continua evoluzione sottolinea l'importanza della continua ricerca e sviluppo nel campo della computer vision.

Siete curiosi di conoscere il futuro della vision AI? Per maggiori informazioni sugli ultimi progressi, esplorate la documentazione di Ultralytics e consultate i loro progetti su Ultralytics GitHub e YOLOv8 GitHub. Inoltre, per approfondimenti sulle applicazioni dell'IA in vari settori, le pagine delle soluzioni su Auto a guida autonoma e Manufacturing offrono informazioni particolarmente utili.

Costruiamo insieme il futuro
dell'AI!

Inizia il tuo viaggio con il futuro del machine learning

Inizia gratis
Link copiato negli appunti