Vision AI

Una storia dei modelli di visione

Esplora la storia, i risultati, le sfide e le direzioni future dei modelli di visione.

MOMostafa Ibrahim

5 min readJuly 16, 2024

Link to this sectionCos'è la computer vision#

Immagina di entrare in un negozio dove una telecamera identifica il tuo volto, analizza il tuo umore e suggerisce prodotti su misura per le tue preferenze, il tutto in tempo reale. Questa non è fantascienza, ma una realtà resa possibile dai moderni modelli di visione. Secondo un rapporto di Fortune Business Insight, il mercato globale della computer vision è stato valutato a 20,31 miliardi di USD nel 2023 e si prevede che crescerà da 25,41 miliardi di USD nel 2024 a 175,72 miliardi di USD entro il 2032, riflettendo i rapidi progressi e la crescente adozione di questa tecnologia in vari settori.

Il campo della computer vision consente ai computer di rilevare, identificare e analizzare oggetti all'interno delle immagini. Similmente ad altri campi legati all'IA, la computer vision ha vissuto una rapida evoluzione negli ultimi decenni, ottenendo notevoli progressi.

La storia della computer vision è vasta. Nei suoi primi anni, i modelli di computer vision erano in grado di rilevare forme e bordi semplici, spesso limitati a compiti base come il riconoscimento di pattern geometrici o la differenziazione tra aree chiare e scure. Tuttavia, i modelli odierni possono eseguire compiti complessi come il real-time object detection, il riconoscimento facciale e persino l'interpretazione delle emozioni dalle espressioni facciali con eccezionale precisione ed efficienza. Questa drastica progressione evidenzia i passi da gigante fatti nella potenza computazionale, nella sofisticazione algoritmica e nella disponibilità di vaste quantità di dati per l'addestramento.

In questo articolo, esploreremo le pietre miliari dell'evoluzione della computer vision. Viaggeremo attraverso i suoi inizi, approfondiremo l'impatto trasformativo delle Convolutional Neural Networks (CNNs) ed esamineremo i significativi progressi che ne sono seguiti.

Link to this sectionI primi passi della computer vision#

Come per altri campi dell'IA, il primo sviluppo della computer vision è iniziato con la ricerca fondamentale e il lavoro teorico. Una pietra miliare significativa è stata il lavoro pionieristico di Lawrence G. Roberts sul riconoscimento di oggetti 3D, documentato nella sua tesi "Machine Perception of Three-Dimensional Solids" nei primi anni '60. I suoi contributi hanno gettato le basi per i futuri progressi nel campo.

Link to this sectionI primi algoritmi - rilevamento dei bordi#

La ricerca iniziale sulla computer vision si è concentrata su tecniche di elaborazione delle immagini, come il rilevamento dei bordi e l'estrazione di caratteristiche. Algoritmi come l'operatore di Sobel, sviluppato alla fine degli anni '60, sono stati tra i primi a rilevare i bordi calcolando il gradiente dell'intensità dell'immagine.

Un'immagine che dimostra il rilevamento dei bordi

Fig 1. Un'immagine che mostra il rilevamento dei bordi, dove il lato sinistro mostra l'oggetto originale e il lato destro mostra la versione con i bordi rilevati.

Tecniche come i rilevatori di bordi di Sobel e Canny hanno giocato un ruolo cruciale nell'identificazione dei confini all'interno delle immagini, che sono essenziali per riconoscere gli oggetti e comprendere le scene.

Link to this sectionMachine learning e computer vision#

Link to this sectionRiconoscimento dei pattern#

Negli anni '70, il riconoscimento dei pattern è emerso come un'area chiave della computer vision. I ricercatori hanno sviluppato metodi per riconoscere forme, texture e oggetti nelle immagini, il che ha aperto la strada a compiti di visione più complessi.

Riconoscimento di pattern

Fig 2. Riconoscimento dei pattern.

Uno dei primi metodi per il riconoscimento dei pattern prevedeva il template matching, dove un'immagine viene confrontata con una serie di template per trovare la corrispondenza migliore. Questo approccio era limitato dalla sua sensibilità alle variazioni di scala, rotazione e rumore.

Corrispondenza di template all'interno di un'immagine

Fig 3. Un template sul lato sinistro trovato all'interno dell'immagine a destra.

I primi sistemi di computer vision erano vincolati dalla limitata potenza computazionale dell'epoca. I computer negli anni '60 e '70 erano ingombranti, costosi e avevano capacità di elaborazione limitate.

Link to this sectionCambiare le regole del gioco con il Deep Learning#

Link to this sectionDeep Learning e Convolutional Neural Networks#

Il deep learning e le Convolutional Neural Networks (CNNs) hanno segnato un momento cruciale nel campo della computer vision. Questi progressi hanno trasformato drasticamente il modo in cui i computer interpretano e analizzano i dati visivi, consentendo una vasta gamma di applicazioni precedentemente ritenute impossibili.

Link to this sectionCome funzionano le CNN?#

Architettura di una Convolutional Neural Network (CNN)

Fig 4. Architettura di una Convolutional Neural Network (CNN).

Livelli convoluzionali: Le CNN utilizzano livelli convoluzionali, un tipo di modello di deep learning progettato per elaborare dati strutturati simili a griglie, come immagini o sequenze, apprendendo automaticamente pattern gerarchici per scansionare un'immagine utilizzando filtri o kernel. Questi filtri rilevano varie caratteristiche come bordi, texture e colori facendoli scorrere sull'immagine e calcolando prodotti scalari. Ogni filtro attiva pattern specifici nell'immagine, consentendo al modello di apprendere caratteristiche gerarchiche.
Funzioni di attivazione: Dopo la convoluzione, vengono utilizzate funzioni di attivazione come ReLU (Rectified Linear Unit), una funzione di attivazione popolare nel deep learning che restituisce l'input direttamente se positivo, e zero altrimenti, aiutando le reti neurali ad apprendere relazioni non lineari nei dati in modo efficiente. Ciò aiuta la rete ad apprendere pattern e rappresentazioni complessi.
Livelli di pooling: I livelli di pooling forniscono un'operazione di downsampling che riduce la dimensionalità della feature map, aiutando a estrarre le caratteristiche più rilevanti riducendo al contempo il costo computazionale e l'overfitting.
Livelli completamente connessi: I livelli finali di una CNN sono livelli completamente connessi che interpretano le caratteristiche estratte dai livelli convoluzionali e di pooling per fare previsioni. Questi livelli sono simili a quelli delle reti neurali tradizionali.

Link to this sectionEvoluzione dei modelli di visione CNN#

Il percorso dei modelli di visione è stato ampio, caratterizzato da alcuni dei modelli più notevoli:

LeNet (1989): LeNet è stata una delle prime architetture CNN, utilizzata principalmente per il riconoscimento delle cifre negli assegni scritti a mano. Il suo successo ha gettato le basi per CNN più complesse, dimostrando il potenziale del deep learning nell'elaborazione delle immagini.
AlexNet (2012): AlexNet ha superato significativamente i modelli esistenti nella competizione ImageNet, mostrando la potenza del deep learning. Questo modello ha utilizzato attivazioni ReLU, dropout e data augmentation, fissando nuovi standard nella classificazione delle immagini e suscitando un diffuso interesse per le CNN.
VGGNet (2014): Utilizzando filtri convoluzionali più piccoli (3x3), VGGNet ha ottenuto risultati impressionanti nei compiti di classificazione delle immagini, rafforzando l'importanza della profondità della rete nel raggiungere una maggiore precisione.
ResNet (2015): ResNet ha affrontato il problema del degrado nelle reti profonde introducendo l'apprendimento residuo. Questa innovazione ha permesso l'addestramento di reti molto più profonde, portando a prestazioni allo stato dell'arte in vari compiti di computer vision.
YOLO (You Only Look Once): YOLO ha rivoluzionato l'object detection inquadrandola come un singolo problema di regressione, prevedendo direttamente bounding boxes e probabilità di classe da immagini intere in un'unica valutazione. Questo approccio ha consentito il rilevamento di oggetti in tempo reale con una velocità e una precisione senza precedenti, rendendolo adatto ad applicazioni che richiedono un'elaborazione istantanea, come la guida autonoma e la sorveglianza.

Link to this sectionApplicazioni della computer vision#

Link to this sectionSanità#

Gli utilizzi della computer vision sono numerosi. Ad esempio, modelli di visione come Ultralytics YOLOv8 sono utilizzati nell'imaging medicale per rilevare malattie come il cancro e la retinopatia diabetica. Analizzano raggi X, risonanze magnetiche e TAC con alta precisione, identificando precocemente le anomalie. Questa capacità di rilevamento precoce consente interventi tempestivi e migliori risultati per i pazienti.

Rilevamento di tumori cerebrali tramite Ultralytics YOLOv8

Fig 5. Rilevamento di tumori cerebrali utilizzando Ultralytics YOLOv8.

Link to this sectionTutela dell'ambiente#

I modelli di computer vision aiutano a monitorare e proteggere le specie in via di estinzione analizzando immagini e video dagli habitat naturali. Identificano e tracciano il comportamento degli animali, fornendo dati sulla loro popolazione e sui loro spostamenti. Questa tecnologia informa le strategie di conservazione e le decisioni politiche per proteggere specie come tigri ed elefanti.

Con l'aiuto della visione artificiale, altre minacce ambientali come gli incendi boschivi e la deforestazione possono essere monitorate, garantendo tempi di risposta rapidi da parte delle autorità locali.

Un'immagine satellitare di un incendio boschivo

Fig 6. Un'immagine satellitare di un incendio boschivo.

Link to this sectionSfide e direzioni future#

Nonostante abbiano già raggiunto traguardi significativi, a causa della loro estrema complessità e della natura impegnativa del loro sviluppo, i modelli di visione affrontano numerose sfide che richiedono ricerca continua e futuri progressi.

Link to this sectionInterpretabilità e spiegabilità#

I modelli di visione, specialmente quelli di deep learning, sono spesso visti come "black box" con una trasparenza limitata. Ciò è dovuto al fatto che tali modelli sono incredibilmente complessi. La mancanza di interpretabilità ostacola la fiducia e la responsabilità, specialmente in applicazioni critiche come la sanità, ad esempio.

Link to this sectionRequisiti computazionali#

L'addestramento e il deployment di modelli di IA allo stato dell'arte richiedono risorse computazionali significative. Questo è particolarmente vero per i modelli di visione, che spesso richiedono l'elaborazione di grandi quantità di dati di immagini e video. Immagini e video ad alta definizione, essendo tra gli input di addestramento più intensivi in termini di dati, aumentano il carico computazionale. Ad esempio, una singola immagine HD può occupare diversi megabyte di spazio di archiviazione, rendendo il processo di addestramento intensivo in termini di risorse e dispendioso in termini di tempo.

Ciò rende necessari hardware potenti e algoritmi di computer vision ottimizzati per gestire gli ampi dati e i calcoli complessi coinvolti nello sviluppo di modelli di visione efficaci. La ricerca su architetture più efficienti, sulla compressione dei modelli e su acceleratori hardware come GPU e TPU sono aree chiave che faranno progredire il futuro dei modelli di visione.

Questi miglioramenti mirano a ridurre le richieste computazionali e ad aumentare l'efficienza dell'elaborazione. Inoltre, sfruttare modelli pre-addestrati avanzati come YOLOv8 può ridurre significativamente la necessità di un addestramento estensivo, semplificando il processo di sviluppo e migliorando l'efficienza.

Link to this sectionUn panorama in continua evoluzione#

Oggigiorno, le applicazioni dei modelli di visione sono diffuse, spaziando dalla sanità, come il rilevamento dei tumori, a usi quotidiani come il monitoraggio del traffico. Questi modelli avanzati hanno portato innovazione in innumerevoli settori fornendo maggiore precisione, efficienza e capacità precedentemente inimmaginabili.

Mentre la tecnologia continua ad avanzare, il potenziale dei modelli di visione di innovare e migliorare vari aspetti della vita e dell'industria rimane sconfinato. Questa continua evoluzione sottolinea l'importanza della ricerca e dello sviluppo costanti nel campo della computer vision.

Curioso riguardo al futuro della visione artificiale? Per maggiori informazioni sugli ultimi progressi, esplora la documentazione di Ultralytics e dai un'occhiata ai loro progetti su Ultralytics GitHub e YOLOv8 GitHub. Inoltre, per approfondimenti sulle applicazioni dell'IA in vari settori, le pagine delle soluzioni su Auto a guida autonoma e Manifattura offrono informazioni particolarmente utili.

Explore solutions

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Una storia dei modelli di visione

Link to this sectionCos'è la computer vision#

Link to this sectionI primi passi della computer vision#

Link to this sectionI primi algoritmi - rilevamento dei bordi#

Link to this sectionMachine learning e computer vision#

Link to this sectionRiconoscimento dei pattern#

Link to this sectionCambiare le regole del gioco con il Deep Learning#

Link to this sectionDeep Learning e Convolutional Neural Networks#

Link to this sectionCome funzionano le CNN?#

Link to this sectionEvoluzione dei modelli di visione CNN#

Link to this sectionApplicazioni della computer vision#

Link to this sectionSanità#

Link to this sectionTutela dell'ambiente#

Link to this sectionSfide e direzioni future#

Link to this sectionInterpretabilità e spiegabilità#

Link to this sectionRequisiti computazionali#

Link to this sectionUn panorama in continua evoluzione#

Explore solutions

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

Costruiamo insieme il futuro dell'AI!