Tutto quello che c'è da sapere sulla Computer Vision nel 2025

Abirami Vina

5 minuti di lettura

15 gennaio 2025

Scoprite come la computer vision sta trasformando i settori industriali con attività basate sull'intelligenza artificiale come il rilevamento degli oggetti, la classificazione delle immagini e la stima della posa.

Vent'anni fa, l'idea che macchine e computer potessero vedere e capire il mondo era solo fantascienza. Oggi, grazie ai progressi dell'intelligenza artificiale (AI), questo concetto è diventato realtà. In particolare, la computer vision (CV), una branca dell'IA, consente alle macchine di comprendere e analizzare immagini e video. Che si tratti di identificare oggetti in tempo reale, migliorare i sistemi di sicurezza o automatizzare compiti complessi, il suo potenziale sta spingendo i confini del possibile. 

La visione computerizzata sta rapidamente plasmando il futuro della tecnologia, in quanto vari settori industriali esplorano diversi modi per adottare le sue capacità uniche. Le dimensioni del mercato globale della tecnologia di visione computerizzata hanno raggiunto 19,83 miliardi di dollari nel 2024 e si prevede una crescita annua del 19,8% nei prossimi anni.

__wf_reserved_inherit
Figura 1. Dimensioni del mercato globale della computer vision.

In questo articolo daremo uno sguardo più approfondito alla computer vision, spiegando cos'è, come si è evoluta e come funziona oggi. Esploreremo inoltre alcune delle sue applicazioni più interessanti. Iniziamo!

Che cos'è la computer vision?

La computer vision è un sottocampo dell'IA che sfrutta l'apprendimento automatico e le reti neurali per insegnare ai computer a comprendere il contenuto dei dati visivi, come immagini o file video. Le informazioni raccolte dalle immagini elaborate possono essere utilizzate per prendere decisioni migliori. Ad esempio, la computer vision può essere utilizzata nel settore della vendita al dettaglio per monitorare i livelli delle scorte analizzando le immagini degli scaffali o per migliorare l'esperienza di acquisto con sistemi di cassa automatizzati. Molte aziende stanno già utilizzando la tecnologia di computer vision per diverse applicazioni che vanno da compiti come l'aggiunta di filtri alle foto degli smartphone al controllo di qualità nella produzione. 

Vi starete chiedendo: perché c'è bisogno di soluzioni di visione artificiale? I compiti che richiedono un'attenzione costante, come l'individuazione di difetti o il riconoscimento di modelli, possono essere difficili per gli esseri umani. Gli occhi possono stancarsi e i dettagli possono sfuggire, soprattutto in ambienti complessi o dal ritmo sostenuto. 

Sebbene le persone siano brave a riconoscere oggetti di dimensioni, colori, illuminazione o angolazioni diverse, spesso faticano a mantenere la coerenza sotto pressione. Le soluzioni di visione artificiale, invece, lavorano senza sosta, elaborando rapidamente e con precisione grandi quantità di dati visivi. Ad esempio, possono analizzare il traffico in tempo reale per rilevare gli ingorghi, ottimizzare la tempistica dei segnali o persino identificare gli incidenti più velocemente di quanto potrebbe fare un osservatore umano.

Comprendere la storia della computer vision

Nel corso degli anni, la computer vision si è evoluta da concetto teorico a tecnologia affidabile che guida l'innovazione in tutti i settori. Vediamo alcune delle tappe fondamentali che ne hanno definito lo sviluppo:

  • Anni '50-'60: I ricercatori iniziarono a sviluppare algoritmi per elaborare e analizzare i dati visivi, ma i progressi furono lenti a causa della limitata potenza di calcolo.
  • 1970s: Questo decennio ha visto importanti miglioramenti negli algoritmi, come la trasformata di Hough, che ha migliorato il rilevamento di linee e forme geometriche nelle immagini. Nasce anche il riconoscimento ottico dei caratteri (OCR), che consente alle macchine di leggere il testo stampato.
  • Anni '80-'90: L'apprendimento automatico ha iniziato a svolgere un ruolo importante nella computer vision, aprendo la strada a capacità più avanzate e a scoperte future.
  • Anni 2000-2010: L'apprendimento profondo ha portato una nuova dimensione alla computer vision, dotando le macchine di un'interpretazione più efficace dei dati visivi. Ha migliorato capacità come l'identificazione degli oggetti, l'analisi del movimento e l'esecuzione di compiti complessi.

Al giorno d'oggi, la computer vision sta avanzando rapidamente e sta trasformando il modo in cui risolviamo i problemi in settori come l'assistenza sanitaria, i veicoli autonomi e le città intelligenti. I modelli YOLO (You Only Look Once) di Ultralytics, progettati per attività di computer vision in tempo reale, facilitano l'implementazione dell'IA di visione in modo efficace e accurato in diversi settori. Con il continuo miglioramento dell'intelligenza artificiale e dell'hardware, questi modelli aiutano le aziende a prendere decisioni più intelligenti e a semplificare le operazioni grazie all'analisi avanzata dei dati visivi.

Come funziona la computer vision

I sistemi di visione computerizzata utilizzano le reti neurali, algoritmi ispirati al funzionamento del cervello umano, per analizzare le immagini. Un tipo specifico, chiamato reti neurali convoluzionali (CNN), è particolarmente indicato per il riconoscimento di modelli, come bordi e forme nelle immagini. 

Per semplificare i dati visivi, tecniche come il pooling si concentrano sulle parti più importanti di un'immagine, mentre ulteriori livelli elaborano queste informazioni per eseguire operazioni come l'identificazione di caratteristiche o il rilevamento di oggetti. Modelli avanzati come Ultralytics YOLO11, progettati per garantire velocità e precisione, rendono possibile l'elaborazione delle immagini in tempo reale.

__wf_reserved_inherit
Figura 2. Un esempio di utilizzo di Ultralytics YOLO11 per il rilevamento di oggetti.

Una tipica applicazione di visione computerizzata prevede diverse fasi per trasformare le immagini grezze in informazioni utili. Ecco le quattro fasi principali:

  • Acquisizione di immagini: I dati visivi vengono raccolti con telecamere o sensori e la qualità delle immagini dipende dal tipo di sensore utilizzato.
  • Elaborazione delle immagini: I dati raccolti vengono poi migliorati attraverso tecniche di pre-elaborazione, come la riduzione del rumore e l'evidenziazione dei bordi, per facilitarne l'analisi.
  • Estrazione delle caratteristiche: I dettagli importanti, come le forme e le trame, vengono individuati, concentrandosi sulle parti dell'immagine che contano di più.  
  • Riconoscimento dei modelli: Le caratteristiche identificate vengono analizzate utilizzando l'apprendimento automatico per completare attività come il rilevamento di oggetti, il tracciamento di movimenti o il riconoscimento di modelli.

Esplorazione di compiti di visione artificiale

Avrete notato che, parlando di come funziona la computer vision, abbiamo menzionato le attività di computer vision. Modelli come Ultralytics YOLO11 sono costruiti per supportare queste attività, offrendo soluzioni rapide e precise per le applicazioni del mondo reale. Dal rilevamento degli oggetti al tracciamento del loro movimento, YOLO11 gestisce queste attività in modo efficiente. Vediamo alcuni dei principali compiti di computer vision supportati e come funzionano.

Rilevamento degli oggetti

Il rilevamento degli oggetti è un'attività chiave della computer vision, utilizzata per identificare gli oggetti di interesse in un'immagine. L'output di un'attività di rilevamento degli oggetti è un insieme di caselle di delimitazione (rettangoli disegnati intorno agli oggetti rilevati in un'immagine), insieme alle etichette di classe (la categoria o il tipo di ogni oggetto, come "auto" o "persona") e ai punteggi di confidenza (un valore numerico che indica quanto il modello è sicuro di ogni rilevamento). Ad esempio, il rilevamento degli oggetti può essere utilizzato per identificare e localizzare un pedone in una strada o un'auto nel traffico.

__wf_reserved_inherit
Figura 3. YOLO11 utilizzato per rilevare gli oggetti.

Classificazione delle immagini

L'obiettivo principale della classificazione delle immagini è assegnare un'etichetta o una categoria predefinita a un'immagine in ingresso in base al suo contenuto complessivo. Questo compito comporta in genere l'identificazione dell'oggetto o della caratteristica dominante all'interno dell'immagine. Ad esempio, la classificazione delle immagini può essere utilizzata per determinare se un'immagine contiene un gatto o un cane. I modelli di computer vision come YOLO11 possono anche essere addestrati per classificare singole razze di cani o gatti, come mostrato di seguito.

__wf_reserved_inherit
Figura 4. Classificazione di diverse razze di gatti con YOLO11.

Segmentazione delle istanze

La segmentazione delle istanze è un'altra attività cruciale della computer vision utilizzata in varie applicazioni. Consiste nel suddividere un'immagine in segmenti e nell'identificare ogni singolo oggetto, anche se ci sono più oggetti dello stesso tipo. A differenza del rilevamento degli oggetti, la segmentazione delle istanze va oltre, delineando i confini precisi di ciascun oggetto. Ad esempio, nella produzione e nella riparazione di automobili, la segmentazione di istanze può aiutare a identificare ed etichettare ogni parte dell'auto separatamente, rendendo il processo più accurato ed efficiente.

__wf_reserved_inherit
Figura 5. Segmentazione di parti di auto con YOLO11.

Stima della posa

L'obiettivo della stima della posa è determinare la posizione e l'orientamento di una persona o di un oggetto prevedendo la posizione di punti chiave, come mani, testa e gomiti. Ciò è particolarmente utile nelle applicazioni in cui è importante comprendere le azioni fisiche in tempo reale. La stima della posa umana è comunemente utilizzata in settori quali l'analisi sportiva, il monitoraggio del comportamento animale e la robotica.

__wf_reserved_inherit
Figura 6. YOLO11 può aiutare nella stima della posa umana.

Per esplorare le altre attività di computer vision supportate da YOLO11, è possibile consultare la documentazione ufficiale di Ultralytics. Essa fornisce informazioni dettagliate su come YOLO11 gestisce attività quali il tracciamento di oggetti e il rilevamento di oggetti con bounding box orientato (OBB).

I modelli di visione computerizzata più diffusi oggi

Nonostante esistano molti modelli di computer vision, la serie Ultralytics YOLO si distingue per le sue forti prestazioni e la sua versatilità. Nel corso del tempo, i modelli Ultralytics YOLO sono migliorati, diventando più veloci, più precisi e in grado di gestire un maggior numero di compiti. Con l'introduzione di Ultralytics YOLOv5, la distribuzione dei modelli è diventata più semplice grazie ai framework Vision AI come PyTorch. Questo ha permesso a una più ampia gamma di utenti di lavorare con la Vision AI avanzata, combinando un'elevata precisione con la facilità d'uso.

Successivamente, Ultralytics YOLOv8 si è spinto oltre, aggiungendo nuove capacità come la segmentazione delle istanze, la stima della posa e la classificazione delle immagini. Nel frattempo, l'ultima versione, YOLO11, offre prestazioni eccellenti in diversi compiti di computer vision. Con il 22% di parametri in meno rispetto a YOLOv8m, YOLO11m raggiunge una precisione media superiore (mAP) sul set di dati COCO, il che significa che è in grado di rilevare gli oggetti in modo più preciso ed efficiente. Che siate sviluppatori esperti o alle prime armi con l'intelligenza artificiale, YOLO11 offre una soluzione potente per le vostre esigenze di computer vision.

Il ruolo della computer vision nella vita quotidiana

In precedenza abbiamo discusso di come i modelli di computer vision come YOLO11 possano essere applicati in un'ampia gamma di settori. Ora esploriamo altri casi d'uso che stanno cambiando la nostra vita quotidiana.

Visione dell'intelligenza artificiale nell'assistenza sanitaria

Esiste un'ampia gamma di applicazioni per la computer vision in ambito sanitario. Compiti come il rilevamento e la classificazione degli oggetti sono utilizzati nell'imaging medico per rendere più rapida e precisa l'individuazione delle malattie. Nell'analisi dei raggi X, la visione computerizzata può identificare modelli che potrebbero essere troppo sottili per l'occhio umano. 

Viene utilizzata anche nel rilevamento del cancro per confrontare le cellule cancerose con quelle sane. Analogamente, per quanto riguarda le scansioni TC e le risonanze magnetiche, la computer vision può essere utilizzata per analizzare le immagini con una precisione quasi umana. Questo aiuta i medici a prendere decisioni migliori e, in ultima analisi, a salvare più vite.

__wf_reserved_inherit
Figura 7. YOLO11 utilizzato per analizzare le scansioni mediche.

L'intelligenza artificiale nell'industria automobilistica

La visione computerizzata è fondamentale per le auto a guida autonoma, in quanto le aiuta a rilevare oggetti come segnali stradali e semafori. Tecniche come il riconoscimento ottico dei caratteri (OCR) consentono all'auto di leggere il testo dai cartelli stradali. Viene utilizzata anche per il rilevamento dei pedoni, dove le attività di rilevamento degli oggetti identificano le persone in tempo reale. 

Inoltre, la computer vision è in grado di individuare anche crepe e buche sul manto stradale, consentendo un migliore monitoraggio delle condizioni stradali in evoluzione. Nel complesso, la tecnologia di computer vision può svolgere un ruolo chiave nel migliorare la gestione del traffico, nel potenziare la sicurezza dei trasporti e nel supportare la pianificazione delle città intelligenti.

__wf_reserved_inherit
Figura 8. Comprensione del traffico con YOLO11.

Visione artificiale in agricoltura

Supponiamo che gli agricoltori possano seminare, annaffiare e raccogliere automaticamente i loro raccolti in tempo, senza preoccupazioni. Questo è esattamente ciò che la computer vision offre all'agricoltura. Essa facilita il monitoraggio delle colture in tempo reale, in modo che gli agricoltori possano rilevare problemi come malattie o carenze di nutrienti in modo più accurato rispetto agli esseri umani. 

Oltre al monitoraggio, le macchine per il diserbo automatico guidate dall'intelligenza artificiale e integrate con la visione computerizzata possono identificare e rimuovere le erbe infestanti, riducendo i costi di manodopera e aumentando la resa dei raccolti. Questa combinazione di tecnologie aiuta gli agricoltori a ottimizzare le risorse, a migliorare l'efficienza e a proteggere i raccolti.

__wf_reserved_inherit
Figura 9. Un esempio di utilizzo di YOLO11 in agricoltura.

Automazione dei processi produttivi con l'IA

Nel settore manifatturiero, la computer vision aiuta a monitorare la produzione, a controllare la qualità dei prodotti e a tracciare automaticamente i lavoratori. L 'intelligenza artificiale della visione rende il processo più rapido e preciso, riducendo gli errori e i costi. 

In particolare, per l'assicurazione della qualità, vengono comunemente utilizzati il rilevamento degli oggetti e la segmentazione delle istanze. I sistemi di rilevamento dei difetti eseguono un controllo finale sui prodotti finiti per garantire che solo i migliori arrivino ai clienti. Qualsiasi prodotto che presenti ammaccature o crepe viene automaticamente identificato e scartato. Questi sistemi tracciano e contano i prodotti in tempo reale, fornendo un monitoraggio continuo sulla linea di assemblaggio.

__wf_reserved_inherit
Figura 10. Monitoraggio di una catena di montaggio mediante computer vision.

L'istruzione diventa più efficace con la computer vision

Uno dei modi in cui la computer vision viene utilizzata in classe è il riconoscimento dei gesti, che personalizza l'apprendimento rilevando i movimenti degli studenti. Modelli come YOLO11 sono ottimi per questo compito. Sono in grado di identificare con precisione gesti come le mani alzate o le espressioni confuse in tempo reale. 

Quando vengono rilevati questi gesti, una lezione in corso può essere adattata fornendo un aiuto supplementare o modificando il contenuto per adattarlo meglio alle esigenze dello studente. Questo crea un ambiente di apprendimento più dinamico e adattivo, aiutando gli insegnanti a concentrarsi sull'insegnamento mentre il sistema supporta l'esperienza di apprendimento di ogni studente.

Tendenze recenti nella computer vision

Dopo aver esplorato alcune delle applicazioni della computer vision in vari settori industriali, analizziamo le principali tendenze che ne determinano il progresso.

Una delle principali tendenze è l'edge computing, un framework di calcolo distribuito che elabora i dati più vicino alla loro fonte. Ad esempio, l'edge computing consente a dispositivi come telecamere e sensori di elaborare direttamente i dati visivi, con conseguenti tempi di risposta più rapidi, riduzione dei ritardi e miglioramento della privacy.

Un'altra tendenza chiave nella computer vision è l'uso della realtà mista. Questa combina il mondo fisico con elementi digitali, utilizzando la computer vision per rendere gli oggetti virtuali perfettamente compatibili con il mondo reale. Può essere utilizzata per migliorare le esperienze nei giochi, nell'istruzione e nella formazione. 

Pro e contro della computer vision

Ecco alcuni dei principali vantaggi che la computer vision può apportare a vari settori:

  • Risparmio sui costi: L'automazione delle attività con la computer vision aiuta a ridurre i costi operativi, a migliorare la produttività e a minimizzare gli errori.
  • Scalabilità: Una volta implementati, i sistemi di computer vision possono facilmente scalare per gestire grandi quantità di dati, rendendoli adatti a imprese in crescita o a operazioni su larga scala.
  • Personalizzazione specifica per l'applicazione: I modelli di visione artificiale possono essere messi a punto utilizzando il vostro set di dati, per ottenere soluzioni altamente specializzate che soddisfano i requisiti della vostra applicazione.

Se da un lato questi vantaggi evidenziano l'impatto che la computer vision può avere su diversi settori, dall'altro è importante considerare le sfide che comporta la sua implementazione. Ecco alcune delle sfide principali:

  • Problemi di privacy dei dati: L'uso di dati visivi, soprattutto in aree sensibili come la sorveglianza o l'assistenza sanitaria, può sollevare problemi di privacy e di sicurezza.
  • Limitazioni ambientali: I sistemi di visione artificiale possono faticare a funzionare correttamente in ambienti difficili, come la scarsa illuminazione, le immagini di bassa qualità o gli sfondi complessi.
  • Costo iniziale elevato: Lo sviluppo e l'implementazione di sistemi di visione artificiale possono essere costosi a causa della necessità di hardware, software e competenze specializzate.

Punti di forza

La computer vision sta reinventando il modo in cui le macchine interagiscono con il mondo, consentendo loro di vedere e capire il mondo come fanno gli esseri umani. Viene già utilizzata in molti settori, come il miglioramento della sicurezza delle auto a guida autonoma, l'aiuto ai medici per una diagnosi più rapida delle malattie, la personalizzazione degli acquisti e persino l'assistenza agli agricoltori per il monitoraggio dei raccolti. 

Con il continuo miglioramento della tecnologia, nuove tendenze come l'edge computing e la merged reality aprono ulteriori possibilità. Anche se ci sono alcune sfide, come le distorsioni e i costi elevati, la computer vision ha il potenziale per avere un enorme impatto positivo su molti settori in futuro.

Per saperne di più, visitate il nostro repository GitHub e partecipate alla nostra comunità. Esplorate le innovazioni in settori come l'IA nelle auto a guida autonoma e la computer vision in agricoltura sulle nostre pagine dedicate alle soluzioni. 🚀

Costruiamo insieme il futuro
dell'IA!

Iniziate il vostro viaggio nel futuro dell'apprendimento automatico

Iniziare gratuitamente
Link copiato negli appunti