Sintonizzati su YOLO Vision 2025!
25 settembre 2025
10:00 — 18:00 BST
Evento ibrido
Yolo Vision 2024

Tutto quello che devi sapere sulla Computer Vision nel 2025

Abirami Vina

5 minuti di lettura

15 gennaio 2025

Scopri come la computer vision sta trasformando i settori con task basati sull'IA come il rilevamento di oggetti, la classificazione delle immagini e la stima della posa.

Vent'anni fa, l'idea che macchine e computer fossero in grado di vedere e capire il mondo era solo fantascienza. Oggi, grazie ai progressi dell'intelligenza artificiale (AI), questo concetto è diventato realtà. In particolare, la computer vision (CV), una branca dell'AI, consente alle macchine di comprendere e analizzare immagini e video. Che si tratti di identificare oggetti in tempo reale, migliorare i sistemi di sicurezza o automatizzare compiti complessi, il suo potenziale sta spingendo i confini di ciò che è possibile. 

La computer vision sta rapidamente plasmando il futuro della tecnologia, poiché vari settori esplorano diversi modi per adottare le sue capacità uniche. Le dimensioni del mercato globale della computer vision hanno raggiunto i 19,83 miliardi di dollari nel 2024 e si prevede che cresceranno del 19,8% annuo nei prossimi anni.

__wf_reserved_inherit
Fig. 1. Dimensioni del mercato globale della computer vision.

In questo articolo, esamineremo più da vicino la computer vision, trattando di cosa si tratta, come si è evoluta e come funziona oggi. Esploreremo anche alcune delle sue applicazioni più interessanti. Iniziamo!

Cos'è la computer vision?

La computer vision è un sottocampo dell'IA che sfrutta il machine learning e le reti neurali per insegnare ai computer a comprendere il contenuto di dati visivi, come immagini o file video. Le informazioni raccolte dalle immagini elaborate possono essere utilizzate per prendere decisioni migliori. Ad esempio, la computer vision può essere utilizzata nel settore retail per tenere traccia dei livelli di inventario analizzando le immagini degli scaffali o per migliorare l'esperienza di acquisto con sistemi di checkout automatizzati. Molte aziende stanno già utilizzando la tecnologia di computer vision per diverse applicazioni che vanno dall'aggiunta di filtri alle foto degli smartphone al controllo qualità nella produzione. 

Potresti chiederti: perché c'è così tanto bisogno di soluzioni di computer vision? Compiti che richiedono attenzione costante, come individuare difetti o riconoscere schemi, possono essere difficili per gli umani. Gli occhi possono stancarsi e i dettagli possono essere persi, specialmente in ambienti complessi o frenetici. 

Sebbene le persone siano brave a riconoscere oggetti di diverse dimensioni, colori, illuminazione o angolazioni, spesso faticano a mantenere la coerenza sotto pressione. Le soluzioni di computer vision, d'altra parte, funzionano senza sosta, elaborando in modo rapido e accurato grandi quantità di dati visivi. Ad esempio, può analizzare il traffico in tempo reale per rilevare la congestione, ottimizzare i tempi dei semafori o persino identificare gli incidenti più velocemente di quanto potrebbe fare un osservatore umano.

Comprendere la storia della computer vision

Nel corso degli anni, la computer vision si è evoluta da concetto teorico a tecnologia affidabile, motore di innovazione in tutti i settori. Diamo un'occhiata ad alcune delle pietre miliari chiave che ne hanno definito lo sviluppo:

  • Anni '50 - '60: I ricercatori iniziarono a sviluppare algoritmi per elaborare e analizzare dati visivi, ma i progressi furono lenti a causa della limitata potenza di calcolo.
  • Anni '70: Questo decennio ha visto importanti miglioramenti negli algoritmi, come la Trasformata di Hough, che ha migliorato il rilevamento di linee e forme geometriche nelle immagini. È emerso anche il riconoscimento ottico dei caratteri (OCR), che ha reso possibile alle macchine leggere il testo stampato.
  • Anni '80 - '90: L'apprendimento automatico ha iniziato a svolgere un ruolo nella computer vision, aprendo la strada a capacità più avanzate e a future scoperte.
  • Anni 2000 - 2010: Il deep learning ha portato una nuova dimensione alla computer vision, consentendo alle macchine di interpretare i dati visivi in modo più efficace. Ha migliorato capacità come l'identificazione di oggetti, l'analisi del movimento e l'esecuzione di compiti complessi.

Oggigiorno, la computer vision sta avanzando rapidamente e trasformando il modo in cui risolviamo i problemi in aree come l'assistenza sanitaria, i veicoli autonomi e le smart city. I modelli Ultralytics YOLO (You Only Look Once), progettati per attività di computer vision in tempo reale, semplificano l'implementazione efficace e accurata della Vision AI in vari settori. Man mano che l'AI e l'hardware continuano a migliorare, questi modelli stanno aiutando le aziende a prendere decisioni più intelligenti e a semplificare le operazioni utilizzando l'analisi avanzata dei dati visivi.

Analisi del funzionamento della computer vision

I sistemi di visione artificiale funzionano utilizzando reti neurali, che sono algoritmi ispirati al funzionamento del cervello umano, per analizzare le immagini. Un tipo specifico, chiamato Reti Neurali Convoluzionali (CNN), è particolarmente adatto a riconoscere modelli, come bordi e forme nelle immagini. 

Per semplificare i dati visivi, tecniche come il pooling si concentrano sulle parti più importanti di un'immagine, mentre livelli aggiuntivi elaborano queste informazioni per eseguire compiti come l'identificazione di caratteristiche o il rilevamento di oggetti. Modelli avanzati come Ultralytics YOLO11, progettati per velocità e precisione, rendono possibile l'elaborazione di immagini in tempo reale.

__wf_reserved_inherit
Fig. 2. Un esempio di utilizzo di Ultralytics YOLO11 per l'object detection.

Una tipica applicazione di computer vision prevede diversi passaggi per trasformare le immagini grezze in informazioni utili. Ecco le quattro fasi principali:

  • Acquisizione di immagini: I dati visivi vengono raccolti utilizzando telecamere o sensori e la qualità delle immagini dipende dal tipo di sensore utilizzato.
  • Elaborazione delle immagini: I dati raccolti vengono quindi migliorati attraverso tecniche di pre-elaborazione come la riduzione del rumore e l'evidenziazione dei bordi per renderli più facili da analizzare.
  • Estrazione delle caratteristiche: Vengono selezionati dettagli importanti, come forme e texture, concentrandosi sulle parti dell'immagine che contano di più.  
  • Riconoscimento di pattern: Le caratteristiche identificate vengono analizzate utilizzando il machine learning per completare attività come il rilevamento di oggetti, il tracciamento del movimento o il riconoscimento di pattern.

Esplorazione di task di computer vision

Potresti aver notato che, quando abbiamo parlato di come funziona la computer vision, abbiamo menzionato le attività di computer vision. Modelli come Ultralytics YOLO11 sono costruiti per supportare queste attività, offrendo soluzioni rapide e accurate per applicazioni nel mondo reale. Dal rilevamento di oggetti al tracciamento del loro movimento, YOLO11 gestisce queste attività in modo efficiente. Esploriamo alcune delle principali attività di computer vision che supporta e come funzionano.

Rilevamento oggetti

Il rilevamento oggetti è un'attività chiave della computer vision e viene utilizzato per identificare oggetti di interesse in un'immagine. L'output di un'attività di rilevamento oggetti è un insieme di bounding box (rettangoli disegnati attorno agli oggetti rilevati in un'immagine), insieme alle etichette di classe (la categoria o il tipo di ciascun oggetto, come "auto" o "persona") e ai punteggi di confidenza (un valore numerico che indica quanto è sicuro il modello su ciascun rilevamento). Ad esempio, il rilevamento oggetti può essere utilizzato per identificare e individuare la posizione di un pedone su una strada o di un'auto nel traffico.

__wf_reserved_inherit
Fig. 3. YOLO11 utilizzato per rilevare oggetti.

Classificazione delle immagini

L'obiettivo principale della classificazione delle immagini è assegnare un'etichetta o una categoria predefinita a un'immagine di input in base al suo contenuto complessivo. Questo compito comporta in genere l'identificazione dell'oggetto o della caratteristica dominante all'interno dell'immagine. Ad esempio, la classificazione delle immagini può essere utilizzata per determinare se un'immagine contiene un gatto o un cane. I modelli di computer vision come YOLO11 possono anche essere addestrati su misura per classificare singole razze di gatti o cani, come mostrato di seguito.

__wf_reserved_inherit
Fig 4. Classificazione di diverse razze di gatti utilizzando YOLO11.

Segmentazione di istanza

La segmentazione di istanza è un'altra attività cruciale di computer vision utilizzata in varie applicazioni. Implica la suddivisione di un'immagine in segmenti e l'identificazione di ogni singolo oggetto, anche se sono presenti più oggetti dello stesso tipo. A differenza del rilevamento di oggetti, la segmentazione di istanza fa un ulteriore passo avanti delineando i confini precisi di ciascun oggetto. Ad esempio, nella produzione e riparazione automobilistica, la segmentazione di istanza può aiutare a identificare ed etichettare separatamente ogni parte dell'auto, rendendo il processo più accurato ed efficiente.

__wf_reserved_inherit
Fig 5. Segmentazione di parti di automobili utilizzando YOLO11.

Stima della posa

L'obiettivo della stima della posa è determinare la posizione e l'orientamento di una persona o di un oggetto prevedendo la posizione di punti chiave, come mani, testa e gomiti. Ciò è particolarmente utile nelle applicazioni in cui è importante comprendere le azioni fisiche in tempo reale. La stima della posa umana è comunemente utilizzata in aree come l'analisi sportiva, il monitoraggio del comportamento animale e la robotica.

__wf_reserved_inherit
Fig 6. YOLO11 può essere d'aiuto nella stima della posa umana.

Per esplorare le altre attività di computer vision supportate da YOLO11, puoi consultare la documentazione ufficiale di Ultralytics. Fornisce informazioni dettagliate su come YOLO11 gestisce attività come il tracciamento di oggetti e il rilevamento di oggetti con bounding box orientati (OBB).

Modelli di computer vision più diffusi oggi

Nonostante esistano molti modelli di computer vision, la serie Ultralytics YOLO si distingue per le sue elevate prestazioni e versatilità. Nel tempo, i modelli Ultralytics YOLO sono migliorati, diventando più veloci, più accurati e in grado di gestire più attività. Quando è stato introdotto Ultralytics YOLOv5, la distribuzione dei modelli è diventata più semplice con framework di Vision AI come PyTorch. Ciò ha permesso a una gamma più ampia di utenti di lavorare con l'AI di Visione avanzata, combinando un'elevata precisione con la facilità d'uso.

Successivamente, Ultralytics YOLOv8 ha fatto un ulteriore passo avanti aggiungendo nuove funzionalità come la segmentazione delle istanze, la stima della posa e la classificazione delle immagini. Nel frattempo, l'ultima versione, YOLO11, offre prestazioni superiori in diverse attività di computer vision. Con il 22% in meno di parametri rispetto a YOLOv8m, YOLO11m raggiunge una precisione media media (mAP) più elevata sul dataset COCO, il che significa che può rilevare gli oggetti in modo più preciso ed efficiente. Che tu sia uno sviluppatore esperto o un nuovo arrivato nel campo dell'IA, YOLO11 offre una soluzione potente per le tue esigenze di computer vision.

Il ruolo della computer vision nella vita di tutti i giorni

In precedenza, abbiamo discusso di come i modelli di computer vision come YOLO11 possano essere applicati in una vasta gamma di settori. Ora, esploriamo altri casi d'uso che stanno cambiando la nostra vita quotidiana.

La Vision AI nel settore sanitario

Esiste una vasta gamma di applicazioni per la computer vision nel settore sanitario. Attività come il rilevamento e la classificazione di oggetti vengono utilizzate nell'imaging medico per rendere il rilevamento delle malattie più rapido e accurato. Nell'analisi dei raggi X, la computer vision può identificare schemi che potrebbero essere troppo sottili per l'occhio umano. 

Viene anche utilizzato nella rilevazione del cancro per confrontare le cellule tumorali con quelle sane. Allo stesso modo, per quanto riguarda le TAC e le risonanze magnetiche, la computer vision può essere utilizzata per analizzare le immagini con una precisione quasi umana. Aiuta i medici a prendere decisioni migliori e, in definitiva, salva più vite.

__wf_reserved_inherit
Fig 7. YOLO11 utilizzato per analizzare scansioni mediche.

IA nell'industria automobilistica

La computer vision è fondamentale per le auto a guida autonoma, aiutandole a rilevare oggetti come segnali stradali e semafori. Tecniche come il riconoscimento ottico dei caratteri (OCR) consentono all'auto di leggere il testo dai segnali stradali. Viene anche utilizzata per il rilevamento dei pedoni, dove le attività di object detection identificano le persone in tempo reale. 

Inoltre, la computer vision può persino individuare crepe e buche sulle superfici stradali, consentendo un migliore monitoraggio delle mutevoli condizioni stradali. Nel complesso, la tecnologia di computer vision può svolgere un ruolo chiave nel miglioramento della gestione del traffico, nel miglioramento della sicurezza dei trasporti e nel supporto della pianificazione di città intelligenti.

__wf_reserved_inherit
Fig 8. Comprensione del traffico tramite YOLO11.

Computer vision in agricoltura

Immagina che gli agricoltori possano seminare, irrigare e raccogliere automaticamente i loro raccolti in tempo, senza preoccupazioni. Questo è esattamente ciò che la computer vision porta all'agricoltura. Facilita il monitoraggio in tempo reale delle colture in modo che gli agricoltori possano rilevare problemi come malattie o carenze nutrizionali in modo più accurato rispetto agli esseri umani. 

Oltre al monitoraggio, le macchine automatiche per il diserbo guidate dall'IA e integrate con la computer vision possono identificare e rimuovere le erbacce, riducendo i costi di manodopera e aumentando la resa dei raccolti. Questa combinazione di tecnologie aiuta gli agricoltori a ottimizzare le proprie risorse, migliorare l'efficienza e proteggere i propri raccolti.

__wf_reserved_inherit
Fig 9. Un esempio di utilizzo di YOLO11 in agricoltura.

Automazione dei processi di produzione con l'IA

Nel settore manifatturiero, la computer vision aiuta a monitorare la produzione, controllare la qualità dei prodotti e tracciare automaticamente i lavoratori. La Vision AI rende il processo più veloce e preciso, riducendo al contempo gli errori, il che porta a una riduzione dei costi. 

Nello specifico, per il quality assurance, vengono comunemente utilizzati l'object detection e l'instance segmentation. I sistemi di defect detection eseguono un controllo finale sui prodotti finiti per garantire che solo i migliori raggiungano i clienti. Qualsiasi prodotto con ammaccature o crepe viene automaticamente identificato e scartato. Questi sistemi tracciano e contano anche i prodotti in tempo reale, fornendo un monitoraggio continuo sulla linea di assemblaggio.

__wf_reserved_inherit
Fig. 10. Monitoraggio di una catena di montaggio tramite computer vision.

Un'istruzione resa più efficace con la computer vision

Uno dei modi in cui la computer vision viene utilizzata in classe è attraverso il riconoscimento dei gesti, che personalizza l'apprendimento rilevando i movimenti degli studenti. Modelli come YOLO11 sono perfetti per questo compito e possono identificare accuratamente gesti come mani alzate o espressioni confuse in tempo reale. 

Quando vengono rilevati tali gesti, una lezione in corso può essere modificata fornendo ulteriore aiuto o modificando il contenuto per adattarlo meglio alle esigenze dello studente. Questo crea un ambiente di apprendimento più dinamico e adattivo, aiutando gli insegnanti a concentrarsi sull'insegnamento mentre il sistema supporta l'esperienza di apprendimento di ogni studente.

Tendenze recenti nella computer vision

Ora che abbiamo esplorato alcune delle applicazioni della computer vision in vari settori, approfondiamo le tendenze chiave che ne guidano il progresso.

Una delle principali tendenze è l'edge computing, un framework di calcolo distribuito che elabora i dati più vicino alla loro fonte. Ad esempio, l'edge computing consente a dispositivi come telecamere e sensori di elaborare direttamente i dati visivi, con conseguenti tempi di risposta più rapidi, ritardi ridotti e maggiore privacy.

Un'altra tendenza chiave nella computer vision è l'uso della realtà aumentata, che combina il mondo fisico con elementi digitali, sfruttando la computer vision per far sì che gli oggetti virtuali si fondano armoniosamente con il mondo reale. Può essere utilizzata per migliorare le esperienze nel gaming, nell'istruzione e nella formazione. 

Pro e contro della computer vision

Ecco alcuni dei principali vantaggi che la computer vision può apportare a vari settori:

  • Risparmio sui costi: L'automazione delle attività con la computer vision aiuta a ridurre i costi operativi, migliorare la produttività e ridurre al minimo gli errori.
  • Scalabilità: Una volta implementati, i sistemi di computer vision possono essere facilmente scalati per gestire grandi quantità di dati, rendendoli adatti per aziende in crescita o operazioni su larga scala.
  • Personalizzazione specifica per l'applicazione: I modelli di computer vision possono essere ottimizzati utilizzando il tuo dataset, offrendoti soluzioni altamente specializzate che soddisfano i requisiti della tua applicazione.

Sebbene questi vantaggi evidenzino come la computer vision possa avere un impatto su vari settori, è anche importante considerare le sfide coinvolte nella sua implementazione. Ecco alcune delle sfide principali:

  • Problemi relativi alla privacy dei dati: L'uso di dati visivi, soprattutto in aree sensibili come la sorveglianza o l'assistenza sanitaria, può sollevare problemi di privacy e sicurezza.
  • Limitazioni ambientali: I sistemi di visione artificiale possono avere difficoltà a funzionare correttamente in ambienti difficili, come scarsa illuminazione, immagini di bassa qualità o sfondi complessi.
  • Costi iniziali elevati: Lo sviluppo e l'implementazione di sistemi di computer vision possono essere costosi a causa della necessità di hardware, software e competenze specialistiche.

Punti chiave

La computer vision sta reinventando il modo in cui le macchine interagiscono con il mondo, consentendo loro di vedere e comprendere il mondo come fanno gli esseri umani. È già utilizzata in molti settori, come il miglioramento della sicurezza nelle auto a guida autonoma, l'aiuto ai medici per diagnosticare le malattie più velocemente, la personalizzazione dello shopping e persino l'assistenza agli agricoltori nel monitoraggio delle colture. 

Con il continuo miglioramento della tecnologia, nuove tendenze come l'edge computing e la realtà aumentata stanno aprendo possibilità ancora maggiori. Sebbene ci siano alcune sfide, come i pregiudizi e i costi elevati, la computer vision ha il potenziale per avere un enorme impatto positivo su molti settori in futuro.

Per saperne di più, visita il nostro repository GitHub e interagisci con la nostra community. Esplora le innovazioni in settori come l'IA nelle auto a guida autonoma e la computer vision in agricoltura nelle nostre pagine dedicate alle soluzioni. 🚀

Costruiamo insieme il futuro
dell'AI!

Inizia il tuo viaggio con il futuro del machine learning

Inizia gratis
Link copiato negli appunti