Tutto quello che c'è da sapere sulle attività di computer vision

Abirami Vina

4 minuti di lettura

16 aprile 2025

Scoprite come funzionano le attività di visione artificiale come il tracciamento degli oggetti, la segmentazione delle istanze e la classificazione delle immagini e come Ultralytics YOLO11 le supporta.

Grazie alle telecamere e ai progressi dell'intelligenza artificiale (AI), i computer e le macchine sono ora in grado di vedere il mondo in modo simile a quello degli esseri umani. Ad esempio, possono riconoscere le persone, seguire gli oggetti e persino comprendere il contesto di ciò che accade in un video.

In particolare, la computer vision è la branca dell'IA che consente alle macchine di comprendere e interpretare le informazioni visive del mondo circostante. La computer vision coinvolge una serie di compiti, ognuno dei quali è progettato per estrarre un tipo specifico di informazioni da immagini o video. Per esempio, il rilevamento degli oggetti aiuta a identificare e localizzare i diversi elementi in un'immagine, mentre altri compiti come il tracciamento, la segmentazione e la stima della posa aiutano le macchine a comprendere con maggiore precisione il movimento, le forme e le posizioni.

L'attività di computer vision utilizzata per una particolare applicazione dipende dal tipo di informazioni di cui si ha bisogno. I modelli di visione artificiale come Ultralytics YOLO11 supportano diversi compiti di visione artificiale, il che li rende una scelta affidabile per la creazione di sistemi di IA di visione nel mondo reale.

In questa guida esamineremo da vicino le attività di computer vision supportate da modelli come YOLO11. Esploreremo il funzionamento di ciascuna attività e il loro utilizzo in diversi settori. Iniziamo!

Quali sono i compiti della computer vision?

Le attività di computer vision mirano a replicare le capacità visive umane in diversi modi. Questi compiti possono aiutare le macchine a rilevare gli oggetti, a seguirne i movimenti, a stimare le pose e persino a delineare singoli elementi in immagini e video. In genere, i compiti di computer vision sono abilitati da modelli che suddividono i dati visivi in parti più piccole, in modo da poter interpretare più chiaramente ciò che sta accadendo. 

I modelli AI di visione come i modelli YOLO di Ultralytics supportano diverse attività, come il rilevamento, il tracciamento e la segmentazione, in un unico framework. Grazie a questa versatilità, i modelli YOLO11 sono facili da adottare per un'ampia varietà di casi d'uso.

__wf_reserved_inherit
Figura 1. Compiti di visione artificiale supportati da YOLO11.

Un buon esempio è rappresentato dall'analisi sportiva. YOLO11 può essere utilizzato per rilevare ogni giocatore in campo utilizzando il rilevamento degli oggetti, per poi seguirli durante la partita con il tracciamento degli oggetti. Nel frattempo, le capacità di stima della posa di YOLO11 possono aiutare ad analizzare i movimenti e le tecniche dei giocatori, mentre la segmentazione dell'istanza può separare ogni giocatore dallo sfondo, aggiungendo precisione all'analisi. 

Insieme, queste attività di computer vision abilitate da YOLO11 creano un quadro completo di ciò che accade durante la partita, offrendo alle squadre una visione più approfondita delle prestazioni dei giocatori, delle tattiche e della strategia generale.

Una panoramica dei compiti di visione artificiale supportati da YOLO11

Ora che abbiamo dato un'occhiata a cosa sono le attività di computer vision, cerchiamo di capire più in dettaglio ciascuna di esse supportata da YOLO11, utilizzando esempi reali.

Supporto di YOLO11 per la classificazione delle immagini

Quando si guarda una foto, la maggior parte delle persone è in grado di capire facilmente se si tratta di un cane, di una montagna o di un segnale stradale, perché abbiamo imparato a riconoscere l'aspetto tipico di questi oggetti. La classificazione delle immagini aiuta le macchine a fare lo stesso, insegnando loro a classificare ed etichettare un'immagine in base al suo oggetto principale, che si tratti di "auto", "banana" o "radiografia con frattura". L'etichetta aiuta i sistemi di computer vision a comprendere il contenuto visivo in modo da poter rispondere o prendere decisioni di conseguenza.

Un'interessante applicazione di questa attività di computer vision è il monitoraggio della fauna selvatica. La classificazione delle immagini può essere utilizzata per identificare diverse specie animali da foto catturate in natura. Etichettando automaticamente le immagini, i ricercatori possono seguire le popolazioni, monitorare i modelli di migrazione e identificare più facilmente le specie in pericolo per sostenere gli sforzi di conservazione.

__wf_reserved_inherit
Figura 2. Un esempio di utilizzo di YOLO11 per la classificazione delle immagini.

Le capacità di rilevamento degli oggetti di YOLO11

La classificazione delle immagini è utile per avere un'idea generale del contenuto di un'immagine, ma assegna solo un'etichetta all'intera immagine. Nelle situazioni in cui sono necessarie informazioni dettagliate, come la posizione precisa e l'identità di più oggetti, il rilevamento degli oggetti diventa essenziale.

Il rilevamento di oggetti è il processo di identificazione e localizzazione di singoli oggetti all'interno di un'immagine, spesso disegnando riquadri di delimitazione intorno ad essi. Ultralytics YOLO11 ha prestazioni particolarmente elevate nel rilevamento degli oggetti in tempo reale, che lo rendono ideale per un'ampia gamma di applicazioni.

Prendiamo ad esempio le soluzioni di computer vision utilizzate nei negozi al dettaglio per rifornire gli scaffali. Il rilevamento degli oggetti può aiutare a contare frutta, verdura e altri articoli, garantendo un inventario accurato. Nei campi agricoli, la stessa tecnologia può monitorare la maturità delle colture per aiutare gli agricoltori a determinare il momento migliore per il raccolto, distinguendo persino tra prodotti maturi e acerbi.

__wf_reserved_inherit
Figura 3. Rilevamento della frutta con Ultralytics YOLO11.

Utilizzo di YOLO11 per la segmentazione delle istanze

Il rilevamento degli oggetti utilizza i riquadri di delimitazione per identificare e localizzare gli oggetti in un'immagine, ma non cattura le loro forme esatte. È qui che entra in gioco la segmentazione delle istanze. Invece di disegnare un riquadro intorno a un oggetto, la segmentazione delle istanze ne traccia il contorno preciso.

Si può pensare a questo: piuttosto che indicare semplicemente che "c'è una mela in quest'area", si delinea e si riempie con attenzione la forma esatta della mela. Questo processo dettagliato aiuta i sistemi di intelligenza artificiale a comprendere chiaramente i confini di un oggetto, soprattutto quando gli oggetti sono vicini.

La segmentazione delle istanze può essere applicata a molte applicazioni, dalle ispezioni delle infrastrutture ai rilievi geologici. Ad esempio, i dati provenienti da indagini geologiche possono essere analizzati con YOLO11 per segmentare crepe o anomalie superficiali sia grandi che piccole. Tracciando confini precisi attorno a queste anomalie, gli ingegneri possono individuare i problemi e risolverli prima dell'inizio di un progetto. 

__wf_reserved_inherit
Figura 4. Segmentazione delle cricche abilitata da YOLO11.

Tracciamento degli oggetti: Seguire gli oggetti attraverso i fotogrammi con YOLO11

Finora, i compiti di computer vision che abbiamo esaminato si sono concentrati su ciò che è contenuto in una singola immagine. Tuttavia, quando si tratta di video, abbiamo bisogno di approfondimenti che vadano oltre il singolo fotogramma. A questo scopo si può utilizzare l'attività di tracciamento degli oggetti.

La capacità di tracciamento degli oggetti di YOLO11 è in grado di seguire un oggetto specifico, come una persona o un'auto, mentre si muove in una serie di fotogrammi video. Anche se l'angolo di ripresa cambia o compaiono altri oggetti, il sistema continua a seguire lo stesso obiettivo. 

Questo è fondamentale per le applicazioni che richiedono un monitoraggio nel tempo, come ad esempio il monitoraggio delle auto nel traffico. Infatti, YOLO11 è in grado di tracciare con precisione i veicoli, seguendoli per stimare la loro velocità in tempo reale. Questo rende il tracciamento degli oggetti un componente chiave in sistemi come il monitoraggio del traffico.

__wf_reserved_inherit
Figura 5. Il supporto di YOLO11 per il tracciamento degli oggetti può essere utilizzato per la stima della velocità.

Rilevamento di bounding box orientati (OBB) con YOLO11

Gli oggetti nel mondo reale non sono sempre perfettamente allineati: possono essere inclinati, di lato o posizionati con angolazioni strane. Ad esempio, nelle immagini satellitari, navi ed edifici appaiono spesso ruotati. 

I metodi tradizionali di rilevamento degli oggetti utilizzano caselle rettangolari fisse che non si adattano all'orientamento dell'oggetto, rendendo difficile l'acquisizione accurata di queste forme ruotate. Il rilevamento Oriented bounding box (OBB) risolve questo problema utilizzando caselle che ruotano per adattarsi perfettamente all'oggetto, allineandosi al suo angolo per un rilevamento più preciso.

Per quanto riguarda il monitoraggio dei porti, il supporto di YOLO11 per il rilevamento delle OBB può aiutare a identificare e tracciare con precisione le imbarcazioni indipendentemente dal loro orientamento, assicurando che ogni nave che entra o esce dal porto sia monitorata correttamente. Questo rilevamento preciso fornisce informazioni in tempo reale sulle posizioni e sui movimenti delle imbarcazioni, fondamentali per la gestione dei porti affollati e la prevenzione delle collisioni.

__wf_reserved_inherit
Figura 6. Rilevamento delle imbarcazioni con il rilevamento OBB e YOLO11.

Stima della posa e YOLO11: tracciamento dei punti chiave 

La stima della posa è una tecnica di computer vision che tiene traccia di punti chiave, come articolazioni, arti o altri marcatori, per capire come si muove un oggetto. Invece di trattare un intero oggetto o corpo come un'unità completa, questo metodo lo scompone nelle sue parti chiave. In questo modo è possibile analizzare in dettaglio i movimenti, i gesti e le interazioni.

Un'applicazione comune di questa tecnologia è la stima della posa umana. Tracciando le posizioni delle varie parti del corpo in tempo reale, fornisce un quadro chiaro di come una persona si muove. Queste informazioni possono essere utilizzate per diversi scopi, dal riconoscimento dei gesti al monitoraggio delle attività, fino all'analisi delle prestazioni sportive. 

Allo stesso modo, nella riabilitazione fisica, i terapisti possono utilizzare la stima della posa umana e YOLO11 per monitorare i movimenti dei pazienti durante gli esercizi. In questo modo è possibile assicurarsi che ogni movimento sia eseguito correttamente e monitorare i progressi nel tempo.

__wf_reserved_inherit
Figura 7. YOLO11 può monitorare un allenamento utilizzando la stima della posa.

Esplorazione del modo in cui YOLO11 supporta diversi compiti di computer vision

Ora che abbiamo esplorato in dettaglio tutti i compiti di computer vision supportati da YOLO11, vediamo come YOLO11 li supporta. 

YOLO11 non è un solo modello, ma una suite di varianti specializzate, ciascuna progettata per una specifica attività di computer vision. Ciò rende YOLO11 uno strumento versatile che può essere adattato a un'ampia gamma di applicazioni. È inoltre possibile mettere a punto questi modelli su set di dati personalizzati per affrontare le sfide uniche dei vostri progetti.

Ecco le varianti del modello YOLO11 pre-addestrate per compiti di visione specifici:

  • YOLO11: questo modello rileva ed etichetta più oggetti in tempo reale, rendendolo ideale per il riconoscimento visivo ad alta velocità.

  • YOLO11-seg: questa variante si concentra sulla segmentazione utilizzando maschere dettagliate per separare gli oggetti dai loro sfondi.

  • YOLO11-obb: questo modello è progettato per rilevare gli oggetti ruotati disegnando caselle di delimitazione che si allineano con l'orientamento di ciascun oggetto.

  • YOLO11-cls: Questa variante classifica le immagini assegnando una singola etichetta di categoria in base al contenuto complessivo.

  • YOLO11-pose: questo modello stima i punti chiave del corpo per tracciare la postura, la posizione degli arti e il movimento.

Ogni variante è disponibile in diverse dimensioni, consentendo agli utenti di scegliere il giusto equilibrio tra velocità e precisione per le loro esigenze specifiche.

Punti di forza

Le attività di computer vision stanno cambiando il modo in cui le macchine comprendono e interagiscono con il mondo. Scomponendo le immagini e i video in elementi chiave, queste tecnologie facilitano l'analisi dettagliata di oggetti, movimenti e interazioni. 

Dal miglioramento della sicurezza del traffico e delle prestazioni sportive alla semplificazione dei processi industriali, modelli come YOLO11 possono fornire approfondimenti in tempo reale che guidano l'innovazione. Con la continua evoluzione di Vision AI, probabilmente svolgerà un ruolo sempre più importante nel modo in cui interpretiamo e utilizziamo i dati visivi ogni giorno.

Unitevi alla nostra comunità e visitate il nostro repository GitHub per vedere l'IA in azione. Esplorate le nostre opzioni di licenza e scoprite di più sull'IA in agricoltura e sulla computer vision nella produzione nelle nostre pagine dedicate alle soluzioni. 

Costruiamo insieme il futuro
dell'IA!

Iniziate il vostro viaggio nel futuro dell'apprendimento automatico

Iniziare gratuitamente
Link copiato negli appunti