Scopri come funzionano le attività di computer vision come il rilevamento di oggetti, la segmentazione di istanze e la classificazione di immagini e come Ultralytics YOLO11 le supporta.

Scopri come funzionano le attività di computer vision come il rilevamento di oggetti, la segmentazione di istanze e la classificazione di immagini e come Ultralytics YOLO11 le supporta.
Grazie alle telecamere e ai progressi nell'intelligenza artificiale (IA), i computer e le macchine sono ora in grado di vedere il mondo in un modo simile a quello degli esseri umani. Ad esempio, possono riconoscere le persone, tracciare gli oggetti e persino comprendere il contesto di ciò che sta accadendo in un video.
Nello specifico, la computer vision è la branca dell'AI che consente alle macchine di comprendere e interpretare le informazioni visive del mondo che le circonda. La computer vision comporta una varietà di compiti, ciascuno progettato per estrarre un tipo specifico di informazione da immagini o video. Ad esempio, il rilevamento di oggetti aiuta a identificare e localizzare diversi elementi in un'immagine, mentre altri compiti come il tracking, la segmentazione e la stima della posa aiutano le macchine a comprendere il movimento, le forme e le posizioni in modo più accurato.
L'attività di computer vision utilizzata per una particolare applicazione dipende dal tipo di informazioni necessarie. I modelli di computer vision come Ultralytics YOLO11 supportano varie attività di computer vision, rendendolo una scelta affidabile per la costruzione di sistemi di Vision AI nel mondo reale.
In questa guida, esamineremo più da vicino le attività di computer vision supportate da modelli come YOLO11. Esploreremo come funziona ogni attività e come vengono utilizzate in diversi settori. Iniziamo!
I task di computer vision mirano a replicare le capacità della visione umana in diversi modi. Questi task possono aiutare le macchine a rilevare oggetti, tracciare i loro movimenti, stimare le pose e persino delineare singoli elementi in immagini e video. In genere, i task di computer vision sono abilitati da modelli che suddividono i dati visivi in parti più piccole in modo da poter interpretare più chiaramente ciò che sta accadendo.
I modelli Vision AI come i modelli Ultralytics YOLO supportano più attività, come il rilevamento, il tracking e la segmentazione, in un unico framework. Grazie a questa versatilità, i modelli YOLO11 sono facili da adottare per un'ampia varietà di casi d'uso.
Un buon esempio di questo è nell'analisi sportiva. YOLO11 può essere utilizzato per rilevare ogni giocatore in campo utilizzando il rilevamento di oggetti (object detection), quindi può seguirli durante tutta la partita con il tracciamento di oggetti (object tracking). Nel frattempo, le capacità di stima della posa di YOLO11 possono aiutare ad analizzare i movimenti e le tecniche dei giocatori, e la segmentazione delle istanze può separare ogni giocatore dallo sfondo, aggiungendo precisione all'analisi.
Insieme, queste attività di computer vision abilitate da YOLO11 creano un quadro completo di ciò che sta accadendo durante la partita, fornendo ai team informazioni più approfondite sulle prestazioni dei giocatori, sulle tattiche e sulla strategia generale.
Ora che abbiamo dato un'occhiata a quali sono le attività di computer vision, approfondiamo la comprensione di ciascuna supportata da YOLO11 in modo più dettagliato, utilizzando esempi reali.
Quando si guarda una foto, la maggior parte delle persone riesce facilmente a capire se mostra un cane, una montagna o un segnale stradale, perché abbiamo imparato tutti che aspetto hanno di solito queste cose. La classificazione delle immagini aiuta le macchine a fare lo stesso, insegnando loro a classificare ed etichettare un'immagine in base al suo oggetto principale, che si tratti di un'"auto", una "banana" o una "radiografia con frattura". Questa etichetta aiuta i sistemi di visione artificiale a comprendere il contenuto visivo in modo che possano rispondere o prendere decisioni di conseguenza.
Un'applicazione interessante di questo task di computer vision è il monitoraggio della fauna selvatica. La classificazione delle immagini può essere utilizzata per identificare diverse specie animali da foto scattate in natura. Etichettando automaticamente le immagini, i ricercatori possono tracciare le popolazioni, monitorare i modelli di migrazione e identificare più facilmente le specie in via di estinzione per supportare gli sforzi di conservazione.
Sebbene la classificazione delle immagini sia utile per avere un'idea generale di ciò che contiene un'immagine, assegna solo un'etichetta all'intera immagine. In situazioni in cui sono necessarie informazioni dettagliate, come la posizione precisa e l'identità di più oggetti, l'object detection diventa essenziale.
Il rilevamento oggetti è il processo di identificazione e localizzazione di singoli oggetti all'interno di un'immagine, spesso disegnando dei bounding box attorno ad essi. Ultralytics YOLO11 offre prestazioni particolarmente elevate nel rilevamento oggetti in tempo reale, rendendolo ideale per un'ampia gamma di applicazioni.
Prendiamo, ad esempio, le soluzioni di computer vision utilizzate nei negozi al dettaglio per rifornire gli scaffali. Il rilevamento degli oggetti può aiutare a contare frutta, verdura e altri articoli, garantendo un inventario accurato. Nei campi agricoli, la stessa tecnologia può monitorare la maturazione delle colture per aiutare gli agricoltori a determinare il momento migliore per il raccolto, distinguendo anche tra prodotti maturi e non maturi.
Il rilevamento oggetti utilizza i bounding box per identificare e localizzare gli oggetti in un'immagine, ma non cattura le loro forme esatte. È qui che entra in gioco la segmentazione di istanza. Invece di disegnare un box attorno a un oggetto, la segmentazione di istanza traccia il suo contorno preciso.
Puoi pensarlo in questo modo: invece di indicare semplicemente che "c'è una mela in quest'area", delinea e riempie attentamente la forma esatta della mela. Questo processo dettagliato aiuta i sistemi di intelligenza artificiale a comprendere chiaramente i confini di un oggetto, specialmente quando gli oggetti sono vicini tra loro.
La segmentazione di istanza può essere applicata a molte applicazioni, dalle ispezioni delle infrastrutture ai rilievi geologici. Ad esempio, i dati provenienti da rilievi geologici possono essere analizzati utilizzando YOLO11 per segmentare crepe o anomalie superficiali, sia grandi che piccole. Tracciando confini precisi attorno a queste anomalie, gli ingegneri possono individuare i problemi e risolverli prima che un progetto inizi.
Finora, le attività di computer vision che abbiamo esaminato si concentrano su ciò che è presente in una singola immagine. Tuttavia, quando si tratta di video, abbiamo bisogno di informazioni che vadano oltre un singolo fotogramma. L'attività, object tracking, può essere utilizzata per questo.
La capacità di object tracking di YOLO11 può seguire un oggetto specifico, come una persona o un'auto, mentre si muove attraverso una serie di fotogrammi video. Anche se l'angolazione della telecamera cambia o compaiono altri oggetti, il sistema continua a seguire lo stesso target.
Questo è fondamentale per le applicazioni che richiedono il monitoraggio nel tempo, come il tracciamento delle auto nel traffico. Infatti, YOLO11 può tracciare accuratamente i veicoli, seguendo ogni auto per aiutare a stimare la loro velocità in tempo reale. Questo rende il tracciamento degli oggetti un componente chiave in sistemi come il monitoraggio del traffico.
Gli oggetti nel mondo reale non sono sempre perfettamente allineati: possono essere inclinati, laterali o posizionati ad angolazioni strane. Ad esempio, nelle immagini satellitari, navi ed edifici appaiono spesso ruotati.
I metodi tradizionali di rilevamento degli oggetti utilizzano caselle rettangolari fisse che non si adattano all'orientamento di un oggetto, rendendo difficile catturare con precisione queste forme ruotate. Il rilevamento di bounding box orientati (OBB) risolve questo problema utilizzando caselle che ruotano per adattarsi perfettamente a un oggetto, allineandosi con il suo angolo per un rilevamento più preciso.
Per quanto riguarda il monitoraggio dei porti, il supporto di YOLO11 per il rilevamento OBB può aiutare a identificare e tracciare accuratamente le navi indipendentemente dal loro orientamento, garantendo che ogni nave che entra o esce dal porto sia adeguatamente monitorata. Questo rilevamento preciso fornisce informazioni in tempo reale sulle posizioni e sui movimenti delle navi, il che è fondamentale per la gestione dei porti trafficati e la prevenzione delle collisioni.
La stima della posa è una tecnica di computer vision che traccia punti chiave, come articolazioni, arti o altri marcatori, per capire come si muove un oggetto. Invece di trattare un intero oggetto o corpo come un'unica unità completa, questo metodo lo suddivide nelle sue parti fondamentali. Ciò rende possibile analizzare in dettaglio movimenti, gesti e interazioni.
Un'applicazione comune di questa tecnologia è la stima della posa umana. Tracciando le posizioni di varie parti del corpo in tempo reale, fornisce un quadro chiaro di come si sta muovendo una persona. Queste informazioni possono essere utilizzate per una varietà di scopi, dal riconoscimento dei gesti e il monitoraggio delle attività all'analisi delle prestazioni nello sport.
Allo stesso modo, nella riabilitazione fisica, i terapisti possono utilizzare la stima della posa umana e YOLO11 per monitorare i movimenti dei pazienti durante gli esercizi. Questo aiuta a garantire che ogni movimento sia eseguito correttamente, monitorando al contempo i progressi nel tempo.
Ora che abbiamo esplorato in dettaglio tutte le attività di computer vision supportate da YOLO11, esaminiamo come YOLO11 le supporta.
YOLO11 non è solo un modello, ma una suite di varianti di modelli specializzati, ognuno progettato per una specifica attività di computer vision. Questo rende YOLO11 uno strumento versatile che può essere adattato a una vasta gamma di applicazioni. Puoi anche ottimizzare questi modelli su dataset personalizzati per affrontare le sfide uniche dei tuoi progetti.
Ecco le varianti del modello YOLO11 pre-addestrate per attività di visione specifiche:
Ogni variante è disponibile in diverse dimensioni, consentendo agli utenti di scegliere il giusto equilibrio tra velocità e precisione per le loro esigenze specifiche.
I task di computer vision stanno cambiando il modo in cui le macchine comprendono e interagiscono con il mondo. Scomponendo immagini e video in elementi chiave, queste tecnologie semplificano l'analisi dettagliata di oggetti, movimenti e interazioni.
Dal miglioramento della sicurezza stradale e delle prestazioni sportive alla semplificazione dei processi industriali, modelli come YOLO11 possono fornire informazioni in tempo reale che guidano l'innovazione. Mentre la Vision AI continua ad evolversi, probabilmente giocherà un ruolo sempre più importante nel modo in cui interpretiamo e utilizziamo i dati visivi ogni giorno.
Unisciti alla nostra community e visita il nostro repository GitHub per vedere l'IA in azione. Esplora le nostre opzioni di licenza e scopri di più sull'IA in agricoltura e sulla computer vision nella produzione nelle nostre pagine delle soluzioni.