Scoprite come funzionano le attività di visione artificiale come il tracciamento degli oggetti, la segmentazione delle istanze e la classificazione delle immagini e come Ultralytics YOLO11 le supporta.

Scoprite come funzionano le attività di visione artificiale come il tracciamento degli oggetti, la segmentazione delle istanze e la classificazione delle immagini e come Ultralytics YOLO11 le supporta.

Grazie alle telecamere e ai progressi dell'intelligenza artificiale (AI), i computer e le macchine sono ora in grado di vedere il mondo in modo simile a quello degli esseri umani. Ad esempio, possono riconoscere le persone, track oggetti e persino comprendere il contesto di ciò che accade in un video.
Nello specifico, la computer vision è la branca dell'AI che consente alle macchine di comprendere e interpretare le informazioni visive del mondo che le circonda. La computer vision comporta una varietà di compiti, ciascuno progettato per estrarre un tipo specifico di informazione da immagini o video. Ad esempio, il rilevamento di oggetti aiuta a identificare e localizzare diversi elementi in un'immagine, mentre altri compiti come il tracking, la segmentazione e la stima della posa aiutano le macchine a comprendere il movimento, le forme e le posizioni in modo più accurato.
L'attività di visione computerizzata utilizzata per una particolare applicazione dipende dal tipo di informazioni di cui si ha bisogno. Modelli di visione artificiale come Ultralytics YOLO11 supportano diversi compiti di computer vision, rendendoli una scelta affidabile per la creazione di sistemi di IA di visione nel mondo reale.
In questa guida esamineremo più da vicino le attività di computer vision supportate da modelli come YOLO11. Esploreremo il funzionamento di ciascuna attività e il loro utilizzo in diversi settori. Iniziamo!
Le attività di computer vision mirano a replicare le capacità visive umane in diversi modi. Questi compiti possono aiutare le macchine a detect gli oggetti, a track movimenti, a stimare le pose e persino a delineare singoli elementi in immagini e video. In genere, i compiti di computer vision sono abilitati da modelli che suddividono i dati visivi in parti più piccole, in modo da poter interpretare più chiaramente ciò che sta accadendo.
I modelli AI di visione come i modelliYOLO di Ultralytics supportano diverse attività, come il rilevamento, il tracciamento e la segmentazione, in un unico framework. Grazie a questa versatilità, i modelli YOLO11 sono facili da adottare per un'ampia varietà di casi d'uso.

Un buon esempio è rappresentato dall'analisi sportiva. YOLO11 può essere utilizzato per detect ogni giocatore in campo utilizzando il rilevamento degli oggetti, per poi seguirli durante la partita con il tracciamento degli oggetti. Nel frattempo, le capacità di stima della posa di YOLO11 possono aiutare ad analizzare i movimenti e le tecniche dei giocatori, mentre la segmentazione dell'istanza può separare ogni giocatore dallo sfondo, aggiungendo precisione all'analisi.
Insieme, queste attività di computer vision YOLO11 creano un quadro completo di ciò che accade durante la partita, offrendo alle squadre una visione più approfondita delle prestazioni dei giocatori, delle tattiche e della strategia generale.
Ora che abbiamo dato un'occhiata a cosa sono le attività di computer vision, cerchiamo di capire più in dettaglio ciascuna di esse supportata da YOLO11 , utilizzando esempi reali.
Quando si guarda una foto, la maggior parte delle persone è in grado di capire facilmente se si tratta di un cane, di una montagna o di un segnale stradale, perché abbiamo imparato a riconoscere l'aspetto tipico di questi oggetti. La classificazione delle immagini aiuta le macchine a fare lo stesso, insegnando loro a classify ed etichettare un'immagine in base al suo oggetto principale, che si tratti di "auto", "banana" o "radiografia con frattura". L'etichetta aiuta i sistemi di computer vision a comprendere il contenuto visivo in modo da poter rispondere o prendere decisioni di conseguenza.
Un'interessante applicazione di questa attività di computer vision è il monitoraggio della fauna selvatica. La classificazione delle immagini può essere utilizzata per identificare diverse specie animali da foto catturate in natura. Etichettando automaticamente le immagini, i ricercatori possono track popolazioni, monitorare i modelli di migrazione e identificare più facilmente le specie in pericolo per sostenere gli sforzi di conservazione.

Sebbene la classificazione delle immagini sia utile per avere un'idea generale di ciò che contiene un'immagine, assegna solo un'etichetta all'intera immagine. In situazioni in cui sono necessarie informazioni dettagliate, come la posizione precisa e l'identità di più oggetti, l'object detection diventa essenziale.
Il rilevamento di oggetti è il processo di identificazione e localizzazione di singoli oggetti all'interno di un'immagine, spesso disegnando riquadri di delimitazione intorno ad essi. Ultralytics YOLO11 ha prestazioni particolarmente elevate nel rilevamento degli oggetti in tempo reale, che lo rendono ideale per un'ampia gamma di applicazioni.
Prendiamo, ad esempio, le soluzioni di computer vision utilizzate nei negozi al dettaglio per rifornire gli scaffali. Il rilevamento degli oggetti può aiutare a contare frutta, verdura e altri articoli, garantendo un inventario accurato. Nei campi agricoli, la stessa tecnologia può monitorare la maturazione delle colture per aiutare gli agricoltori a determinare il momento migliore per il raccolto, distinguendo anche tra prodotti maturi e non maturi.
.webp)
Il rilevamento oggetti utilizza i bounding box per identificare e localizzare gli oggetti in un'immagine, ma non cattura le loro forme esatte. È qui che entra in gioco la segmentazione di istanza. Invece di disegnare un box attorno a un oggetto, la segmentazione di istanza traccia il suo contorno preciso.
Puoi pensarlo in questo modo: invece di indicare semplicemente che "c'è una mela in quest'area", delinea e riempie attentamente la forma esatta della mela. Questo processo dettagliato aiuta i sistemi di intelligenza artificiale a comprendere chiaramente i confini di un oggetto, specialmente quando gli oggetti sono vicini tra loro.
La segmentazione delle istanze può essere applicata a molte applicazioni, dalle ispezioni delle infrastrutture ai rilievi geologici. Ad esempio, i dati provenienti da indagini geologiche possono essere analizzati con YOLO11 per segment crepe o anomalie superficiali sia grandi che piccole. Tracciando confini precisi attorno a queste anomalie, gli ingegneri possono individuare i problemi e risolverli prima dell'inizio di un progetto.

Finora, le attività di computer vision che abbiamo esaminato si concentrano su ciò che è presente in una singola immagine. Tuttavia, quando si tratta di video, abbiamo bisogno di informazioni che vadano oltre un singolo fotogramma. L'attività, object tracking, può essere utilizzata per questo.
La capacità di tracciamento degli oggetti di YOLO11 è in grado di seguire un oggetto specifico, come una persona o un'auto, mentre si muove in una serie di fotogrammi video. Anche se l'angolo di ripresa cambia o compaiono altri oggetti, il sistema continua a seguire lo stesso obiettivo.
Questo è fondamentale per le applicazioni che richiedono un monitoraggio nel tempo, come ad esempio il monitoraggio delle auto nel traffico. Infatti, YOLO11 è in grado di track con precisione track veicoli, seguendoli per stimare la loro velocità in tempo reale. Questo rende il tracciamento degli oggetti un componente chiave in sistemi come il monitoraggio del traffico.

Gli oggetti nel mondo reale non sono sempre perfettamente allineati: possono essere inclinati, laterali o posizionati ad angolazioni strane. Ad esempio, nelle immagini satellitari, navi ed edifici appaiono spesso ruotati.
I metodi tradizionali di rilevamento degli oggetti utilizzano caselle rettangolari fisse che non si adattano all'orientamento di un oggetto, rendendo difficile catturare con precisione queste forme ruotate. Il rilevamento di bounding box orientati (OBB) risolve questo problema utilizzando caselle che ruotano per adattarsi perfettamente a un oggetto, allineandosi con il suo angolo per un rilevamento più preciso.
Per quanto riguarda il monitoraggio dei porti, il supporto di YOLO11per il rilevamento OBB può aiutare a identificare e track con precisione track imbarcazioni, indipendentemente dal loro orientamento, assicurando che ogni nave che entra o esce dal porto sia monitorata correttamente. Questo rilevamento preciso fornisce informazioni in tempo reale sulle posizioni e sui movimenti delle imbarcazioni, fondamentali per la gestione dei porti affollati e la prevenzione delle collisioni.

La stima della posa è una tecnica di computer vision che traccia punti chiave, come articolazioni, arti o altri marcatori, per capire come si muove un oggetto. Invece di trattare un intero oggetto o corpo come un'unica unità completa, questo metodo lo suddivide nelle sue parti fondamentali. Ciò rende possibile analizzare in dettaglio movimenti, gesti e interazioni.
Un'applicazione comune di questa tecnologia è la stima della posa umana. Tracciando le posizioni di varie parti del corpo in tempo reale, fornisce un quadro chiaro di come si sta muovendo una persona. Queste informazioni possono essere utilizzate per una varietà di scopi, dal riconoscimento dei gesti e il monitoraggio delle attività all'analisi delle prestazioni nello sport.
Allo stesso modo, nella riabilitazione fisica, i terapisti possono utilizzare la stima della posa umana e YOLO11 per monitorare i movimenti dei pazienti durante gli esercizi. In questo modo è possibile assicurarsi che ogni movimento sia eseguito correttamente e monitorare i progressi nel tempo.

Ora che abbiamo esplorato in dettaglio tutti i compiti di computer vision supportati da YOLO11 , vediamo come YOLO11 li supporta.
YOLO11 non è un solo modello, ma una suite di varianti specializzate, ciascuna progettata per una specifica attività di computer vision. Ciò rende YOLO11 uno strumento versatile che può essere adattato a un'ampia gamma di applicazioni. È inoltre possibile mettere a punto questi modelli su set di dati personalizzati per affrontare le sfide uniche dei vostri progetti.
Ecco le varianti del modelloYOLO11 pre-addestrate per compiti di visione specifici:
Ogni variante è disponibile in diverse dimensioni, consentendo agli utenti di scegliere il giusto equilibrio tra velocità e precisione per le loro esigenze specifiche.
I task di computer vision stanno cambiando il modo in cui le macchine comprendono e interagiscono con il mondo. Scomponendo immagini e video in elementi chiave, queste tecnologie semplificano l'analisi dettagliata di oggetti, movimenti e interazioni.
Dal miglioramento della sicurezza del traffico e delle prestazioni sportive alla semplificazione dei processi industriali, modelli come YOLO11 possono fornire approfondimenti in tempo reale che guidano l'innovazione. Con la continua evoluzione di Vision AI, probabilmente svolgerà un ruolo sempre più importante nel modo in cui interpretiamo e utilizziamo i dati visivi ogni giorno.
Unisciti alla nostra community e visita il nostro repository GitHub per vedere l'IA in azione. Esplora le nostre opzioni di licenza e scopri di più sull'IA in agricoltura e sulla computer vision nella produzione nelle nostre pagine delle soluzioni.