Scopri come funzionano le attività di computer vision come il tracciamento degli oggetti, la segmentazione delle istanze e la classificazione delle immagini e come Ultralytics YOLO11 le supporta.
Grazie alle telecamere e ai progressi dell'intelligenza artificiale (AI), i computer e le macchine sono ora in grado di vedere il mondo in modo simile a quello degli esseri umani. Ad esempio, possono riconoscere le persone, seguire gli oggetti e persino capire il contesto di ciò che accade in un video.
Nello specifico, la computer vision è la branca dell'IA che permette alle macchine di comprendere e interpretare le informazioni visive del mondo circostante. La computer vision coinvolge una serie di compiti, ognuno dei quali è progettato per estrarre un tipo specifico di informazioni da immagini o video. Ad esempio, il rilevamento degli oggetti aiuta a identificare e localizzare i diversi elementi in un'immagine, mentre altri compiti come il tracciamento, la segmentazione e la stima della posa aiutano le macchine a comprendere con maggiore precisione i movimenti, le forme e le posizioni.
L'attività di computer vision utilizzata per una particolare applicazione dipende dal tipo di informazioni di cui hai bisogno. I modelli di visione artificiale come Ultralytics YOLO11 supportano diversi compiti di computer vision, il che li rende una scelta affidabile per la creazione di sistemi di IA Vision nel mondo reale.
In questa guida daremo un'occhiata più da vicino alle attività di computer vision supportate da modelli come YOLO11. Analizzeremo il funzionamento di ogni compito e il suo utilizzo in diversi settori. Iniziamo!
Le attività di computer vision mirano a replicare le capacità visive umane in diversi modi. Questi compiti possono aiutare le macchine a rilevare gli oggetti, a seguirne i movimenti, a stimare le pose e persino a delineare singoli elementi in immagini e video. In genere, i compiti di computer vision sono abilitati da modelli che suddividono i dati visivi in parti più piccole in modo da poter interpretare più chiaramente ciò che sta accadendo.
I modelli AI di visione come i modelliYOLO di Ultralytics supportano diverse attività, come il rilevamento, il tracciamento e la segmentazione, in un unico framework. Grazie a questa versatilità, i modelli YOLO11 sono facili da adottare per un'ampia varietà di casi d'uso.
Un buon esempio è rappresentato dall'analisi degli sport. YOLO11 può essere utilizzato per individuare ogni giocatore in campo grazie al rilevamento degli oggetti, per poi seguirli durante la partita con il tracciamento degli oggetti. Nel frattempo, le capacità di stima della posa di YOLO11 possono aiutare ad analizzare i movimenti e le tecniche dei giocatori, mentre la segmentazione dell'istanza può separare ogni giocatore dallo sfondo, aggiungendo precisione all'analisi.
Insieme, queste attività di computer vision YOLO11 creano un quadro completo di ciò che accade durante la partita, fornendo alle squadre approfondimenti sulle prestazioni dei giocatori, sulle tattiche e sulla strategia generale.
Ora che abbiamo dato un'occhiata a cosa sono i compiti di computer vision, cerchiamo di capire più in dettaglio quali sono i compiti supportati da YOLO11 , utilizzando esempi reali.
Quando si guarda una foto, la maggior parte delle persone è in grado di capire facilmente se si tratta di un cane, di una montagna o di un cartello stradale perché abbiamo imparato a riconoscere l'aspetto tipico di questi oggetti. La classificazione delle immagini aiuta le macchine a fare lo stesso insegnando loro a classificare ed etichettare un'immagine in base al suo oggetto principale, che sia una "macchina", una "banana" o una "radiografia con frattura". Questa etichetta aiuta i sistemi di computer vision a comprendere il contenuto visivo in modo da poter rispondere o prendere decisioni di conseguenza.
Un'interessante applicazione di questa attività di computer vision è il monitoraggio della fauna selvatica. La classificazione delle immagini può essere utilizzata per identificare le diverse specie animali dalle foto scattate in natura. Etichettando automaticamente le immagini, i ricercatori possono tracciare le popolazioni, monitorare i modelli di migrazione e identificare più facilmente le specie in pericolo per sostenere gli sforzi di conservazione.
Sebbene la classificazione delle immagini sia utile per avere un'idea generale del contenuto di un'immagine, essa assegna solo un'etichetta all'intera immagine. Nelle situazioni in cui sono necessarie informazioni dettagliate, come la posizione precisa e l'identità di più oggetti, il rilevamento degli oggetti diventa essenziale.
Il rilevamento degli oggetti è il processo di identificazione e localizzazione di singoli oggetti all'interno di un'immagine, spesso disegnando dei riquadri di delimitazione intorno ad essi. Ultralytics YOLO11 si comporta particolarmente bene nel rilevamento degli oggetti in tempo reale, il che lo rende ideale per un'ampia gamma di applicazioni.
Prendiamo ad esempio le soluzioni di computer vision utilizzate nei negozi al dettaglio per rifornire gli scaffali. Il rilevamento degli oggetti può aiutare a contare frutta, verdura e altri articoli, garantendo un inventario accurato. Nei campi agricoli, la stessa tecnologia può monitorare la maturità delle colture per aiutare gli agricoltori a determinare il momento migliore per il raccolto, distinguendo persino tra prodotti maturi e acerbi.
Il rilevamento degli oggetti utilizza i riquadri di delimitazione per identificare e localizzare gli oggetti in un'immagine, ma non cattura le loro forme esatte. È qui che entra in gioco la segmentazione delle istanze. Invece di disegnare un riquadro intorno a un oggetto, la segmentazione delle istanze ne traccia il contorno preciso.
Si può pensare a questo: piuttosto che indicare semplicemente che "c'è una mela in quest'area", il sistema delinea e riempie accuratamente la forma esatta della mela. Questo processo dettagliato aiuta i sistemi di intelligenza artificiale a capire chiaramente i confini di un oggetto, soprattutto quando gli oggetti sono vicini.
La segmentazione delle istanze può essere applicata a molte applicazioni, dalle ispezioni delle infrastrutture ai rilievi geologici. Ad esempio, i dati dei rilievi geologici possono essere analizzati con YOLO11 per segmentare crepe o anomalie superficiali sia grandi che piccole. Tracciando confini precisi intorno a queste anomalie, gli ingegneri possono individuare i problemi e risolverli prima dell'inizio di un progetto.
Finora le attività di computer vision che abbiamo esaminato si sono concentrate su ciò che è contenuto in una singola immagine. Tuttavia, quando si tratta di video, abbiamo bisogno di approfondimenti che vadano oltre il singolo fotogramma. L'attività di tracciamento degli oggetti può essere utilizzata a questo scopo.
L'abilità di tracciamento degli oggetti di YOLO11 può seguire un oggetto specifico, come una persona o un'auto, mentre si muove in una serie di fotogrammi video. Anche se l'angolo di ripresa cambia o compaiono altri oggetti, il sistema continua a seguire lo stesso obiettivo.
Questo è fondamentale per le applicazioni che richiedono un monitoraggio nel tempo, come ad esempio il monitoraggio delle auto nel traffico. Infatti, YOLO11 è in grado di tracciare accuratamente i veicoli, seguendoli per stimare la loro velocità in tempo reale. Questo rende il tracciamento degli oggetti un componente fondamentale in sistemi come il monitoraggio del traffico.
Gli oggetti nel mondo reale non sono sempre perfettamente allineati: possono essere inclinati, di lato o posizionati con angolazioni strane. Ad esempio, nelle immagini satellitari, navi ed edifici appaiono spesso ruotati.
I metodi tradizionali di rilevamento degli oggetti utilizzano caselle rettangolari fisse che non si adattano all'orientamento di un oggetto, rendendo difficile l'acquisizione accurata di queste forme ruotate. Il rilevamento Oriented bounding box (OBB) risolve questo problema utilizzando caselle che ruotano per adattarsi perfettamente all'oggetto, allineandosi al suo angolo per un rilevamento più preciso.
Per quanto riguarda il monitoraggio dei porti, il supporto di YOLO11per il rilevamento OBB può aiutare a identificare e tracciare con precisione le imbarcazioni indipendentemente dal loro orientamento, assicurando che ogni nave che entra o esce dal porto sia monitorata correttamente. Questo rilevamento preciso fornisce informazioni in tempo reale sulle posizioni e sui movimenti delle imbarcazioni, un aspetto fondamentale per la gestione dei porti affollati e la prevenzione delle collisioni.
La stima della posa è una tecnica di computer vision che traccia i punti chiave, come articolazioni, arti o altri marcatori, per capire come si muove un oggetto. Invece di trattare un intero oggetto o un corpo come un'unità completa, questo metodo lo suddivide nelle sue parti principali. In questo modo è possibile analizzare nel dettaglio i movimenti, i gesti e le interazioni.
Un'applicazione comune di questa tecnologia è la stima della posa umana. Tracciando le posizioni delle varie parti del corpo in tempo reale, fornisce un quadro chiaro di come si muove una persona. Queste informazioni possono essere utilizzate per diversi scopi, dal riconoscimento dei gesti al monitoraggio delle attività, fino all'analisi delle prestazioni sportive.
Allo stesso modo, nella riabilitazione fisica, i terapisti possono utilizzare la stima della posa umana e YOLO11 per monitorare i movimenti dei pazienti durante gli esercizi. In questo modo è possibile assicurarsi che ogni movimento sia eseguito correttamente e monitorare i progressi nel tempo.
Ora che abbiamo esplorato in dettaglio tutte le attività di computer vision supportate da YOLO11 , vediamo come YOLO11 le supporta.
YOLO11 non è un solo modello: è una suite di varianti specializzate, ciascuna progettata per un compito specifico di computer vision. Questo rende YOLO11 uno strumento versatile che può essere adattato a un'ampia gamma di applicazioni. Puoi anche mettere a punto questi modelli su set di dati personalizzati per affrontare le sfide uniche dei tuoi progetti.
Ecco le varianti del modelloYOLO11 pre-addestrate per compiti di visione specifici:
Ogni variante è disponibile in diverse dimensioni, consentendo agli utenti di scegliere il giusto equilibrio tra velocità e precisione per le loro specifiche esigenze.
Le attività di computer vision stanno cambiando il modo in cui le macchine comprendono e interagiscono con il mondo. Scomponendo le immagini e i video in elementi chiave, queste tecnologie rendono più facile l'analisi dettagliata di oggetti, movimenti e interazioni.
Dal miglioramento della sicurezza del traffico e delle prestazioni sportive alla semplificazione dei processi industriali, modelli come YOLO11 possono fornire approfondimenti in tempo reale che guidano l'innovazione. Con la continua evoluzione della Vision AI, probabilmente svolgerà un ruolo sempre più importante nel modo in cui interpretiamo e utilizziamo i dati visivi ogni giorno.
Unisciti alla nostra comunità e visita il nostro repository GitHub per vedere l'IA in azione. Esplora le nostre opzioni di licenza e scopri di più sull'IA in agricoltura e sulla computer vision nella produzione nelle nostre pagine dedicate alle soluzioni.
Inizia il tuo viaggio nel futuro dell'apprendimento automatico