Facendo clic su "Accetta tutti i cookie", l'utente accetta la memorizzazione dei cookie sul proprio dispositivo per migliorare la navigazione del sito, analizzarne l'utilizzo e contribuire alle nostre iniziative di marketing. Per saperne di più
Impostazioni dei cookie
Facendo clic su "Accetta tutti i cookie", l'utente accetta la memorizzazione dei cookie sul proprio dispositivo per migliorare la navigazione del sito, analizzarne l'utilizzo e contribuire alle nostre iniziative di marketing. Per saperne di più
Dalle app di fitness al monitoraggio dei pazienti, scoprite come la computer vision affronta la domanda: l'IA è in grado di rilevare le azioni umane nel mondo reale?
La vita quotidiana è piena di piccoli movimenti a cui raramente ci fermiamo a pensare. Camminare per una stanza, sedersi alla scrivania o salutare un amico possono sembrarci senza sforzo, ma rilevarli con l'intelligenza artificiale è molto più complicato. Ciò che viene naturale agli esseri umani si traduce in qualcosa di molto più complesso quando una macchina cerca di comprenderlo.
Questa capacità è nota come riconoscimento dell'attività umana (HAR) e consente ai computer di rilevare e interpretare gli schemi del comportamento umano. Un'applicazione per il fitness è un ottimo esempio di HAR in azione. Tracciando i passi e gli allenamenti, mostra come l'intelligenza artificiale possa monitorare le attività quotidiane.
Vedendo il potenziale di HAR, molti settori hanno iniziato ad adottare questa tecnologia. Si prevede infatti che il mercato del riconoscimento delle azioni umane raggiungerà oltre 12,56 miliardi di dollari entro il 2033.
Una parte significativa di questi progressi è guidata dalla computer vision, una branca dell'IA che consente alle macchine di analizzare dati visivi, come immagini e video. Con la computer vision e il riconoscimento delle immagini, l'HAR si è trasformato da un concetto di ricerca in una parte pratica ed entusiasmante delle applicazioni di IA all'avanguardia.
In questo articolo esploreremo cos'è l'HAR, i diversi metodi utilizzati per riconoscere le azioni umane e come la computer vision aiuta a rispondere alla domanda: L'intelligenza artificiale è in grado di rilevare le azioni umane nelle applicazioni del mondo reale? Iniziamo!
Che cos'è il riconoscimento delle azioni umane?
Il riconoscimento delle azioni umane consente ai sistemi informatici di comprendere le attività o le azioni umane analizzando i movimenti del corpo. A differenza del semplice rilevamento di una persona in un'immagine, HAR può aiutare a identificare ciò che la persona sta facendo. Ad esempio, distinguendo tra camminare e correre, riconoscendo un gesto della mano o notando quando qualcuno cade.
Le fondamenta dell'HAR risiedono nei modelli di movimento e di postura. Un leggero cambiamento nella posizione delle braccia o delle gambe di un essere umano può segnalare una serie di azioni. Catturando e interpretando questi sottili dettagli, i sistemi HAR possono ricavare informazioni significative dai movimenti del corpo.
Per raggiungere questo obiettivo, il riconoscimento delle azioni umane combina diverse tecnologie, come l'apprendimento automatico, i modelli di deep learning, la computer vision e l'elaborazione delle immagini, che lavorano insieme per analizzare i movimenti del corpo e interpretare le azioni umane con maggiore precisione.
Figura 1. Il riconoscimento dell'attività umana coinvolge diverse branche dell'informatica(Fonte)
I sistemi HAR precedenti erano molto più limitati. Potevano gestire solo alcune azioni semplici e ripetitive in ambienti controllati e spesso avevano difficoltà nelle situazioni reali.
Oggi, grazie all'intelligenza artificiale e a grandi quantità di dati video, l'HAR ha compiuto notevoli progressi sia in termini di precisione che di robustezza. I sistemi moderni sono in grado di riconoscere un'ampia gamma di attività con un'accuratezza molto maggiore, rendendo la tecnologia pratica per settori come l'assistenza sanitaria, la sicurezza e i dispositivi interattivi.
Diversi metodi di rilevamento delle azioni umane
Ora che abbiamo una migliore comprensione di cosa sia il riconoscimento delle azioni umane, diamo un'occhiata ai diversi modi in cui le macchine possono rilevare le azioni umane.
Ecco alcuni dei metodi più comuni:
Metodi basati su sensori: Dispositivi intelligenti come accelerometri, indossabili e smartphone possono acquisire segnali direttamente dal corpo umano. Possono mostrare modelli di movimento come camminare, correre o anche stare fermi. Il contapassi di uno smartwatch è un ottimo esempio di questo metodo.
Metodi basati sulla visione: Le telecamere abbinate alla computer vision analizzano le immagini e i video per tracciare l'aspetto e i movimenti del corpo fotogramma per fotogramma. Ciò consente il riconoscimento di attività più complesse. I televisori o i sistemi di gioco controllati dai gesti si basano su questo metodo.
Metodi multimodali: La combinazione di sensori e telecamere crea un sistema più affidabile, poiché una fonte può confermare ciò che l'altra rileva. Ad esempio, un dispositivo indossabile può registrare il movimento mentre una telecamera verifica la postura, una configurazione spesso utilizzata nel rilevamento delle cadute per l'assistenza agli anziani.
Il ruolo degli insiemi di dati nel riconoscimento delle attività umane
Per qualsiasi modello o sistema HAR, i set di dati sono il punto di partenza. Un set di dati HAR è una raccolta di esempi, come filmati, immagini o dati di sensori, che catturano azioni come camminare, sedersi o salutare. Questi esempi vengono utilizzati per addestrare i modelli di intelligenza artificiale a riconoscere i modelli di movimento umano, che possono poi essere applicati in applicazioni reali.
La qualità dei dati di addestramento influisce direttamente sulle prestazioni del modello. Dati puliti e coerenti facilitano il riconoscimento accurato delle azioni da parte del sistema.
Per questo motivo i set di dati vengono spesso preelaborati prima dell'addestramento. Una fase comune è la normalizzazione, che scala i valori in modo coerente per ridurre gli errori e prevenire l'overfitting (quando un modello funziona bene con i dati di addestramento ma fatica con i nuovi dati).
Per misurare le prestazioni dei modelli al di là dell'addestramento, i ricercatori si affidano a metriche di valutazione e a insiemi di dati di riferimento che consentono test e confronti equi. Raccolte popolari come UCF101, HMDB51 e Kinetics includono migliaia di video clip etichettati per il rilevamento di azioni umane. Per quanto riguarda i sensori, i set di dati raccolti da smartphone e dispositivi indossabili forniscono preziosi segnali di movimento che rendono i modelli di riconoscimento più robusti in ambienti diversi.
Figura 2. Uno scorcio di un set di dati per il riconoscimento di attività umane.(Fonte)
Come la computer vision supporta il riconoscimento delle attività umane
Tra i diversi modi per rilevare le azioni umane, la computer vision è diventata rapidamente uno dei più popolari e ampiamente studiati. Il suo vantaggio principale è che può estrarre dettagli ricchi direttamente da immagini e video. Osservando i pixel fotogramma per fotogramma e analizzando i modelli di movimento, è in grado di riconoscere le attività in tempo reale senza la necessità di indossare dispositivi aggiuntivi.
I recenti progressi nel deep learning, in particolare nelle reti neurali convoluzionali (CNN), progettate per analizzare le immagini, hanno reso la computer vision più veloce, precisa e affidabile.
Ad esempio, i modelli di visione computerizzata all'avanguardia ampiamente utilizzati, come Ultralytics YOLO11, si basano su questi progressi. YOLO11 supporta compiti come il rilevamento di oggetti, la segmentazione di istanze, il tracciamento di persone in fotogrammi video e la stima di pose umane, rendendolo un ottimo strumento per il riconoscimento di attività umane.
Una panoramica di Ultralytics YOLO11
Ultralytics YOLO11 è un modello AI di visione progettato per garantire velocità e precisione. Supporta compiti fondamentali di visione computerizzata come il rilevamento di oggetti, il tracciamento di oggetti e la stima della posa. Queste capacità sono particolarmente utili per il riconoscimento delle attività umane.
Il rilevamento degli oggetti identifica e localizza le persone in una scena, il tracciamento segue i loro movimenti attraverso i fotogrammi video per riconoscere le sequenze d'azione e la stima della posa mappa le articolazioni chiave del corpo umano per distinguere tra attività simili o rilevare cambiamenti improvvisi come una caduta.
Per esempio, le intuizioni del modello possono essere utilizzate per capire la differenza tra una persona seduta in silenzio, poi in piedi e infine che alza le braccia per applaudire. Queste semplici azioni quotidiane possono sembrare simili a prima vista, ma hanno significati molto diversi se analizzate in sequenza.
Figura 3. Utilizzo di Ultralytics YOLO11 per la stima della posa.(Fonte)
Applicazioni del mondo reale della visione artificiale e di HAR
Diamo poi un'occhiata più da vicino a come il riconoscimento dell'attività umana tramite la computer vision viene applicato in casi d'uso reali che hanno un impatto sulla nostra vita quotidiana.
Salute e benessere
In ambito sanitario, i piccoli cambiamenti nel movimento possono fornire indicazioni utili sulle condizioni di una persona. Per esempio, un inciampo di un paziente anziano o l'angolazione di un arto durante la riabilitazione possono rivelare rischi o progressi. Questi segnali sono spesso facili da ignorare con i mezzi tradizionali, come le visite di controllo.
YOLO11 può aiutare utilizzando la stima della posa e l'analisi delle immagini per monitorare i pazienti in tempo reale. Può essere utilizzato per rilevare le cadute, tracciare gli esercizi di recupero e osservare le attività quotidiane come camminare o fare stretching. Poiché funziona attraverso l'analisi visiva senza la necessità di sensori o dispositivi indossabili, offre un modo semplice per raccogliere informazioni accurate a supporto della cura del paziente.
Figura 4. Tracciamento dei movimenti del corpo grazie al supporto di YOLO11 per la stima della posa.(Fonte)
Sicurezza e sorveglianza
I sistemi di sicurezza si basano sul rilevamento rapido di attività umane insolite, come ad esempio la presenza di persone che bighellonano, corrono in un'area riservata o mostrano un'aggressività improvvisa. Questi segnali spesso non vengono colti in ambienti affollati, dove le guardie di sicurezza non possono controllare manualmente tutto. È qui che entrano in gioco la computer vision e YOLO11.
YOLO11 semplifica il monitoraggio della sicurezza grazie alla videosorveglianza in tempo reale in grado di rilevare movimenti sospetti e inviare avvisi istantanei. Supporta la sicurezza della folla negli spazi pubblici e rafforza il rilevamento delle intrusioni nelle aree private.
Con questo approccio, le guardie di sicurezza possono lavorare insieme ai sistemi di visione computerizzata, creando un'interazione e una collaborazione uomo-computer che consente di reagire più rapidamente e tempestivamente alle attività sospette.
Pro e contro dell'utilizzo della computer vision per HAR
Ecco alcuni dei vantaggi dell'utilizzo della computer vision per il riconoscimento delle attività umane:
Scalabilità: Una volta impostato, lo stesso sistema di riconoscimento può monitorare automaticamente più persone contemporaneamente, rendendolo utile per l'automazione di strutture sanitarie, fabbriche e spazi pubblici.
Elaborazione in tempo reale: Le soluzioni Vision AI possono essere utilizzate per analizzare i flussi video nel momento stesso in cui si verificano, consentendo risposte più rapide.
Tracciamento non invasivo: A differenza degli indossabili o dei sensori, non richiede che le persone portino con sé dei dispositivi, consentendo un'analisi del comportamento naturale e senza sforzo.
Sebbene i vantaggi dell'uso della computer vision per HAR siano molti, ci sono anche dei limiti da considerare. Ecco alcuni fattori da tenere in considerazione:
Problemi di privacy: Il monitoraggio basato su video può sollevare problemi di protezione dei dati e di consenso, soprattutto in ambienti sensibili come le case o i luoghi di lavoro.
Potenziali pregiudizi: se i dataset di addestramento non sono diversificati, gli algoritmi possono interpretare in modo errato le azioni di alcuni gruppi di persone, portando a risultati ingiusti o inaccurati.
Sensibilità ambientale: La precisione può diminuire a causa della scarsa illuminazione, del disordine dello sfondo o del fatto che le persone siano parzialmente nascoste, il che significa che i sistemi devono essere progettati con attenzione.
Punti di forza
L'intelligenza artificiale e la computer vision stanno permettendo alle macchine di riconoscere le azioni umane con maggiore precisione e in tempo reale. Analizzando i fotogrammi video e i modelli di movimento, questi sistemi possono identificare sia i gesti quotidiani sia i cambiamenti improvvisi. Con il continuo miglioramento della tecnologia, il riconoscimento delle attività umane sta uscendo dai laboratori di ricerca per diventare uno strumento pratico per la sanità, la sicurezza e le applicazioni quotidiane.