Esplora il riconoscimento delle azioni (Human Activity Recognition): come i video, la stima della posa e il deep learning detect azioni umane per la sanità, la sicurezza e lo sport.
L'Action Recognition, spesso definito Human Activity Recognition (HAR), è un sottoinsieme specialistico della Computer Vision (CV) che si concentra sull'identificazione di soggetti in movimento. Computer Vision (CV) che si concentra sull'identificazione e classificare movimenti o comportamenti specifici nei dati video. A differenza del riconoscimento riconoscimento delle immagini, che analizza fotogrammi statici per detect gli oggetti, il riconoscimento delle azioni incorpora la dimensione del tempo per comprendere gli eventi dinamici. Elaborando sequenze di immagini, sistemi di intelligenza artificiale (AI) possono distinguere tra azioni come camminare, correre, agitarsi o cadere. Questa capacità è essenziale per creare sistemi in grado di interpretare il comportamento umano in ambienti reali, colmando il divario tra la visione dei pixel e la comprensione delle intenzioni. comprensione delle intenzioni.
Per identificare con precisione le azioni, I modelli di apprendimento profondo (DL) devono estrarre due tipi di caratteristiche di caratteristiche: spaziali e temporali. Le caratteristiche spaziali descrivono l'aspetto visivo di una scena, come la presenza di una persona o di un oggetto. di una persona o di un oggetto, di solito estratte tramite reti neurali convoluzionali (CNN). Le caratteristiche temporali descrivono come questi elementi spaziali cambiano nel tempo.
Gli approcci moderni utilizzano spesso una pipeline che comprende:
Il seguente esempio Python mostra come utilizzare l'opzione ultralytics per estrarre i punti chiave della posa
da un video, che serve come strato di dati di base per molti sistemi di riconoscimento delle azioni.
from ultralytics import YOLO
# Load an official YOLO11 pose estimation model
model = YOLO("yolo11n-pose.pt")
# Run inference on a video to track human skeletal movement
# 'stream=True' returns a generator for efficient memory usage
results = model("path/to/video.mp4", stream=True)
for result in results:
# Keypoints can be analyzed over time to determine actions
keypoints = result.keypoints.xyn # Normalized x, y coordinates
print(keypoints)
La capacità di automatizzare l'interpretazione del movimento umano ha favorito un'adozione significativa in diversi settori. Il mercato globale mercato globale del riconoscimento dell'attività umana continua a espandersi, mentre le industrie cercano di digitalizzare i flussi di lavoro fisici.
Nel campo dell'IA in ambito sanitario, il riconoscimento è fondamentale per il monitoraggio automatico dei pazienti. I sistemi possono essere addestrati per detect cadute in ospedali o strutture di vita assistita, attivando avvisi immediati per il personale. Inoltre, la computer vision facilita la riabilitazione fisica a distanza, analizzando in tempo reale, assicurando che il paziente esegua i movimenti in modo corretto per favorire il recupero e prevenire le lesioni.
Allenatori ed emittenti utilizzano IA nello sport per per analizzare le prestazioni degli atleti. Gli algoritmi di riconoscimento delle azioni possono etichettare automaticamente gli eventi nei filmati di gioco, come ad esempio un tiro a basket, un servizio a tennis o un passaggio a calcio. come un tiro a canestro, un servizio a tennis o un passaggio a calcio, consentendo un'analisi statistica dettagliata. Questi dati aiutano a tecnica e a sviluppare strategie basate sui modelli di modelli di movimento dei giocatori.
I sistemi di sicurezza si sono evoluti oltre il semplice rilevamento del movimento. Il monitoraggio avanzato monitoraggio della sicurezza utilizza il riconoscimento delle azioni per identificare i comportamenti sospetti, come risse, vagabondaggio o taccheggio, ignorando invece i movimenti ignorando i movimenti benigni. Questo riduce i falsi allarmi e migliora l'efficienza del personale di sicurezza.
È importante distinguere l'Action Recognition da termini simili nel panorama della computer vision per selezionare lo strumento giusto per il lavoro. strumento giusto per il lavoro.
L'implementazione di questi sistemi presenta delle sfide, tra cui la necessità di disporre di grandi quantità di dati di addestramento etichettati dati di addestramento e il costo computazionale elaborazione dei video. I dataset di riferimento come Kinetics-400 e UCF101 sono standard per l'addestramento e la valutazione dei modelli. UCF101 sono standard per l'addestramento e la valutazione dei modelli.
Con il miglioramento dell'hardware, si sta passando all'Edge AI, che consente di eseguire i modelli direttamente sulle fotocamere o sui dispositivi mobili. Ciò consente in tempo reale con una minore latenza e una migliore migliore privacy, poiché i dati video non devono essere inviati al cloud. Gli sviluppi futuri, tra cui l'imminente YOLO26, mirano a ottimizzare ulteriormente la velocità e l'accuratezza delle dei motori di rilevamento e di stima della posa che alimentano queste complesse attività di riconoscimento.