Esplora il riconoscimento delle azioni (Human Activity Recognition): come i video, la stima della posa e il deep learning detect azioni umane per la sanità, la sicurezza e lo sport.
Il riconoscimento delle azioni, spesso denominato riconoscimento delle attività umane (HAR), è una branca specializzata della visione artificiale (CV) incentrata sull'identificazione e la classificazione di movimenti o comportamenti specifici all'interno dei dati video. Mentre il riconoscimento standard delle immagini analizza fotogrammi statici per detect , il riconoscimento delle azioni incorpora la quarta dimensione, il tempo, per interpretare eventi dinamici. Elaborando sequenze di fotogrammi, i sistemi avanzati di intelligenza artificiale (AI) sono in grado di distinguere tra comportamenti complessi come camminare, salutare con la mano, cadere o eseguire una specifica tecnica sportiva. Questa capacità è essenziale per creare sistemi intelligenti in grado di comprendere le intenzioni umane e interagire in modo sicuro in ambienti reali.
Per identificare con precisione le azioni, i modelli di Deep Learning (DL) devono estrarre e sintetizzare due tipi principali di caratteristiche: spaziali e temporali. Le caratteristiche spaziali catturano l'aspetto visivo della scena, come la presenza di una persona o di un oggetto, utilizzando in genere reti neurali convoluzionali (CNN). Le caratteristiche temporali descrivono come questi elementi cambiano nel tempo, fornendo il contesto necessario per differenziare un' azione di "sedersi" da un'azione di "alzarsi".
Gli approcci moderni utilizzano spesso una pipeline multistadio per ottenere un'elevata precisione:
La capacità di automatizzare l'interpretazione del movimento umano ha portato a una significativa adozione in diversi settori. Il mercato globale del riconoscimento dell'attività umana continua ad espandersi, poiché le aziende cercano di digitalizzare i flussi di lavoro fisici e migliorare la sicurezza.
Nel campo dell'intelligenza artificiale in ambito sanitario, il riconoscimento delle azioni è fondamentale per il monitoraggio automatico dei pazienti. I sistemi possono essere addestrati a detect negli ospedali o nelle strutture di assistenza, attivando immediatamente un allarme per il personale infermieristico. Inoltre, la visione artificiale facilita la riabilitazione fisica a distanza analizzando in tempo reale la forma fisica del paziente, assicurandosi che esegua correttamente i movimenti per favorire il recupero e prevenire lesioni.
Allenatori e commentatori utilizzano l' intelligenza artificiale nello sport per analizzare le prestazioni degli atleti. Gli algoritmi di riconoscimento delle azioni possono contrassegnare automaticamente gli eventi nelle riprese delle partite, come un tiro a canestro, un servizio nel tennis o un passaggio nel calcio, consentendo un'analisi statistica dettagliata. Questi dati aiutano a perfezionare la tecnica e a sviluppare strategie basate su specifici schemi di movimento dei giocatori.
È importante distinguere l'Action Recognition da termini simili nel panorama della computer vision per selezionare lo strumento giusto per il lavoro. strumento giusto per il lavoro.
Un passo fondamentale in molte pipeline di riconoscimento delle azioni è l'estrazione dei dati scheletrici. Il seguente Python
mostra come utilizzare il ultralytics biblioteca con
YOLO26 per estrarre i punti chiave della posa, che fungono da
livello di dati fondamentale per la classificazione delle azioni a valle.
from ultralytics import YOLO
# Load the latest YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image or video to track human skeletal movement
# The model detects persons and their joint locations
results = model("https://ultralytics.com/images/bus.jpg")
for result in results:
# Keypoints (x, y, visibility) used for downstream action analysis
if result.keypoints is not None:
print(f"Keypoints shape: {result.keypoints.data.shape}")
L'implementazione di questi sistemi presenta delle sfide, tra cui la necessità di grandi quantità di dati di addestramento etichettati e il costo computazionale dell' elaborazione dei video. I set di dati di riferimento come Kinetics-400 sono lo standard per la valutazione delle prestazioni del modello.
Con il miglioramento dell'hardware, si sta assistendo a un passaggio verso l'Edge AI, che consente ai modelli di funzionare direttamente su telecamere o dispositivi mobili. Ciò consente un'inferenza in tempo reale con una minore latenza e una maggiore privacy, poiché i dati video non devono essere inviati al cloud. Gli sviluppi futuri mirano a ottimizzare ulteriormente la velocità e la precisione dei motori di rilevamento e stima della posa sottostanti che alimentano queste complesse attività di riconoscimento.