Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Azione Riconoscimento

Esplora il riconoscimento delle azioni (Human Activity Recognition): come i video, la stima della posa e il deep learning detect azioni umane per la sanità, la sicurezza e lo sport.

Il riconoscimento delle azioni, spesso denominato riconoscimento delle attività umane (HAR), è una branca specializzata della visione artificiale (CV) incentrata sull'identificazione e la classificazione di movimenti o comportamenti specifici all'interno dei dati video. Mentre il riconoscimento standard delle immagini analizza fotogrammi statici per detect , il riconoscimento delle azioni incorpora la quarta dimensione, il tempo, per interpretare eventi dinamici. Elaborando sequenze di fotogrammi, i sistemi avanzati di intelligenza artificiale (AI) sono in grado di distinguere tra comportamenti complessi come camminare, salutare con la mano, cadere o eseguire una specifica tecnica sportiva. Questa capacità è essenziale per creare sistemi intelligenti in grado di comprendere le intenzioni umane e interagire in modo sicuro in ambienti reali.

Meccanismi e tecniche fondamentali

Per identificare con precisione le azioni, i modelli di Deep Learning (DL) devono estrarre e sintetizzare due tipi principali di caratteristiche: spaziali e temporali. Le caratteristiche spaziali catturano l'aspetto visivo della scena, come la presenza di una persona o di un oggetto, utilizzando in genere reti neurali convoluzionali (CNN). Le caratteristiche temporali descrivono come questi elementi cambiano nel tempo, fornendo il contesto necessario per differenziare un' azione di "sedersi" da un'azione di "alzarsi".

Gli approcci moderni utilizzano spesso una pipeline multistadio per ottenere un'elevata precisione:

  • Stima della posa: questa tecnica mappa la struttura scheletrica del corpo umano, tracciando specifici punti chiave come gomiti, ginocchia e spalle. La relazione geometrica tra questi punti fornisce un segnale robusto per classificare le azioni, indipendentemente dal disordine dello sfondo o dalle condizioni di illuminazione.
  • Modellazione temporale: le sequenze di dati vengono elaborate utilizzando architetture progettate per l'analisi delle serie temporali , come le reti neurali ricorrenti (RNN) o le reti Long Short-Term Memory (LSTM) . Recentemente, i Video Transformer sono diventati lo standard per la modellazione delle dipendenze a lungo raggio nei flussi video.
  • Caratteristiche del movimento: gli algoritmi spesso incorporano il flusso ottico per track in modo esplicito track direzione e track velocità del movimento dei pixel tra i fotogrammi, aiutando il modello a discernere modelli di movimento sottili che potrebbero sfuggire alla sola analisi spaziale .

Applicazioni nel mondo reale

La capacità di automatizzare l'interpretazione del movimento umano ha portato a una significativa adozione in diversi settori. Il mercato globale del riconoscimento dell'attività umana continua ad espandersi, poiché le aziende cercano di digitalizzare i flussi di lavoro fisici e migliorare la sicurezza.

Assistenza sanitaria e sicurezza dei pazienti

Nel campo dell'intelligenza artificiale in ambito sanitario, il riconoscimento delle azioni è fondamentale per il monitoraggio automatico dei pazienti. I sistemi possono essere addestrati a detect negli ospedali o nelle strutture di assistenza, attivando immediatamente un allarme per il personale infermieristico. Inoltre, la visione artificiale facilita la riabilitazione fisica a distanza analizzando in tempo reale la forma fisica del paziente, assicurandosi che esegua correttamente i movimenti per favorire il recupero e prevenire lesioni.

Analisi dello sport

Allenatori e commentatori utilizzano l' intelligenza artificiale nello sport per analizzare le prestazioni degli atleti. Gli algoritmi di riconoscimento delle azioni possono contrassegnare automaticamente gli eventi nelle riprese delle partite, come un tiro a canestro, un servizio nel tennis o un passaggio nel calcio, consentendo un'analisi statistica dettagliata. Questi dati aiutano a perfezionare la tecnica e a sviluppare strategie basate su specifici schemi di movimento dei giocatori.

Distinguere i concetti correlati

È importante distinguere l'Action Recognition da termini simili nel panorama della computer vision per selezionare lo strumento giusto per il lavoro. strumento giusto per il lavoro.

  • Riconoscimento delle azioni e comprensione dei video Comprensione dei video: Mentre il riconoscimento delle azioni si concentra sull'identificazione di specifiche attività fisiche (ad esempio, "aprire una porta"), la comprensione dei video è un campo più ampio che mira a comprendere l'intero contesto, la narrazione e le relazioni causali all'interno di un video (ad es. relazioni causali all'interno di un video (ad esempio, "la persona sta aprendo la porta per far uscire il cane").
  • Riconoscimento delle azioni vs. Tracciamento degli oggetti: Il tracciamento degli oggetti si occupa di mantenere l'identità di un oggetto o di una persona attraverso i fotogrammi (assegnando un ID univoco ). Il riconoscimento delle azioni analizza il comportamento del soggetto tracciato. Spesso, il tracciamento è un passo preliminare necessario per riconoscere le azioni in scene con più persone.

Implementazione dell'analisi dell'azione

Un passo fondamentale in molte pipeline di riconoscimento delle azioni è l'estrazione dei dati scheletrici. Il seguente Python mostra come utilizzare il ultralytics biblioteca con YOLO26 per estrarre i punti chiave della posa, che fungono da livello di dati fondamentale per la classificazione delle azioni a valle.

from ultralytics import YOLO

# Load the latest YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Run inference on an image or video to track human skeletal movement
# The model detects persons and their joint locations
results = model("https://ultralytics.com/images/bus.jpg")

for result in results:
    # Keypoints (x, y, visibility) used for downstream action analysis
    if result.keypoints is not None:
        print(f"Keypoints shape: {result.keypoints.data.shape}")

Sfide e direzioni future

L'implementazione di questi sistemi presenta delle sfide, tra cui la necessità di grandi quantità di dati di addestramento etichettati e il costo computazionale dell' elaborazione dei video. I set di dati di riferimento come Kinetics-400 sono lo standard per la valutazione delle prestazioni del modello.

Con il miglioramento dell'hardware, si sta assistendo a un passaggio verso l'Edge AI, che consente ai modelli di funzionare direttamente su telecamere o dispositivi mobili. Ciò consente un'inferenza in tempo reale con una minore latenza e una maggiore privacy, poiché i dati video non devono essere inviati al cloud. Gli sviluppi futuri mirano a ottimizzare ulteriormente la velocità e la precisione dei motori di rilevamento e stima della posa sottostanti che alimentano queste complesse attività di riconoscimento.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora