Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Azione Riconoscimento

Esplora il riconoscimento delle azioni (Human Activity Recognition): come i video, la stima della posa e il deep learning detect azioni umane per la sanità, la sicurezza e lo sport.

L'Action Recognition, spesso definito Human Activity Recognition (HAR), è un sottoinsieme specialistico della Computer Vision (CV) che si concentra sull'identificazione di soggetti in movimento. Computer Vision (CV) che si concentra sull'identificazione e classificare movimenti o comportamenti specifici nei dati video. A differenza del riconoscimento riconoscimento delle immagini, che analizza fotogrammi statici per detect gli oggetti, il riconoscimento delle azioni incorpora la dimensione del tempo per comprendere gli eventi dinamici. Elaborando sequenze di immagini, sistemi di intelligenza artificiale (AI) possono distinguere tra azioni come camminare, correre, agitarsi o cadere. Questa capacità è essenziale per creare sistemi in grado di interpretare il comportamento umano in ambienti reali, colmando il divario tra la visione dei pixel e la comprensione delle intenzioni. comprensione delle intenzioni.

Meccanismi d'azione principali Riconoscimento

Per identificare con precisione le azioni, I modelli di apprendimento profondo (DL) devono estrarre due tipi di caratteristiche di caratteristiche: spaziali e temporali. Le caratteristiche spaziali descrivono l'aspetto visivo di una scena, come la presenza di una persona o di un oggetto. di una persona o di un oggetto, di solito estratte tramite reti neurali convoluzionali (CNN). Le caratteristiche temporali descrivono come questi elementi spaziali cambiano nel tempo.

Gli approcci moderni utilizzano spesso una pipeline che comprende:

  • Rilevamento degli oggetti: Il sistema individua efficacemente gli individui all'interno dell'inquadratura. Modelli all'avanguardia come YOLO11 sono spesso utilizzati per la loro velocità e precisione.
  • Stima della posa: Questa tecnica mappa la struttura struttura scheletrica di un corpo umano, tracciando punti chiave come gomiti, ginocchia e spalle. La relazione geometrica tra questi punti relazione geometrica tra questi punti in una sequenza di fotogrammi fornisce un segnale robusto per classificare le azioni. azioni.
  • Analisi temporale: Le sequenze di dati vengono elaborate utilizzando architetture progettate per le serie temporali. dati, come ad esempio Reti neurali ricorrenti (RNN) o memoria a breve termine (LSTM) reti. Più recentemente, i trasformatori video si sono hanno guadagnato popolarità per la loro capacità di modellare le dipendenze a lungo raggio nei flussi video.

Il seguente esempio Python mostra come utilizzare l'opzione ultralytics per estrarre i punti chiave della posa da un video, che serve come strato di dati di base per molti sistemi di riconoscimento delle azioni.

from ultralytics import YOLO

# Load an official YOLO11 pose estimation model
model = YOLO("yolo11n-pose.pt")

# Run inference on a video to track human skeletal movement
# 'stream=True' returns a generator for efficient memory usage
results = model("path/to/video.mp4", stream=True)

for result in results:
    # Keypoints can be analyzed over time to determine actions
    keypoints = result.keypoints.xyn  # Normalized x, y coordinates
    print(keypoints)

Rilevanza e applicazioni nel mondo reale

La capacità di automatizzare l'interpretazione del movimento umano ha favorito un'adozione significativa in diversi settori. Il mercato globale mercato globale del riconoscimento dell'attività umana continua a espandersi, mentre le industrie cercano di digitalizzare i flussi di lavoro fisici.

Assistenza sanitaria e sicurezza dei pazienti

Nel campo dell'IA in ambito sanitario, il riconoscimento è fondamentale per il monitoraggio automatico dei pazienti. I sistemi possono essere addestrati per detect cadute in ospedali o strutture di vita assistita, attivando avvisi immediati per il personale. Inoltre, la computer vision facilita la riabilitazione fisica a distanza, analizzando in tempo reale, assicurando che il paziente esegua i movimenti in modo corretto per favorire il recupero e prevenire le lesioni.

Analisi dello sport

Allenatori ed emittenti utilizzano IA nello sport per per analizzare le prestazioni degli atleti. Gli algoritmi di riconoscimento delle azioni possono etichettare automaticamente gli eventi nei filmati di gioco, come ad esempio un tiro a basket, un servizio a tennis o un passaggio a calcio. come un tiro a canestro, un servizio a tennis o un passaggio a calcio, consentendo un'analisi statistica dettagliata. Questi dati aiutano a tecnica e a sviluppare strategie basate sui modelli di modelli di movimento dei giocatori.

Sorveglianza intelligente

I sistemi di sicurezza si sono evoluti oltre il semplice rilevamento del movimento. Il monitoraggio avanzato monitoraggio della sicurezza utilizza il riconoscimento delle azioni per identificare i comportamenti sospetti, come risse, vagabondaggio o taccheggio, ignorando invece i movimenti ignorando i movimenti benigni. Questo riduce i falsi allarmi e migliora l'efficienza del personale di sicurezza.

Distinguere i concetti correlati

È importante distinguere l'Action Recognition da termini simili nel panorama della computer vision per selezionare lo strumento giusto per il lavoro. strumento giusto per il lavoro.

  • Riconoscimento delle azioni e comprensione dei video Comprensione dei video: Mentre il riconoscimento delle azioni si concentra sull'identificazione di specifiche attività fisiche (ad esempio, "aprire una porta"), la comprensione dei video è un campo più ampio che mira a comprendere l'intero contesto, la narrazione e le relazioni causali all'interno di un video (ad es. relazioni causali all'interno di un video (ad esempio, "la persona sta aprendo la porta per far uscire il cane").
  • Riconoscimento di azioni e tracciamento di oggetti. Tracciamento degli oggetti: Il tracciamento degli oggetti si occupa di mantenere l'identità di un oggetto o di una persona attraverso i fotogrammi. Il riconoscimento dell'azione analizza il comportamento del soggetto tracciato. Spesso, il tracciamento è una fase preliminare per il riconoscimento delle azioni in scene con più persone.
  • Riconoscimento dell'azione vs. stima della posa. Stima della posa: La stima della posa produce dati grezzi sulle coordinate delle articolazioni del corpo. Il riconoscimento dell'azione prende questi dati (o le caratteristiche caratteristiche visive) come input per produrre un'etichetta semantica, come "ciclismo" o "salto".

Sfide e direzioni future

L'implementazione di questi sistemi presenta delle sfide, tra cui la necessità di disporre di grandi quantità di dati di addestramento etichettati dati di addestramento e il costo computazionale elaborazione dei video. I dataset di riferimento come Kinetics-400 e UCF101 sono standard per l'addestramento e la valutazione dei modelli. UCF101 sono standard per l'addestramento e la valutazione dei modelli.

Con il miglioramento dell'hardware, si sta passando all'Edge AI, che consente di eseguire i modelli direttamente sulle fotocamere o sui dispositivi mobili. Ciò consente in tempo reale con una minore latenza e una migliore migliore privacy, poiché i dati video non devono essere inviati al cloud. Gli sviluppi futuri, tra cui l'imminente YOLO26, mirano a ottimizzare ulteriormente la velocità e l'accuratezza delle dei motori di rilevamento e di stima della posa che alimentano queste complesse attività di riconoscimento.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora