Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Acción Reconocimiento

Explore el reconocimiento de acciones (Human Activity Recognition): cómo el vídeo, la estimación de poses y el aprendizaje profundo detect acciones humanas para la sanidad, la seguridad y los deportes.

El Reconocimiento de Acciones, a menudo denominado Reconocimiento de Actividades Humanas (HAR), es un subconjunto especializado de la Visión por Computador (CV) centrado en la identificación y movimientos o comportamientos específicos en datos de vídeo. A diferencia del reconocimiento reconocimiento de imágenes, que analiza fotogramas estáticos para detect objetos, el reconocimiento de acciones incorpora la dimensión temporal para comprender los acontecimientos dinámicos. Al procesar secuencias de imágenes, los sistemas de Inteligencia Artificial (IA) pueden distinguir entre acciones como caminar, correr, saludar o caerse. Esta capacidad es esencial para crear interpretar el comportamiento humano en entornos reales, salvando la distancia entre ver píxeles y comprender la intención. la comprensión de la intención.

Mecanismos básicos de acción Reconocimiento

Para identificar acciones con precisión, los modelos de Deep Learning (DL) deben extraer dos tipos de características: espaciales y temporales. Las características espaciales describen la apariencia visual de una escena, como la presencia de presencia de una persona o un objeto. redes neuronales convolucionales (CNN). Las características temporales describen cómo estos elementos espaciales cambian con el tiempo.

Los enfoques modernos suelen utilizar una canalización que incluye:

  • Detección de objetos: El sistema localiza eficazmente a los individuos dentro del encuadre. Los modelos más avanzados, como YOLO11 por su rapidez y precisión. precisión.
  • Estimación de la pose: Esta técnica mapea la estructura esquelética de un cuerpo humano, rastreando puntos clave como codos, rodillas y hombros. La relación geométrica relación geométrica entre estos puntos a lo largo de una secuencia de fotogramas proporciona una señal robusta para clasificar acciones.
  • Análisis temporal: Las secuencias de datos se procesan utilizando arquitecturas diseñadas para series temporales series temporales, como Redes neuronales recurrentes (RNN) o redes de memoria larga a corto plazo (LSTM) (LSTM). Más recientemente, los transformadores de vídeo han ganado popularidad por su capacidad para modelar dependencias de largo alcance en secuencias de vídeo.

El siguiente ejemplo Python muestra cómo utilizar la función ultralytics para extraer puntos clave de pose de un vídeo, que sirve como capa de datos fundamental para muchos sistemas de reconocimiento de acciones.

from ultralytics import YOLO

# Load an official YOLO11 pose estimation model
model = YOLO("yolo11n-pose.pt")

# Run inference on a video to track human skeletal movement
# 'stream=True' returns a generator for efficient memory usage
results = model("path/to/video.mp4", stream=True)

for result in results:
    # Keypoints can be analyzed over time to determine actions
    keypoints = result.keypoints.xyn  # Normalized x, y coordinates
    print(keypoints)

Relevancia y aplicaciones en el mundo real

La capacidad de automatizar la interpretación del movimiento humano ha impulsado su adopción en diversos sectores. El mercado de reconocimiento de la actividad humana sigue expandiéndose a medida que las industrias tratan de digitalizar los flujos de trabajo físicos.

Sanidad y seguridad del paciente

En el campo de la IA en la atención sanitaria, el es fundamental para la monitorización automática de pacientes. Los sistemas pueden entrenarse para detect caídas en hospitales o hospitales o residencias asistidas y alertar inmediatamente al personal. Además, la visión por ordenador facilita la rehabilitación física a distancia analizando del paciente en tiempo real, asegurándose de que realiza los movimientos correctamente para facilitar la recuperación y evitar lesiones.

Análisis deportivo

Entrenadores y locutores utilizan IA en el deporte para desglosar el rendimiento de los atletas. Los algoritmos de reconocimiento de acciones pueden etiquetar automáticamente acontecimientos baloncesto, un saque de tenis o un pase de fútbol, lo que permite un análisis estadístico detallado. Estos datos ayudan a perfeccionar la técnica y desarrollar estrategias basadas patrones de movimiento del jugador.

Vigilancia inteligente

Los sistemas de seguridad han evolucionado más allá de la simple detección de movimiento. Avanzados vigilancia de seguridad utiliza el reconocimiento de acciones para identificar comportamientos sospechosos, como peleas, merodeo o robos en tiendas, ignorando los movimientos benignos. ignorando los movimientos benignos. Esto reduce las falsas alarmas y mejora la eficacia del personal de seguridad.

Distinguir conceptos relacionados

Es importante diferenciar el reconocimiento de acciones de términos similares en el ámbito de la visión por ordenador para seleccionar la herramienta adecuada para el trabajo. herramienta adecuada para el trabajo.

  • Reconocimiento de acciones frente a Comprensión de vídeos: Mientras que el reconocimiento de acciones se centra en identificar actividades físicas concretas (por ejemplo, "abrir una puerta"), la comprensión de vídeo es un campo más amplio cuyo objetivo es comprender todo el contexto, la narrativa y las relaciones causales dentro de un vídeo (por ejemplo, "la persona está abriendo la puerta para dejar salir a otra persona"). de un vídeo (por ejemplo, "la persona abre la puerta para que salga el perro").
  • Reconocimiento de acciones frente a seguimiento de objetos Seguimiento de objetos: El seguimiento de objetos se ocupa de mantener la identidad de un objeto o una persona a lo largo de los fotogramas. El reconocimiento de acciones analiza el comportamiento del sujeto rastreado. A menudo, el seguimiento es un paso previo para reconocer acciones en escenas con varias personas.
  • Reconocimiento de acciones frente a estimación de poses Estimación de la pose: La estimación de la pose genera datos de coordenadas brutos de las articulaciones del cuerpo. El reconocimiento de acciones toma estos datos (o las visuales) para producir una etiqueta semántica, como "montar en bicicleta" o "saltar".

Desafíos y futuras direcciones

El despliegue de estos sistemas plantea retos, como la necesidad de grandes cantidades de datos de entrenamiento etiquetados y el coste computacional de los cálculos. etiquetados y el coste computacional del procesamiento de vídeo. Los conjuntos de datos de referencia como Kinetics-400 y UCF101 son habituales para entrenar y evaluar modelos.

A medida que mejora el hardware, se produce un cambio hacia la IA Edge, que permite ejecutar modelos directamente en cámaras o dispositivos móviles. Esto permite inferencia en tiempo real con menor latencia y y una mayor privacidad, ya que no es necesario enviar los datos de vídeo a la nube. Los desarrollos futuros, incluido el próximo YOLO26, pretenden optimizar aún más la velocidad y la precisión de los motores subyacentes de detección y estimación de la pose que impulsan estas complejas tareas de reconocimiento.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora