Explore el reconocimiento de acciones (Human Activity Recognition): cómo el vídeo, la estimación de poses y el aprendizaje profundo detect acciones humanas para la sanidad, la seguridad y los deportes.
El Reconocimiento de Acciones, a menudo denominado Reconocimiento de Actividades Humanas (HAR), es un subconjunto especializado de la Visión por Computador (CV) centrado en la identificación y movimientos o comportamientos específicos en datos de vídeo. A diferencia del reconocimiento reconocimiento de imágenes, que analiza fotogramas estáticos para detect objetos, el reconocimiento de acciones incorpora la dimensión temporal para comprender los acontecimientos dinámicos. Al procesar secuencias de imágenes, los sistemas de Inteligencia Artificial (IA) pueden distinguir entre acciones como caminar, correr, saludar o caerse. Esta capacidad es esencial para crear interpretar el comportamiento humano en entornos reales, salvando la distancia entre ver píxeles y comprender la intención. la comprensión de la intención.
Para identificar acciones con precisión, los modelos de Deep Learning (DL) deben extraer dos tipos de características: espaciales y temporales. Las características espaciales describen la apariencia visual de una escena, como la presencia de presencia de una persona o un objeto. redes neuronales convolucionales (CNN). Las características temporales describen cómo estos elementos espaciales cambian con el tiempo.
Los enfoques modernos suelen utilizar una canalización que incluye:
El siguiente ejemplo Python muestra cómo utilizar la función ultralytics para extraer puntos clave de pose
de un vídeo, que sirve como capa de datos fundamental para muchos sistemas de reconocimiento de acciones.
from ultralytics import YOLO
# Load an official YOLO11 pose estimation model
model = YOLO("yolo11n-pose.pt")
# Run inference on a video to track human skeletal movement
# 'stream=True' returns a generator for efficient memory usage
results = model("path/to/video.mp4", stream=True)
for result in results:
# Keypoints can be analyzed over time to determine actions
keypoints = result.keypoints.xyn # Normalized x, y coordinates
print(keypoints)
La capacidad de automatizar la interpretación del movimiento humano ha impulsado su adopción en diversos sectores. El mercado de reconocimiento de la actividad humana sigue expandiéndose a medida que las industrias tratan de digitalizar los flujos de trabajo físicos.
En el campo de la IA en la atención sanitaria, el es fundamental para la monitorización automática de pacientes. Los sistemas pueden entrenarse para detect caídas en hospitales o hospitales o residencias asistidas y alertar inmediatamente al personal. Además, la visión por ordenador facilita la rehabilitación física a distancia analizando del paciente en tiempo real, asegurándose de que realiza los movimientos correctamente para facilitar la recuperación y evitar lesiones.
Entrenadores y locutores utilizan IA en el deporte para desglosar el rendimiento de los atletas. Los algoritmos de reconocimiento de acciones pueden etiquetar automáticamente acontecimientos baloncesto, un saque de tenis o un pase de fútbol, lo que permite un análisis estadístico detallado. Estos datos ayudan a perfeccionar la técnica y desarrollar estrategias basadas patrones de movimiento del jugador.
Los sistemas de seguridad han evolucionado más allá de la simple detección de movimiento. Avanzados vigilancia de seguridad utiliza el reconocimiento de acciones para identificar comportamientos sospechosos, como peleas, merodeo o robos en tiendas, ignorando los movimientos benignos. ignorando los movimientos benignos. Esto reduce las falsas alarmas y mejora la eficacia del personal de seguridad.
Es importante diferenciar el reconocimiento de acciones de términos similares en el ámbito de la visión por ordenador para seleccionar la herramienta adecuada para el trabajo. herramienta adecuada para el trabajo.
El despliegue de estos sistemas plantea retos, como la necesidad de grandes cantidades de datos de entrenamiento etiquetados y el coste computacional de los cálculos. etiquetados y el coste computacional del procesamiento de vídeo. Los conjuntos de datos de referencia como Kinetics-400 y UCF101 son habituales para entrenar y evaluar modelos.
A medida que mejora el hardware, se produce un cambio hacia la IA Edge, que permite ejecutar modelos directamente en cámaras o dispositivos móviles. Esto permite inferencia en tiempo real con menor latencia y y una mayor privacidad, ya que no es necesario enviar los datos de vídeo a la nube. Los desarrollos futuros, incluido el próximo YOLO26, pretenden optimizar aún más la velocidad y la precisión de los motores subyacentes de detección y estimación de la pose que impulsan estas complejas tareas de reconocimiento.