Explore el reconocimiento de acciones (Human Activity Recognition): cómo el vídeo, la estimación de poses y el aprendizaje profundo detect acciones humanas para la sanidad, la seguridad y los deportes.
El reconocimiento de acciones, conocido con frecuencia como reconocimiento de actividades humanas (HAR), es una rama especializada de la visión artificial (CV) centrada en identificar y clasificar movimientos o comportamientos específicos dentro de datos de vídeo. Mientras que el reconocimiento de imágenes estándar analiza fotogramas estáticos para detect , el reconocimiento de acciones incorpora la cuarta dimensión, el tiempo, para interpretar eventos dinámicos. Mediante el procesamiento de secuencias de fotogramas, los sistemas avanzados de inteligencia artificial (IA) pueden distinguir entre comportamientos complejos como caminar, saludar con la mano, caer o realizar una técnica deportiva específica. Esta capacidad es esencial para crear sistemas inteligentes que puedan comprender la intención humana e interactuar de forma segura en entornos del mundo real.
Para identificar con precisión las acciones, los modelos de aprendizaje profundo (DL) deben extraer y sintetizar dos tipos principales de características: espaciales y temporales. Las características espaciales capturan la apariencia visual de la escena, como la presencia de una persona u objeto, normalmente utilizando redes neuronales convolucionales (CNN). Las características temporales describen cómo cambian estos elementos a lo largo del tiempo, proporcionando el contexto necesario para diferenciar una acción de «sentarse» de una acción de «levantarse».
Los enfoques modernos suelen utilizar un proceso de varias etapas para lograr una alta precisión:
La capacidad de automatizar la interpretación del movimiento humano ha impulsado una adopción significativa en diversas industrias. El mercado global del reconocimiento de la actividad humana sigue expandiéndose a medida que las empresas buscan digitalizar los flujos de trabajo físicos y mejorar la seguridad.
En el ámbito de la IA en la asistencia sanitaria, el reconocimiento de acciones es fundamental para la monitorización automatizada de pacientes. Se pueden entrenar sistemas para detect en hospitales o residencias asistidas, lo que activa alertas inmediatas al personal de enfermería. Además, la visión por ordenador facilita la rehabilitación física a distancia al analizar la forma en que el paciente realiza los ejercicios en tiempo real, lo que garantiza que los movimientos se ejecuten correctamente para facilitar la recuperación y prevenir lesiones.
Los entrenadores y locutores utilizan la IA en los deportes para descomponer el rendimiento de los atletas. Los algoritmos de reconocimiento de acciones pueden etiquetar automáticamente eventos en las imágenes de los partidos, como un tiro de baloncesto, un servicio de tenis o un pase de fútbol, lo que permite realizar análisis estadísticos detallados. Estos datos ayudan a perfeccionar la técnica y a desarrollar estrategias basadas en patrones de movimiento específicos de los jugadores.
Es importante diferenciar el reconocimiento de acciones de términos similares en el ámbito de la visión por ordenador para seleccionar la herramienta adecuada para el trabajo. herramienta adecuada para el trabajo.
Un paso fundamental en muchos procesos de reconocimiento de acciones es la extracción de datos esqueléticos. El siguiente Python
muestra cómo utilizar el ultralytics biblioteca con
YOLO26 para extraer puntos clave de pose, que sirven como
capa de datos fundamental para la clasificación de acciones posteriores.
from ultralytics import YOLO
# Load the latest YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image or video to track human skeletal movement
# The model detects persons and their joint locations
results = model("https://ultralytics.com/images/bus.jpg")
for result in results:
# Keypoints (x, y, visibility) used for downstream action analysis
if result.keypoints is not None:
print(f"Keypoints shape: {result.keypoints.data.shape}")
La implementación de estos sistemas presenta retos, como la necesidad de grandes cantidades de datos de entrenamiento etiquetados y el coste computacional del procesamiento de vídeo. Los conjuntos de datos de referencia como Kinetics-400 son estándar para evaluar el rendimiento de los modelos.
A medida que mejora el hardware, se produce un cambio hacia la IA periférica, lo que permite que los modelos se ejecuten directamente en cámaras o dispositivos móviles. Esto permite una inferencia en tiempo real con menor latencia y mayor privacidad, ya que no es necesario enviar los datos de vídeo a la nube. Los desarrollos futuros tienen como objetivo optimizar aún más la velocidad y la precisión de los motores subyacentes de detección y estimación de posturas que impulsan estas complejas tareas de reconocimiento.