Descubra cómo el reconocimiento de acciones identifica comportamientos en vídeos. Aprenda a utilizar Ultralytics para la estimación de posturas y cree sistemas inteligentes de IA para tareas HAR.
El reconocimiento de acciones, también conocido comúnmente como reconocimiento de actividades humanas (HAR), es un subcampo dinámico de la visión artificial (CV) que se ocupa de identificar y clasificar comportamientos o movimientos específicos realizados por sujetos en datos de vídeo. Mientras que la detección tradicional de objetos responde a la pregunta «¿qué hay en la imagen?», el reconocimiento de acciones aborda la pregunta más compleja de «¿qué está sucediendo a lo largo del tiempo?». Al analizar secuencias de fotogramas en lugar de imágenes estáticas, los modelos de aprendizaje automático (ML) pueden distinguir entre actividades complejas como «caminar», «montar en bicicleta», «caerse» o «dar la mano », lo que lo convierte en un componente crucial para crear sistemas inteligentes que comprendan la intención y el contexto humanos.
El reconocimiento de acciones requiere un modelo que procese tanto la información espacial (el aspecto de los objetos o las personas) como la información temporal (cómo se mueven a lo largo del tiempo). Para lograrlo, los modernos sistemas de inteligencia artificial (IA) suelen emplear arquitecturas especializadas que van más allá de las redes neuronales convolucionales (CNN) estándar .
La capacidad de interpretar automáticamente el movimiento humano tiene un potencial transformador en diversas industrias, mejorando la seguridad, la eficiencia y la experiencia del usuario.
Un flujo de trabajo habitual consiste en detectar primero a las personas y su postura esquelética y, a continuación, analizar el movimiento de esas articulaciones. El modelo Ultralytics proporciona una velocidad y precisión de vanguardia para el paso inicial de estimación de la postura, que es la base de muchos procesos de reconocimiento de acciones.
El siguiente ejemplo muestra cómo extraer puntos clave esqueléticos de un fotograma de vídeo utilizando Python:
from ultralytics import YOLO
# Load the YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image to detect person keypoints
results = model("https://ultralytics.com/images/bus.jpg")
# Process results
for result in results:
# Access the keypoints (x, y, visibility)
if result.keypoints is not None:
print(f"Detected keypoints shape: {result.keypoints.data.shape}")
Es importante diferenciar el reconocimiento de acciones de otras tareas similares de visión por computadora para garantizar que se apliquen los métodos correctos .
El desarrollo de modelos robustos de reconocimiento de acciones presenta retos, especialmente en lo que respecta a la necesidad de grandes conjuntos de datos de vídeo anotados como Kinetics-400 o UCF101. El etiquetado de datos de vídeo requiere mucho más tiempo que el etiquetado de imágenes estáticas. Para solucionar este problema, herramientas como la Ultralytics ayudan a optimizar el flujo de trabajo de anotación y entrenamiento .
Además, la eficiencia computacional es fundamental. El procesamiento de vídeo de alta resolución en tiempo real requiere importantes recursos de hardware. La industria se está orientando cada vez más hacia la IA periférica, optimizando los modelos para que se ejecuten directamente en cámaras y dispositivos móviles con el fin de reducir la latencia y el uso de ancho de banda. Los avances futuros tienen como objetivo mejorar la generalización de los modelos, permitiendo a los sistemas reconocer acciones incluso desde puntos de vista en los que no han sido entrenados explícitamente.