Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Acción Reconocimiento

Descubra cómo el reconocimiento de acciones identifica comportamientos en vídeos. Aprenda a utilizar Ultralytics para la estimación de posturas y cree sistemas inteligentes de IA para tareas HAR.

El reconocimiento de acciones, también conocido comúnmente como reconocimiento de actividades humanas (HAR), es un subcampo dinámico de la visión artificial (CV) que se ocupa de identificar y clasificar comportamientos o movimientos específicos realizados por sujetos en datos de vídeo. Mientras que la detección tradicional de objetos responde a la pregunta «¿qué hay en la imagen?», el reconocimiento de acciones aborda la pregunta más compleja de «¿qué está sucediendo a lo largo del tiempo?». Al analizar secuencias de fotogramas en lugar de imágenes estáticas, los modelos de aprendizaje automático (ML) pueden distinguir entre actividades complejas como «caminar», «montar en bicicleta», «caerse» o «dar la mano », lo que lo convierte en un componente crucial para crear sistemas inteligentes que comprendan la intención y el contexto humanos.

Conceptos y técnicas fundamentales

El reconocimiento de acciones requiere un modelo que procese tanto la información espacial (el aspecto de los objetos o las personas) como la información temporal (cómo se mueven a lo largo del tiempo). Para lograrlo, los modernos sistemas de inteligencia artificial (IA) suelen emplear arquitecturas especializadas que van más allá de las redes neuronales convolucionales (CNN) estándar .

  • Estimación de la postura: una potente técnica en la que el modelo rastrea puntos clave específicos del cuerpo humano, como los codos, las rodillas y los hombros. Los cambios geométricos en estos puntos clave a lo largo del tiempo proporcionan una señal fuerte para clasificar las acciones, independientemente del desorden del fondo.
  • Modelado temporal: los algoritmos utilizan estructuras como redes neuronales recurrentes (RNN) o redes de memoria a corto y largo plazo (LSTM) para recordar fotogramas pasados y predecir acciones futuras. Más recientemente, los transformadores de vídeo han ganado popularidad por su capacidad para manejar dependencias de largo alcance en secuencias de vídeo.
  • Redes de dos flujos: este enfoque procesa las características espaciales (fotogramas RGB) y las características temporales (a menudo utilizando flujo óptico) en flujos paralelos, fusionando los datos para realizar una clasificación final.

Aplicaciones en el mundo real

La capacidad de interpretar automáticamente el movimiento humano tiene un potencial transformador en diversas industrias, mejorando la seguridad, la eficiencia y la experiencia del usuario.

  • La IA en la asistencia sanitaria: El reconocimiento de acciones es vital para los sistemas de monitorización de pacientes. Por ejemplo, permite la detección automática de caídas en residencias de ancianos , alertando inmediatamente al personal si un paciente se cae. También se utiliza en la rehabilitación física a distancia, donde los entrenadores de IA analizan la forma de hacer ejercicio de un paciente para asegurarse de que realiza los movimientos de forma correcta y segura.
  • Vigilancia y seguridad inteligentes: más allá de la simple detección de movimiento, los sistemas de seguridad avanzados utilizan el reconocimiento de acciones para identificar comportamientos sospechosos, como peleas, hurtos en tiendas o entradas no autorizadas, al tiempo que ignoran las actividades benignas. Esto reduce las falsas alarmas y mejora la vigilancia de la seguridad en tiempo real.

Implementación del análisis de acciones con Ultralytics

Un flujo de trabajo habitual consiste en detectar primero a las personas y su postura esquelética y, a continuación, analizar el movimiento de esas articulaciones. El modelo Ultralytics proporciona una velocidad y precisión de vanguardia para el paso inicial de estimación de la postura, que es la base de muchos procesos de reconocimiento de acciones.

El siguiente ejemplo muestra cómo extraer puntos clave esqueléticos de un fotograma de vídeo utilizando Python:

from ultralytics import YOLO

# Load the YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Run inference on an image to detect person keypoints
results = model("https://ultralytics.com/images/bus.jpg")

# Process results
for result in results:
    # Access the keypoints (x, y, visibility)
    if result.keypoints is not None:
        print(f"Detected keypoints shape: {result.keypoints.data.shape}")

Distinción de términos relacionados

Es importante diferenciar el reconocimiento de acciones de otras tareas similares de visión por computadora para garantizar que se apliquen los métodos correctos .

  • Reconocimiento de acciones frente a seguimiento de objetos: El seguimiento de objetos se centra en mantener la identidad de un objeto o persona específicos a medida que se mueven a través de los fotogramas (por ejemplo, «la persona A se encuentra en la coordenada X»). El reconocimiento de acciones interpreta el comportamiento del sujeto seguido (por ejemplo, «la persona A está corriendo»).
  • Reconocimiento de acciones frente a comprensión de vídeos: Mientras que el reconocimiento de acciones identifica actos físicos específicos, la comprensión de vídeos es un concepto más amplio que implica comprender toda la narrativa, el contexto y las relaciones causales dentro de una escena de vídeo.

Retos y tendencias futuras

El desarrollo de modelos robustos de reconocimiento de acciones presenta retos, especialmente en lo que respecta a la necesidad de grandes conjuntos de datos de vídeo anotados como Kinetics-400 o UCF101. El etiquetado de datos de vídeo requiere mucho más tiempo que el etiquetado de imágenes estáticas. Para solucionar este problema, herramientas como la Ultralytics ayudan a optimizar el flujo de trabajo de anotación y entrenamiento .

Además, la eficiencia computacional es fundamental. El procesamiento de vídeo de alta resolución en tiempo real requiere importantes recursos de hardware. La industria se está orientando cada vez más hacia la IA periférica, optimizando los modelos para que se ejecuten directamente en cámaras y dispositivos móviles con el fin de reducir la latencia y el uso de ancho de banda. Los avances futuros tienen como objetivo mejorar la generalización de los modelos, permitiendo a los sistemas reconocer acciones incluso desde puntos de vista en los que no han sido entrenados explícitamente.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora