Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Acción Reconocimiento

Explore el reconocimiento de acciones (Human Activity Recognition): cómo el vídeo, la estimación de poses y el aprendizaje profundo detect acciones humanas para la sanidad, la seguridad y los deportes.

El reconocimiento de acciones, conocido con frecuencia como reconocimiento de actividades humanas (HAR), es una rama especializada de la visión artificial (CV) centrada en identificar y clasificar movimientos o comportamientos específicos dentro de datos de vídeo. Mientras que el reconocimiento de imágenes estándar analiza fotogramas estáticos para detect , el reconocimiento de acciones incorpora la cuarta dimensión, el tiempo, para interpretar eventos dinámicos. Mediante el procesamiento de secuencias de fotogramas, los sistemas avanzados de inteligencia artificial (IA) pueden distinguir entre comportamientos complejos como caminar, saludar con la mano, caer o realizar una técnica deportiva específica. Esta capacidad es esencial para crear sistemas inteligentes que puedan comprender la intención humana e interactuar de forma segura en entornos del mundo real.

Mecanismos y técnicas fundamentales

Para identificar con precisión las acciones, los modelos de aprendizaje profundo (DL) deben extraer y sintetizar dos tipos principales de características: espaciales y temporales. Las características espaciales capturan la apariencia visual de la escena, como la presencia de una persona u objeto, normalmente utilizando redes neuronales convolucionales (CNN). Las características temporales describen cómo cambian estos elementos a lo largo del tiempo, proporcionando el contexto necesario para diferenciar una acción de «sentarse» de una acción de «levantarse».

Los enfoques modernos suelen utilizar un proceso de varias etapas para lograr una alta precisión:

  • Estimación de la postura: esta técnica mapea la estructura esquelética del cuerpo humano, rastreando puntos clave específicos como codos, rodillas y hombros. La relación geométrica entre estos puntos proporciona una señal robusta para clasificar acciones, independientemente del ruido de fondo o las condiciones de iluminación.
  • Modelado temporal: Las secuencias de datos se procesan utilizando arquitecturas diseñadas para el análisis de series temporales, como las redes neuronales recurrentes (RNN) o las redes de memoria a corto y largo plazo (LSTM). Recientemente, los transformadores de vídeo se han convertido en el estándar para modelar dependencias de largo alcance en flujos de vídeo.
  • Características de movimiento: Los algoritmos suelen incorporar flujo óptico para track explícitamente track dirección y track velocidad del movimiento de píxeles entre fotogramas, lo que ayuda al modelo a discernir patrones de movimiento sutiles que podrían pasarse por alto con el análisis espacial por sí solo.

Aplicaciones en el mundo real

La capacidad de automatizar la interpretación del movimiento humano ha impulsado una adopción significativa en diversas industrias. El mercado global del reconocimiento de la actividad humana sigue expandiéndose a medida que las empresas buscan digitalizar los flujos de trabajo físicos y mejorar la seguridad.

Sanidad y seguridad del paciente

En el ámbito de la IA en la asistencia sanitaria, el reconocimiento de acciones es fundamental para la monitorización automatizada de pacientes. Se pueden entrenar sistemas para detect en hospitales o residencias asistidas, lo que activa alertas inmediatas al personal de enfermería. Además, la visión por ordenador facilita la rehabilitación física a distancia al analizar la forma en que el paciente realiza los ejercicios en tiempo real, lo que garantiza que los movimientos se ejecuten correctamente para facilitar la recuperación y prevenir lesiones.

Análisis deportivo

Los entrenadores y locutores utilizan la IA en los deportes para descomponer el rendimiento de los atletas. Los algoritmos de reconocimiento de acciones pueden etiquetar automáticamente eventos en las imágenes de los partidos, como un tiro de baloncesto, un servicio de tenis o un pase de fútbol, lo que permite realizar análisis estadísticos detallados. Estos datos ayudan a perfeccionar la técnica y a desarrollar estrategias basadas en patrones de movimiento específicos de los jugadores.

Distinguir conceptos relacionados

Es importante diferenciar el reconocimiento de acciones de términos similares en el ámbito de la visión por ordenador para seleccionar la herramienta adecuada para el trabajo. herramienta adecuada para el trabajo.

  • Reconocimiento de acciones frente a Comprensión de vídeos: Mientras que el reconocimiento de acciones se centra en identificar actividades físicas concretas (por ejemplo, "abrir una puerta"), la comprensión de vídeo es un campo más amplio cuyo objetivo es comprender todo el contexto, la narrativa y las relaciones causales dentro de un vídeo (por ejemplo, "la persona está abriendo la puerta para dejar salir a otra persona"). de un vídeo (por ejemplo, "la persona abre la puerta para que salga el perro").
  • Reconocimiento de acciones frente a seguimiento de objetos: El seguimiento de objetos se ocupa de mantener la identidad de un objeto o persona a lo largo de los fotogramas (asignando un ID único). El reconocimiento de acciones analiza el comportamiento del sujeto seguido. A menudo, el seguimiento es un paso previo para reconocer acciones en escenas con varias personas.

Implementación del análisis de la acción

Un paso fundamental en muchos procesos de reconocimiento de acciones es la extracción de datos esqueléticos. El siguiente Python muestra cómo utilizar el ultralytics biblioteca con YOLO26 para extraer puntos clave de pose, que sirven como capa de datos fundamental para la clasificación de acciones posteriores.

from ultralytics import YOLO

# Load the latest YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Run inference on an image or video to track human skeletal movement
# The model detects persons and their joint locations
results = model("https://ultralytics.com/images/bus.jpg")

for result in results:
    # Keypoints (x, y, visibility) used for downstream action analysis
    if result.keypoints is not None:
        print(f"Keypoints shape: {result.keypoints.data.shape}")

Desafíos y futuras direcciones

La implementación de estos sistemas presenta retos, como la necesidad de grandes cantidades de datos de entrenamiento etiquetados y el coste computacional del procesamiento de vídeo. Los conjuntos de datos de referencia como Kinetics-400 son estándar para evaluar el rendimiento de los modelos.

A medida que mejora el hardware, se produce un cambio hacia la IA periférica, lo que permite que los modelos se ejecuten directamente en cámaras o dispositivos móviles. Esto permite una inferencia en tiempo real con menor latencia y mayor privacidad, ya que no es necesario enviar los datos de vídeo a la nube. Los desarrollos futuros tienen como objetivo optimizar aún más la velocidad y la precisión de los motores subyacentes de detección y estimación de posturas que impulsan estas complejas tareas de reconocimiento.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora