¡Sintonice YOLO Vision 2025!
25 de septiembre de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glosario

Acción Reconocimiento

Explore el reconocimiento de acciones (Human Activity Recognition): cómo el vídeo, la estimación de poses y el aprendizaje profundo detectan acciones humanas para la sanidad, la seguridad y los deportes.

El reconocimiento de acciones, también conocido como reconocimiento de la actividad humana (HAR), es un campo de la visión por ordenador (CV) que se centra en identificar y comprender las acciones humanas a partir de una serie de observaciones, normalmente secuencias de vídeo. A diferencia de las tareas que identifican objetos en imágenes estáticas, el reconocimiento de acciones analiza el movimiento y los cambios posturales a lo largo del tiempo para determinar qué está haciendo una persona, como caminar, correr o saludar. Esta capacidad permite a los sistemas de Inteligencia Artificial (IA ) interpretar el comportamiento humano dinámico, lo que es crucial para crear aplicaciones más interactivas y conscientes del contexto. El mercado mundial de esta tecnología está en rápida expansión, lo que refleja su creciente importancia en diversos sectores.

Cómo funciona el reconocimiento de acciones

Los sistemas de reconocimiento de acciones procesan datos visuales, principalmente de vídeos, para clasificar los movimientos humanos. El proceso suele implicar una combinación de varias técnicas de visión por ordenador y modelos de aprendizaje profundo (Deep Learning, DL).

  • Entrada de datos: El sistema suele comenzar con un flujo de vídeo o una secuencia de imágenes. Estos datos pueden captarse con cámaras estándar o sensores especializados.
  • Extracción de características: La información clave se extrae de los fotogramas de vídeo. Esto suele comenzar con tareas básicas como la detección de objetos para localizar a las personas en la escena. A continuación, se utiliza el seguimiento de objetos para seguir a las personas a través de varios fotogramas, creando una comprensión temporal de sus movimientos.
  • Análisis del movimiento: Para comprender la acción concreta, los modelos suelen basarse en la estimación de poses, que identifica y rastrea las articulaciones clave del cuerpo. Analizando el movimiento de estos puntos clave a lo largo del tiempo, el sistema puede diferenciar entre acciones similares, como caminar o correr.
  • Clasificación: Las arquitecturas de redes neuronales avanzadas, como las redes neuronales convolucionales 3D o una combinación de redes neuronales convolucionales (CNN) con redes neuronales recurrentes (RNN), se utilizan para clasificar la secuencia de movimientos en categorías de acción predefinidas. La calidad de los datos de entrenamiento, a menudo procedentes de conjuntos de datos de referencia a gran escala como Kinetics o UCF101, es vital para la precisión del modelo.

Reconocimiento de acciones frente a conceptos afines

Es importante diferenciar el reconocimiento de acciones de otras tareas de CV relacionadas para comprender su función única.

  • Reconocimiento de acciones frente a reconocimiento de imágenes: El reconocimiento de imágenes se ocupa de identificar y clasificar objetos o escenas dentro de una única imagen estática. El reconocimiento de acciones, sin embargo, lo amplía analizando una secuencia de imágenes para comprender acontecimientos y movimientos dinámicos a lo largo del tiempo.
  • Reconocimiento de acciones frente a comprensión de vídeo: La comprensión de vídeo es un campo más amplio que engloba el reconocimiento de acciones. Mientras que el reconocimiento de acciones se centra específicamente en la identificación de acciones, la comprensión de vídeo persigue una comprensión más holística del contenido del vídeo, incluidos los cambios de escena, las interacciones entre objetos y la narración general. Por ejemplo, reconocer que una persona está abriendo una puerta es reconocimiento de acciones; entender que está entrando en una habitación para saludar a alguien forma parte de la comprensión de vídeo.
  • Reconocimiento de acciones frente a estimación de poses: La estimación de poses es un componente utilizado a menudo en los sistemas de reconocimiento de acciones para determinar la postura de una persona mediante la localización de sus articulaciones. La estimación de la pose proporciona los datos brutos sobre la posición del cuerpo, mientras que el reconocimiento de la acción interpreta la secuencia de estas poses para clasificar la acción que se está realizando.

Aplicaciones en el mundo real

El reconocimiento de acciones es una tecnología clave para muchos sistemas modernos de IA, que les permite interactuar con el mundo físico y comprenderlo de forma más sofisticada.

  • Asistencia sanitaria y cuidado de ancianos: En la IA en la asistencia sanitaria, los sistemas de reconocimiento de acciones pueden vigilar a los pacientes para garantizar su seguridad y bienestar. Por ejemplo, estos sistemas pueden desplegarse en hospitales o residencias para detectar automáticamente cuando una persona mayor se cae y enviar una alerta para que reciba asistencia inmediata. También se utilizan en rehabilitación física para controlar si los pacientes realizan sus ejercicios correctamente.
  • Vigilancia y seguridad inteligentes: Más allá de la simple detección de movimiento, el reconocimiento de acciones mejora la vigilancia de la seguridad al identificar comportamientos específicos. Un sistema puede entrenarse para detectar actividades sospechosas, como merodear en una zona restringida o actos de vandalismo, y avisar al personal de seguridad en tiempo real. Esto permite un enfoque más proactivo de la seguridad.
  • Análisis deportivo: En la analítica deportiva, los entrenadores y analistas utilizan el reconocimiento de acciones para analizar automáticamente los movimientos de los jugadores, realizar un seguimiento de las métricas de rendimiento e identificar patrones tácticos durante un partido.
  • Interacción persona-ordenador: El reconocimiento de acciones es fundamental para desarrollar sistemas de control basados en gestos para todo tipo de dispositivos, desde consolas de videojuegos hasta dispositivos domésticos inteligentes, lo que permite a los usuarios interactuar con la tecnología de forma más natural sin necesidad de mandos físicos.

Únete a la comunidad de Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora
Enlace copiado al portapapeles