Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
IA de visión

¿Puede la IA detectar acciones humanas? Explorando el reconocimiento de actividad

Desde aplicaciones de fitness hasta el monitoreo de pacientes, descubre cómo la visión artificial aborda la pregunta: ¿puede la IA detectar acciones humanas en entornos reales?

ABAbirami Vina
6 min read
IA detectando acciones humanas mediante reconocimiento de actividad

La vida cotidiana está llena de pequeños movimientos en los que rara vez nos detenemos a pensar. Cruzar una habitación, sentarse a un escritorio o saludar a un amigo puede parecernos algo sencillo, pero detectarlos con IA es mucho más complicado. Lo que para los humanos resulta natural, se traduce en algo mucho más complejo cuando una máquina intenta comprenderlo.

Esta capacidad se conoce como reconocimiento de actividades humanas (HAR, por sus siglas en inglés) y permite a las computadoras detectar e interpretar patrones en el comportamiento humano. Una aplicación de fitness es un gran ejemplo de HAR en acción. Al realizar un seguimiento de los pasos y las rutinas de ejercicio, demuestra cómo la IA puede monitorear las actividades diarias.

Al ver el potencial del HAR, muchas industrias han comenzado a adoptar esta tecnología. De hecho, se espera que el mercado de reconocimiento de acciones humanas alcance más de 12.56 mil millones de dólares para 2033.

Una parte importante de este progreso está impulsada por la visión artificial, una rama de la IA que permite a las máquinas analizar datos visuales, como imágenes y videos. Con la visión artificial y el reconocimiento de imágenes, el HAR ha pasado de ser un concepto de investigación a una parte práctica y apasionante de las aplicaciones de IA de vanguardia.

En este artículo, exploraremos qué es el HAR, los diferentes métodos utilizados para reconocer acciones humanas y cómo la visión artificial ayuda a responder a la pregunta: ¿Puede la IA detectar acciones humanas en aplicaciones del mundo real? ¡Comencemos!

Link to this section¿Qué es el reconocimiento de acciones humanas?#

El reconocimiento de acciones humanas hace posible que los sistemas informáticos comprendan actividades o acciones humanas mediante el análisis de los movimientos corporales. A diferencia de simplemente detectar a una persona en una imagen, el HAR puede ayudar a identificar qué está haciendo esa persona. Por ejemplo, distinguir entre caminar y correr, reconocer un saludo con la mano o notar cuando alguien se cae.

La base del HAR reside en los patrones de movimiento y postura. Un ligero cambio en cómo se posicionan los brazos o las piernas de una persona puede indicar una variedad de acciones. Al capturar e interpretar estos detalles sutiles, los sistemas HAR pueden obtener información significativa de los movimientos corporales.

Para lograr esto, el reconocimiento de acciones humanas combina múltiples tecnologías como el aprendizaje automático, modelos de aprendizaje profundo, visión artificial y procesamiento de imágenes, las cuales trabajan juntas para analizar los movimientos corporales e interpretar las acciones humanas con mayor precisión.

El reconocimiento de actividades humanas abarca diferentes ramas de la informática

Fig 1. El reconocimiento de actividades humanas involucra diferentes ramas de la informática (Fuente: cell.com)

Los sistemas HAR anteriores eran mucho más limitados. Solo podían manejar unas pocas acciones simples y repetitivas en entornos controlados y, a menudo, tenían dificultades en situaciones del mundo real.

Hoy en día, gracias a la IA y a las grandes cantidades de datos de video, el HAR ha avanzado significativamente tanto en precisión como en robustez. Los sistemas modernos pueden reconocer una amplia gama de actividades con mucha mayor exactitud, lo que hace que la tecnología sea práctica para áreas como la atención médica, la seguridad y los dispositivos interactivos.

Link to this sectionDiferentes métodos para detectar acciones humanas#

Ahora que entendemos mejor qué es el reconocimiento de acciones humanas, echemos un vistazo a las diferentes formas en que las máquinas pueden detectar las acciones humanas.

Estos son algunos de los métodos comunes:

  • Métodos basados en sensores: Los dispositivos inteligentes como acelerómetros, dispositivos portátiles y teléfonos inteligentes pueden capturar señales directamente del cuerpo humano. Pueden mostrar patrones de movimiento como caminar, correr o incluso permanecer quieto. Un contador de pasos en un reloj inteligente es un gran ejemplo de este método.
  • Métodos basados en visión: Las cámaras combinadas con la visión artificial analizan imágenes y videos para realizar un seguimiento de cómo se ve y se mueve el cuerpo cuadro a cuadro. Esto permite reconocer actividades más complejas. Los televisores o sistemas de juego controlados por gestos dependen de este método.
  • Métodos multimodales: Es una combinación de sensores y cámaras que crea un sistema más confiable, ya que una fuente puede confirmar lo que detecta la otra. Por ejemplo, un dispositivo portátil puede registrar el movimiento mientras una cámara verifica la postura, una configuración que se utiliza a menudo en la detección de caídas para el cuidado de personas mayores.

Link to this sectionEl papel de los conjuntos de datos en el reconocimiento de actividades humanas#

Para cualquier modelo o sistema de HAR, los conjuntos de datos son el punto de partida. Un conjunto de datos de HAR es una colección de ejemplos, como videoclips, imágenes o datos de sensores, que capturan acciones como caminar, sentarse o saludar. Estos ejemplos se utilizan para entrenar modelos de IA para reconocer patrones en el movimiento humano, los cuales pueden aplicarse en situaciones de la vida real.

La calidad de los datos de entrenamiento afecta directamente el rendimiento del modelo. Los datos limpios y coherentes facilitan que el sistema reconozca las acciones con precisión.

Es por eso que los conjuntos de datos a menudo se preprocesan antes del entrenamiento. Un paso común es la normalización, que escala los valores de manera consistente para reducir errores y evitar el sobreajuste (cuando un modelo funciona bien con los datos de entrenamiento pero tiene dificultades con datos nuevos).

Para medir el rendimiento de los modelos más allá del entrenamiento, los investigadores se basan en métricas de evaluación y conjuntos de datos de referencia que permiten pruebas y comparaciones justas. Colecciones populares como UCF101, HMDB51 y Kinetics incluyen miles de videoclips etiquetados para la detección de acciones humanas. En cuanto a los sensores, los conjuntos de datos recopilados de teléfonos inteligentes y dispositivos portátiles proporcionan señales de movimiento valiosas que hacen que los modelos de reconocimiento sean más robustos en diferentes entornos.

Un vistazo a un conjunto de datos de reconocimiento de actividades humanas

Fig 2. Un vistazo a un conjunto de datos de reconocimiento de actividades humanas. (Fuente)

Link to this sectionCómo ayuda la visión artificial al reconocimiento de actividades humanas#

De las diferentes formas de detectar acciones humanas, la visión artificial se ha convertido rápidamente en una de las más populares y estudiadas. Su ventaja clave es que puede extraer detalles ricos directamente de imágenes y videos. Al observar los píxeles cuadro a cuadro y analizar los patrones de movimiento, puede reconocer actividades en tiempo real sin necesidad de que las personas lleven dispositivos adicionales.

El progreso reciente en el aprendizaje profundo, especialmente en las redes neuronales convolucionales (CNN), que están diseñadas para analizar imágenes, ha hecho que la visión artificial sea más rápida, más precisa y más confiable.

Por ejemplo, los modelos de visión artificial de vanguardia más utilizados, como Ultralytics YOLO11, se basan en estos avances. YOLO11 admite tareas como la detección de objetos, la segmentación de instancias, el seguimiento de personas a través de cuadros de video y la estimación de poses humanas, lo que lo convierte en una gran herramienta para el reconocimiento de actividades humanas.

Link to this sectionUna visión general de Ultralytics YOLO11#

Ultralytics YOLO11 es un modelo de IA de visión diseñado tanto para la velocidad como para la precisión. Admite tareas principales de visión artificial como la detección de objetos, el seguimiento de objetos y la estimación de poses. Estas capacidades son especialmente útiles para el reconocimiento de actividades humanas.

La detección de objetos identifica y localiza a las personas en una escena, el seguimiento sigue sus movimientos a través de cuadros de video para reconocer secuencias de acción, y la estimación de poses mapea las articulaciones clave del cuerpo humano para distinguir entre actividades similares o detectar cambios repentinos como una caída.

Por ejemplo, la información obtenida del modelo puede utilizarse para distinguir entre alguien que está sentado tranquilamente, luego se pone de pie y finalmente levanta los brazos para vitorear. Estas acciones cotidianas simples pueden parecer similares a primera vista, pero tienen significados muy diferentes cuando se analizan en una secuencia.

Uso de Ultralytics YOLO11 para estimación de pose

Fig 3. Uso de Ultralytics YOLO11 para la estimación de poses. (Fuente)

Link to this sectionAplicaciones en el mundo real de la visión artificial y el HAR#

A continuación, echemos un vistazo más de cerca a cómo el reconocimiento de actividades humanas potenciado por la visión artificial se aplica en casos de uso del mundo real que afectan nuestra vida diaria.

Link to this sectionAtención médica y bienestar#

En la atención médica, pequeños cambios en el movimiento pueden proporcionar información útil sobre la condición de una persona. Por ejemplo, un tropiezo de un paciente mayor o el ángulo de una extremidad durante la rehabilitación pueden revelar riesgos o progresos. Estas señales a menudo son fáciles de pasar por alto mediante medios tradicionales, como los chequeos médicos.

YOLO11 puede ayudar utilizando la estimación de poses y el análisis de imágenes para monitorear a los pacientes en tiempo real. Se puede usar para detectar caídas, realizar un seguimiento de los ejercicios de recuperación y observar actividades diarias como caminar o estirarse. Debido a que funciona mediante análisis visual sin necesidad de sensores o dispositivos portátiles, ofrece una forma sencilla de recopilar información precisa que respalda la atención al paciente.

Seguimiento de movimientos corporales mediante estimación de pose con YOLO11

Fig 4. Seguimiento de movimientos corporales utilizando el soporte de YOLO11 para la estimación de poses. (Fuente)

Link to this sectionSeguridad y vigilancia#

Los sistemas de seguridad dependen de la detección rápida de actividades humanas inusuales, como alguien merodeando, corriendo en un área restringida o mostrando agresividad repentina. Estas señales suelen perderse en entornos concurridos donde los guardias de seguridad no pueden observar todo manualmente. Ahí es donde entran en juego la visión artificial y YOLO11.

YOLO11 facilita el monitoreo de seguridad al potenciar la videovigilancia en tiempo real que puede detectar movimientos sospechosos y enviar alertas instantáneas. Apoya la seguridad de las multitudes en espacios públicos y fortalece la detección de intrusiones en áreas privadas.

Con este enfoque, los guardias de seguridad pueden trabajar junto a los sistemas de visión artificial, creando una interacción y asociación humano-computadora que permite respuestas más rápidas y oportunas ante actividades sospechosas.

Link to this sectionPros y contras de utilizar la visión artificial para HAR#

Estas son algunas de las ventajas de usar la visión artificial para el reconocimiento de actividades humanas:

  • Escalabilidad: Una vez configurado, el mismo sistema de reconocimiento puede monitorear automáticamente a varias personas a la vez, lo que lo hace útil para la automatización en centros de salud, fábricas y espacios públicos.
  • Procesamiento en tiempo real: Las soluciones de IA de visión pueden utilizarse para analizar flujos de video a medida que ocurren, permitiendo respuestas más rápidas.
  • Seguimiento no invasivo: A diferencia de los dispositivos portátiles o sensores, no requiere que las personas lleven dispositivos, lo que permite un análisis del comportamiento natural y sin esfuerzo.

Aunque existen muchos beneficios al usar la visión artificial para HAR, también hay limitaciones que considerar. Aquí hay algunos factores a tener en cuenta:

  • Preocupaciones de privacidad: El monitoreo basado en video puede plantear problemas en torno a la protección de datos y el consentimiento, especialmente en entornos sensibles como hogares o lugares de trabajo.
  • Sesgo potencial: Si los conjuntos de datos de entrenamiento carecen de diversidad, los algoritmos pueden malinterpretar las acciones de ciertos grupos de personas, lo que conduce a resultados injustos o inexactos.
  • Sensibilidad ambiental: La precisión puede disminuir debido a una iluminación deficiente, al desorden del fondo o a personas parcialmente ocultas, lo que significa que los sistemas deben diseñarse cuidadosamente.

Link to this sectionConclusiones clave#

La inteligencia artificial y la visión artificial están haciendo posible que las máquinas reconozcan las acciones humanas con mayor precisión y en tiempo real. Al analizar los cuadros de video y los patrones de movimiento, estos sistemas pueden identificar tanto gestos cotidianos como cambios repentinos. A medida que la tecnología continúa mejorando, el reconocimiento de actividades humanas está dejando atrás los laboratorios de investigación y convirtiéndose en una herramienta práctica para la atención médica, la seguridad y las aplicaciones cotidianas.

Explora más sobre la IA visitando nuestro repositorio de GitHub y uniéndote a nuestra comunidad. Echa un vistazo a nuestras páginas de soluciones para conocer sobre IA en robótica y visión artificial en la fabricación. Descubre nuestras opciones de licencia para comenzar con la IA de visión.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático