Cheque verde
Enlace copiado en el portapapeles

¿Qué es la estimación de la pose y dónde puede utilizarse?

Aprende cómo funciona la estimación de la postura, sus aplicaciones en el mundo real y cómo modelos como Ultralytics YOLO11 permiten a las máquinas interpretar el movimiento corporal y la postura.

Cuando ves a alguien encorvado o erguido con los hombros hacia atrás, enseguida sabes si tiene una postura mala o segura. No hace falta que nadie te lo explique. Eso se debe a que, con el tiempo, hemos aprendido de forma natural a interpretar el lenguaje corporal. 

A través de la experiencia y la observación, nuestros cerebros se han vuelto muy buenos para reconocer la postura de diversos objetos, incluidos los humanos. Gracias a los recientes avances en inteligencia artificial (IA) y visión por ordenador, un campo que permite a las máquinas interpretar la información visual del mundo, las máquinas están empezando a aprender y replicar también esta capacidad.

La estimación de la pose es una tarea de visión por ordenador que ayuda a las máquinas a averiguar la posición y orientación de una persona u objeto observando imágenes o vídeos. Lo hace identificando puntos clave del cuerpo, como articulaciones y extremidades, para comprender cómo se mueve alguien, o incluso algo. 

Esta tecnología se está utilizando ampliamente en campos como el fitness, la sanidad y la animación. En entornos laborales, por ejemplo, puede utilizarse para controlar la postura de los empleados y apoyar iniciativas de seguridad y bienestar. Los modelos de visión por ordenador como Ultralytics YOLO11 lo hacen posible estimando las posturas humanas en tiempo real.

Fig. 1. Ejemplo de utilización de YOLO11 para controlar la postura de los trabajadores.

En este artículo, veremos más de cerca la estimación de la pose y cómo funciona, junto con casos de uso reales en los que marca la diferencia. ¡Empecemos ya!

La evolución de la estimación de la postura

La investigación sobre la estimación de la pose comenzó a finales de los años 60 y 70. A lo largo de los años, los enfoques de esta tarea de visión por ordenador han pasado de las matemáticas y la geometría básicas a métodos más avanzados impulsados por la inteligencia artificial.

Al principio, las técnicas dependían de ángulos de cámara fijos y puntos de referencia conocidos. Más tarde, evolucionaron para incluir modelos 3D y coincidencia de características. Hoy en día, los modelos de aprendizaje profundo como YOLO11 pueden detectar posiciones corporales en tiempo real a partir de imágenes o vídeo, haciendo que la estimación de la pose sea más rápida y precisa que nunca.

A medida que mejoraba la tecnología, los investigadores vieron las aplicaciones potenciales de poder controlar y seguir las posturas de diversos objetos, sobre todo humanos y animales. La estimación de la postura es especialmente importante porque permite a las herramientas de IA comprender y medir la postura y el movimiento de formas que antes no eran posibles. 

Por ejemplo, permite que los ordenadores reconozcan gestos para interactuar con manos libres, analiza los movimientos de los atletas para mejorar su rendimiento, impulsa animaciones realistas en los videojuegos e incluso ayuda en la asistencia sanitaria haciendo un seguimiento del progreso de recuperación de los pacientes.

¿En qué se diferencia de otras tareas de visión artificial?

La estimación de la pose es diferente de otras tareas de visión por ordenador, como la detección de objetos y la segmentación de instancias. Estas tareas se centran principalmente en identificar y localizar objetos dentro de una imagen. 

La detección de objetos, por ejemplo, dibuja cuadros delimitadores alrededor de elementos como personas, vehículos o animales para indicar su presencia y posición. La segmentación de instancias lleva esto un paso más allá, delineando la forma precisa de cada objeto a nivel de píxel.

Sin embargo, ambos métodos se ocupan principalmente de lo que es el objeto y de dónde está: no proporcionan ninguna información sobre cómo está colocado el objeto o qué puede estar haciendo. Ahí es donde la estimación de la pose resulta crucial. 

Al identificar puntos clave del cuerpo, como los codos, las rodillas o incluso la cola, la estimación de la pose puede interpretar la postura y el movimiento. Esto permite una comprensión más profunda de las acciones, los gestos y la dinámica corporal, incluido el movimiento en el espacio 3D.

Comprender cómo funciona la estimación de la pose

Los modelos de estimación de la pose suelen seguir dos enfoques principales: ascendente y descendente. En el enfoque ascendente, el modelo detecta primero puntos clave individuales, como codos, rodillas u hombros, y luego los agrupa para averiguar a qué persona u objeto pertenecen. En cambio, el enfoque descendente empieza detectando primero cada objeto (como una persona en la imagen) y luego localiza los puntos clave de ese objeto concreto.

Fig. 2. Métodos de estimación de la pose ascendente frente a descendente.

Algunos modelos más recientes, como YOLO11, combinan las ventajas de ambos enfoques. Mantiene la eficacia del método ascendente al omitir el paso de agrupación manual, al tiempo que aprovecha la precisión de los sistemas descendentes al detectar a las personas y estimar sus poses a la vez, en un único proceso racionalizado.

Entrenamiento personalizado YOLO11 para la estimación de la pose

Mientras repasamos cómo funcionan los modelos de estimación de la pose, puede que te preguntes: ¿cómo aprenden realmente estos modelos a estimar la pose de distintos objetos? Ahí es donde entra en escena la idea del entrenamiento personalizado.

El entrenamiento personalizado consiste en enseñar a un modelo a reconocer puntos clave específicos utilizando tus propios datos. Como construir un modelo desde cero requiere una gran cantidad de imágenes etiquetadas y mucho tiempo, mucha gente opta por el aprendizaje por transferencia. Esto implica empezar con un modelo que ya ha sido entrenado en un gran conjunto de datos, como el modelo de estimación de la pose YOLO11 , que está preentrenado en el conjunto de datos COCO-Pose, y luego perfeccionarlo con tus propios datos para una tarea o caso de uso específicos.

Digamos que trabajas con posturas de yoga: puedes afinar YOLO11 utilizando imágenes en las que cada postura esté etiquetada con puntos clave específicos de esa actividad. Para ello, necesitarás un conjunto de datos personalizado de imágenes anotadas de las que el modelo pueda aprender. 

Durante el entrenamiento, puedes ajustar parámetros como el tamaño del lote (el número de imágenes procesadas a la vez), la tasa de aprendizaje (la rapidez con que el modelo actualiza su aprendizaje) y las épocas (cuántas veces el modelo recorre el conjunto de datos) para mejorar la precisión. Esto facilita mucho la construcción de modelos de estimación de la pose adaptados a tus necesidades específicas.

Aplicaciones reales de la estimación de la postura

Ahora que hemos hablado de qué es la estimación de la pose y cómo funciona, veamos más de cerca algunos de sus casos de uso en el mundo real.

Utilización de la estimación de la postura en fisioterapia 

La estimación de la postura se está convirtiendo gradualmente en una herramienta fiable en el sector sanitario, especialmente en fisioterapia. Utilizando IA y visión por ordenador, estos sistemas pueden realizar un seguimiento de la postura y los movimientos en tiempo real y proporcionar información, similar a la que ofrecería un fisioterapeuta. 

Por ejemplo, un paciente que se recupera de una operación de rodilla puede utilizar un sistema de estimación de posturas para asegurarse de que está haciendo correctamente sus ejercicios de rehabilitación. El sistema puede detectar cualquier movimiento incorrecto y ofrecer sugerencias para mejorarlo, ayudando al paciente a mantener el rumbo y evitar lesiones.

Fig. 3. Un ejemplo de utilización de YOLO11 para fisioterapia.

Más allá de la rehabilitación, la estimación de la postura también se está abriendo camino en las aplicaciones de fitness. Por ejemplo, alguien que haga ejercicio en casa puede utilizar la aplicación para comprobar su forma durante los ejercicios. La aplicación puede proporcionar información en tiempo real, como ajustar el ángulo de una sentadilla o asegurarse de que la espalda está recta durante un peso muerto. Esto ayuda a los usuarios a mejorar su forma y prevenir lesiones sin necesidad de un entrenador.

Captura de movimiento para entretenimiento mediante estimación de la postura

La estimación de poses ha cambiado la forma en que funciona la captura de movimientos en el entretenimiento, haciéndola más sencilla y accesible. Antes, la captura de movimiento requería colocar marcadores en el cuerpo de una persona y seguirlos con cámaras especiales, lo que podía resultar complicado y caro. 

Ahora, con los avances en IA y visión por ordenador, podemos utilizar cámaras normales y algoritmos para seguir los movimientos del cuerpo sin necesidad de marcadores, lo que hace que el proceso sea más eficaz y preciso, incluso en tiempo real.

Un gran ejemplo de ello es el Poser AR (Realidad Aumentada) de Disney. Esta divertida herramienta te permite hacer una foto con tu teléfono y hacer que un personaje digital copie tu pose en realidad aumentada. Funciona analizando tu pose en la foto y emparejándola con un personaje 3D, creando un divertido selfie AR personalizado. 

Fig. 4. Un personaje RA imita la pose de una persona utilizando la estimación de la pose.

La investigación del comportamiento social impulsada por la estimación de la pose animal

Estudiar el comportamiento animal ayuda a los científicos a comprender cómo se comunican los animales, encuentran pareja, cuidan de sus crías y viven en grupo. Este conocimiento es vital para proteger la vida salvaje y comprender mejor el mundo natural.

La estimación de la postura simplifica este proceso mediante el seguimiento de los movimientos y posturas de los animales utilizando imágenes y vídeos, sin necesidad de fijar sensores o etiquetas a los animales. Estos sistemas pueden controlar automáticamente sus posturas, proporcionando información sobre comportamientos como acicalarse, jugar o luchar. 

Un ejemplo interesante es el de los científicos que utilizan la estimación de poses para estudiar el comportamiento de los simios. De hecho, los investigadores han recopilado conjuntos de datos como OpenApePose, que contiene más de 71.000 imágenes etiquetadas de seis especies de simios. 

Fig. 5. Estimación de la pose del simio.

Pros y contras de la estimación de la postura

He aquí algunas de las principales ventajas que la estimación de pose puede aportar a diversas industrias:

  • Escalabilidad: Los sistemas de estimación de la pose pueden desplegarse en una amplia gama de dispositivos, desde teléfonos inteligentes hasta configuraciones avanzadas de cámaras, lo que los hace altamente escalables y accesibles para diferentes casos de uso y entornos.

  • Rentable: Como la estimación de la postura se basa en cámaras normales y no requiere sensores o etiquetas caros, puede ser una solución más rentable para seguir el movimiento tanto en aplicaciones de investigación como comerciales.

  • Seguimiento continuo: Los sistemas de estimación de la postura pueden proporcionar un seguimiento continuo en tiempo real, lo que permite controlar los cambios a lo largo del tiempo, ya sea para el progreso del paciente en rehabilitación o para seguir el comportamiento de los animales en la naturaleza.

Aunque las ventajas de la estimación de la pose son evidentes en diversos campos, también hay que tener en cuenta algunos retos. He aquí algunas limitaciones clave a tener en cuenta:

  • Generalización limitada: Muchos modelos entrenados en conjuntos de datos humanos no generalizan bien a animales o estructuras corporales poco comunes sin volver a entrenarse en conjuntos de datos específicos.

  • Limitaciones ambientales: El rendimiento puede degradarse con poca luz, desenfoque de movimiento rápido o fondos abarrotados.
  • Alta sensibilidad a la oclusión: La precisión puede disminuir cuando las partes del cuerpo están bloqueadas o fuera de cuadro, especialmente en escenas abarrotadas o en el seguimiento de varias personas.

Puntos clave

La estimación de la postura ha recorrido un largo camino desde sus inicios, evolucionando desde sistemas que utilizaban marcadores hasta herramientas impactantes impulsadas por modelos de aprendizaje profundo como YOLO11. Ya sea para mejorar la fisioterapia, impulsar experiencias interactivas de RA o ayudar en la investigación de la vida salvaje, la estimación de la postura está cambiando la forma en que las máquinas entienden el movimiento y la postura. A medida que la tecnología siga avanzando, abordar sus limitaciones será clave para desbloquear usos aún más prácticos y hacer que las máquinas comprendan mejor cómo nos movemos nosotros y otros seres vivos.

¿Tienes curiosidad por la IA? Explora nuestro repositorio de GitHub, conéctate con nuestra comunidad y consulta nuestras opciones de licencia para poner en marcha tu proyecto de visión por ordenador. Obtén más información sobre innovaciones como la IA en el comercio minorista y la visión por ordenador en el sector logístico en nuestras páginas de soluciones.

Logotipo de LinkedInLogotipo de TwitterLogotipo de FacebookSímbolo de enlace de copia

Leer más en esta categoría

¡Construyamos juntos el futuro
de la IA!

Comienza tu viaje con el futuro del aprendizaje automático