Yolo Vision Shenzhen
Shenzhen
Únete ahora

¿Qué es la estimación de poses y dónde se puede utilizar?

Abirami Vina

5 minutos de lectura

7 de mayo de 2025

Descubra cómo funciona la estimación de pose, sus aplicaciones en el mundo real y cómo los modelos como Ultralytics YOLO11 permiten a las máquinas interpretar el movimiento y la postura del cuerpo.

Cuando ves a alguien encorvado o de pie con los hombros hacia atrás, está inmediatamente claro si tiene una postura mala o segura. Nadie necesita explicártelo. Esto se debe a que, con el tiempo, hemos aprendido de forma natural a interpretar el lenguaje corporal. 

A través de la experiencia y la observación, nuestros cerebros se han vuelto muy buenos en el reconocimiento de la postura de varios objetos, incluidos los humanos. Gracias a los recientes avances en inteligencia artificial (IA) y visión artificial, un campo que permite a las máquinas interpretar la información visual del mundo, las máquinas ahora están comenzando a aprender y replicar esta capacidad también.

La estimación de pose es una tarea de visión artificial que ayuda a las máquinas a determinar la posición y la orientación de una persona u objeto observando imágenes o vídeos. Lo hace identificando puntos clave en el cuerpo, como articulaciones y extremidades, para comprender cómo se mueve alguien, o incluso algo. 

Esta tecnología se está utilizando ampliamente en campos como el fitness, la salud y la animación. En entornos laborales, por ejemplo, se puede utilizar para monitorizar la postura de los empleados y apoyar iniciativas de seguridad y bienestar. Los modelos de visión artificial como Ultralytics YOLO11 lo hacen posible al estimar las poses humanas en tiempo real.

Fig. 1. Un ejemplo del uso de YOLO11 para monitorizar la postura de los trabajadores.

En este artículo, analizaremos más de cerca la estimación de la pose y cómo funciona, junto con los casos de uso en el mundo real donde está marcando la diferencia. ¡Empecemos!

La evolución de la estimación de pose

La investigación sobre la estimación de la pose comenzó a finales de los años 60 y 70. A lo largo de los años, los enfoques para esta tarea de visión artificial han pasado de las matemáticas básicas y la geometría a métodos más avanzados impulsados por la inteligencia artificial.

Inicialmente, las técnicas dependían de ángulos de cámara fijos y puntos de referencia conocidos. Más tarde, evolucionaron para incluir modelos 3D y la correspondencia de características. Hoy en día, los modelos de aprendizaje profundo como YOLO11 pueden detectar posiciones corporales en tiempo real a partir de imágenes o vídeo, lo que hace que la estimación de la pose sea más rápida y precisa que nunca.

A medida que la tecnología mejoraba, los investigadores vieron las posibles aplicaciones de poder monitorear y rastrear las poses de varios objetos, especialmente humanos y animales. La estimación de la pose es especialmente importante porque permite a las herramientas de IA comprender y medir la postura y el movimiento de formas que antes no eran posibles. 

Por ejemplo, permite a los ordenadores reconocer gestos para la interacción manos libres, analiza los movimientos de los atletas para mejorar el rendimiento, potencia animaciones realistas en videojuegos e incluso apoya la atención médica mediante el seguimiento del progreso de recuperación de los pacientes.

¿En qué se diferencia de otras tareas de visión artificial?

La estimación de pose es diferente de otras tareas de visión artificial como la detección de objetos y la segmentación de instancias. Estas tareas se centran principalmente en identificar y localizar objetos dentro de una imagen. 

La detección de objetos, por ejemplo, dibuja cuadros delimitadores alrededor de elementos como personas, vehículos o animales para indicar su presencia y posición. La segmentación de instancias lleva esto un paso más allá al delinear la forma precisa de cada objeto a nivel de píxel.

Sin embargo, ambos métodos se centran principalmente en qué es el objeto y dónde está; no proporcionan ninguna información sobre cómo está posicionado el objeto o qué podría estar haciendo. Ahí es donde la estimación de la pose se vuelve crucial. 

Al identificar puntos clave en el cuerpo, como codos, rodillas o incluso una cola, la estimación de la pose puede interpretar la postura y el movimiento. Esto permite una comprensión más profunda de las acciones, los gestos y la dinámica corporal, incluido el movimiento en el espacio 3D.

Comprensión de cómo funciona la estimación de la pose

Los modelos de estimación de pose generalmente siguen dos enfoques principales: ascendente (bottom-up) y descendente (top-down). En el enfoque ascendente, el modelo primero detecta puntos clave individuales, como codos, rodillas u hombros, y luego los agrupa para determinar a qué persona u objeto pertenecen. En contraste, el enfoque descendente comienza detectando cada objeto primero (como una persona en la imagen) y luego localiza los puntos clave para ese objeto específico.

Fig. 2. Métodos de estimación de pose ascendentes (bottom-up) frente a descendentes (top-down).

Algunos modelos más recientes, como YOLO11, combinan las ventajas de ambos enfoques. Mantiene la eficiencia del método ascendente al omitir el paso de agrupación manual, a la vez que aprovecha la precisión de los sistemas descendentes al detectar personas y estimar sus poses a la vez, en un único proceso optimizado.

Entrenamiento personalizado de YOLO11 para la estimación de pose

A medida que explicamos cómo funcionan los modelos de estimación de pose, puede que se pregunte: ¿cómo aprenden realmente estos modelos a estimar la pose de diferentes objetos? Ahí es donde entra en juego la idea del entrenamiento personalizado.

El entrenamiento personalizado implica enseñar a un modelo a reconocer puntos clave específicos utilizando sus propios datos. Dado que la construcción de un modelo desde cero requiere una gran cantidad de imágenes etiquetadas y un tiempo considerable, muchas personas optan por el aprendizaje por transferencia. Esto implica comenzar con un modelo que ya ha sido entrenado en un gran conjunto de datos, como el modelo de estimación de pose YOLO11, que está pre-entrenado en el conjunto de datos COCO-Pose, y luego ajustarlo con sus propios datos para una tarea o caso de uso específico.

Digamos que está trabajando con posturas de yoga: puede ajustar YOLO11 utilizando imágenes donde cada postura está etiquetada con puntos clave específicos de esa actividad. Para hacer esto, necesitará un conjunto de datos personalizado de imágenes anotadas del que el modelo pueda aprender. 

Durante el entrenamiento, puede ajustar parámetros como el tamaño del lote (el número de imágenes procesadas a la vez), la tasa de aprendizaje (la rapidez con la que el modelo actualiza su aprendizaje) y las épocas (el número de veces que el modelo recorre el conjunto de datos) para mejorar la precisión. Esto facilita la creación de modelos de estimación de poses adaptados a sus necesidades específicas.

Aplicaciones en el mundo real de la estimación de la pose

Ahora que hemos analizado qué es la estimación de pose y cómo funciona, analicemos más de cerca algunos de sus casos de uso en el mundo real.

Uso de la estimación de la pose para la fisioterapia 

La estimación de pose se está convirtiendo gradualmente en una herramienta fiable en la industria de la salud, especialmente en la fisioterapia. Utilizando IA y visión artificial, estos sistemas pueden rastrear la postura y los movimientos en tiempo real y proporcionar retroalimentación, similar a la que ofrecería un fisioterapeuta. 

Por ejemplo, un paciente que se recupera de una cirugía de rodilla puede utilizar un sistema de estimación de la pose para asegurarse de que está haciendo sus ejercicios de rehabilitación correctamente. El sistema puede detectar cualquier movimiento incorrecto y ofrecer sugerencias de mejora, ayudando al paciente a mantenerse en el camino correcto y evitar lesiones.

Fig. 3. Un ejemplo del uso de YOLO11 para fisioterapia.

Más allá de la rehabilitación, la estimación de la pose también se está abriendo camino en las aplicaciones de fitness. Por ejemplo, alguien que se ejercita en casa puede usar la aplicación para verificar su forma durante los ejercicios. La aplicación puede dar retroalimentación en tiempo real, como ajustar el ángulo de una sentadilla o asegurarse de que su espalda esté recta durante un peso muerto. Esto ayuda a los usuarios a mejorar su forma y prevenir lesiones sin necesidad de un entrenador.

Captura de movimiento para entretenimiento habilitada por la estimación de la pose

La estimación de la pose ha cambiado la forma en que funciona la captura de movimiento en el entretenimiento, haciéndola más sencilla y accesible. En el pasado, la captura de movimiento requería colocar marcadores en el cuerpo de una persona y rastrearlos con cámaras especiales, lo que podía ser complicado y costoso. 

Ahora, con los avances en IA y visión artificial, podemos utilizar cámaras y algoritmos normales para rastrear los movimientos del cuerpo sin necesidad de marcadores, lo que hace que el proceso sea más eficiente y preciso, incluso en tiempo real.

Un gran ejemplo de esto es AR (Realidad Aumentada) Poser de Disney. Esta divertida herramienta te permite tomar una foto con tu teléfono y hacer que un personaje digital copie tu pose en realidad aumentada. Funciona analizando tu pose en la imagen y haciéndola coincidir con un personaje 3D, creando un selfie AR divertido y personalizado. 

Fig 4. Un personaje de RA imita la pose de una persona mediante la estimación de la pose.

Investigación del comportamiento social impulsada por la estimación de la pose animal

Estudiar el comportamiento animal ayuda a los científicos a comprender cómo se comunican los animales, cómo encuentran pareja, cómo cuidan a sus crías y cómo viven en grupo. Este conocimiento es vital para proteger la vida silvestre y obtener una comprensión más profunda del mundo natural.

La estimación de pose simplifica este proceso mediante el seguimiento de los movimientos de los animales y la postura utilizando imágenes y vídeos, sin necesidad de colocar sensores o etiquetas a los animales. Estos sistemas pueden supervisar automáticamente sus poses, proporcionando información sobre comportamientos como el aseo, el juego o la lucha. 

Un ejemplo interesante es el de los científicos que utilizan la estimación de poses para estudiar el comportamiento de los simios. De hecho, los investigadores han recopilado conjuntos de datos como OpenApePose, que contiene más de 71.000 imágenes etiquetadas de seis especies de simios. 

Fig 5. Estimación de la pose de un simio.

Pros y contras de la estimación de la pose

Estos son algunos de los principales beneficios que la estimación de la pose puede aportar a diversas industrias:

  • Escalabilidad: Los sistemas de estimación de pose pueden implementarse en una amplia gama de dispositivos, desde teléfonos inteligentes hasta configuraciones de cámara avanzadas, lo que los hace altamente escalables y accesibles para diferentes casos de uso y entornos.

  • Rentable: Dado que la estimación de la pose se basa en cámaras normales y no requiere sensores o etiquetas costosos, puede ser una solución más rentable para rastrear el movimiento tanto en aplicaciones de investigación como comerciales.

  • Monitoreo continuo: Los sistemas de estimación de la pose pueden proporcionar un seguimiento continuo y en tiempo real, lo que permite monitorear los cambios a lo largo del tiempo, ya sea para el progreso del paciente en la rehabilitación o para el seguimiento del comportamiento animal en la naturaleza.

Si bien las ventajas de la estimación de la pose son claras en varios campos, también hay algunos desafíos a tener en cuenta. Estas son algunas de las limitaciones clave que hay que tener en cuenta:

  • Generalización limitada: Muchos modelos entrenados con conjuntos de datos humanos no se generalizan bien a los animales o a las estructuras corporales poco comunes sin volver a entrenar con conjuntos de datos específicos.

  • Limitaciones ambientales: El rendimiento puede degradarse con poca luz, desenfoque de movimiento rápido o fondos desordenados.
  • Alta sensibilidad a la oclusión: La precisión puede disminuir cuando las partes del cuerpo están bloqueadas o fuera del encuadre, especialmente en escenas concurridas o en el seguimiento de varias personas.

Conclusiones clave

La estimación de la pose ha recorrido un largo camino desde sus inicios, evolucionando desde sistemas que utilizaban marcadores hasta herramientas impactantes impulsadas por modelos de aprendizaje profundo como YOLO11. Ya sea para mejorar la fisioterapia, potenciar las experiencias interactivas de RA o ayudar en la investigación de la vida silvestre, la estimación de la pose está cambiando la forma en que las máquinas entienden el movimiento y la postura. A medida que la tecnología sigue avanzando, abordar sus limitaciones será clave para desbloquear aún más usos prácticos y hacer que las máquinas sean mejores para entender cómo nos movemos nosotros y otros seres vivos.

¿Tiene curiosidad por la IA? Explore nuestro repositorio de GitHub, conéctese con nuestra comunidad y consulte nuestras opciones de licencia para impulsar su proyecto de visión artificial. Obtenga más información sobre innovaciones como la IA en el comercio minorista y la visión artificial en la industria de la logística en nuestras páginas de soluciones.

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Comienza gratis
Enlace copiado al portapapeles