¿Qué es la estimación de pose y dónde puede utilizarse?
Aprende cómo funciona la estimación de pose, sus aplicaciones en el mundo real y cómo modelos como Ultralytics YOLO11 permiten a las máquinas interpretar el movimiento y la postura corporal.

Cuando ves a alguien encorvado o erguido con los hombros hacia atrás, queda claro de inmediato si tiene una postura deficiente o segura. Nadie tiene que explicártelo. Eso es porque, con el tiempo, hemos aprendido de forma natural a interpretar el lenguaje corporal.
A través de la experiencia y la observación, nuestros cerebros se han vuelto muy buenos reconociendo la postura de varios objetos, incluidos los humanos. Gracias a los avances recientes en inteligencia artificial (IA) y computer vision, un campo que permite a las máquinas interpretar información visual del mundo, las máquinas también están empezando a aprender y replicar esta capacidad.
Pose estimation es una tarea de computer vision que ayuda a las máquinas a determinar la posición y orientación de una persona u objeto observando imágenes o vídeos. Lo hace identificando puntos clave en el cuerpo, como articulaciones y extremidades, para entender cómo se mueve alguien, o incluso algo.
Esta tecnología se utiliza ampliamente en campos como el fitness, la sanidad y la animación. En entornos laborales, por ejemplo, puede utilizarse para supervisar la postura de los empleados y apoyar iniciativas de seguridad y bienestar. Modelos de computer vision como Ultralytics YOLO11 hacen esto posible estimando poses humanas en tiempo real.

Fig 1. Un ejemplo del uso de YOLO11 para supervisar la postura de los trabajadores.
En este artículo, analizaremos más de cerca la estimación de poses y cómo funciona, junto con casos de uso reales donde está marcando la diferencia. ¡Comencemos!
Link to this sectionLa evolución de la estimación de poses#
La investigación sobre la estimación de poses comenzó a finales de los años 60 y 70. Con el paso de los años, los enfoques hacia esta computer vision task han cambiado desde matemáticas y geometría básicas hasta métodos más avanzados impulsados por la inteligencia artificial.
Inicialmente, las técnicas dependían de ángulos de cámara fijos y puntos de referencia conocidos. Más tarde, evolucionaron para incluir modelos 3D y correspondencia de características. Hoy en día, los modelos de deep learning como YOLO11 pueden detectar posiciones corporales en tiempo real a partir de imágenes o vídeos, haciendo que la estimación de poses sea más rápida y precisa que nunca.
A medida que la tecnología mejoró, los investigadores vieron las aplicaciones potenciales de poder supervisar y rastrear las poses de varios objetos, especialmente humanos y animales. La estimación de poses es especialmente importante porque permite a las herramientas de IA entender y medir la postura y el movimiento de formas que antes no eran posibles.
Por ejemplo, permite a los ordenadores reconocer gestos para la interacción manos libres, analiza los movimientos de los atletas para mejorar el rendimiento, impulsa animaciones realistas en videojuegos e incluso apoya la atención sanitaria mediante el seguimiento del progreso de recuperación de los pacientes.
Link to this section¿En qué se diferencia de otras tareas de computer vision?#
La estimación de poses es diferente de otras tareas de computer vision como object detection e instance segmentation. Estas tareas se centran principalmente en identificar y localizar objetos dentro de una imagen.
La object detection, por ejemplo, dibuja cuadros delimitadores alrededor de elementos como personas, vehículos o animales para indicar su presencia y posición. Instance segmentation da un paso más allá al delinear la forma precisa de cada objeto a nivel de píxel.
Sin embargo, ambos métodos se preocupan principalmente de qué es el objeto y dónde está; no proporcionan información sobre cómo está posicionado el objeto o qué podría estar haciendo. Ahí es donde la estimación de poses se vuelve crucial.
Al identificar puntos clave en el cuerpo, como codos, rodillas o incluso una cola, la estimación de poses puede interpretar la postura y el movimiento. Esto permite una comprensión más profunda de acciones, gestos y dinámica corporal, incluido el movimiento en el espacio 3D.
Link to this sectionEntender cómo funciona la estimación de poses#
Pose estimation models generalmente siguen dos enfoques principales: bottom-up y top-down. En el enfoque bottom-up, el modelo detecta primero los puntos clave individuales, como codos, rodillas u hombros, y luego los agrupa para averiguar a qué persona u objeto pertenecen. Por el contrario, el enfoque top-down comienza detectando cada objeto primero (como una persona en la imagen) y luego localiza los puntos clave para ese objeto específico.

Fig 2. Métodos de estimación de poses bottom-up frente a top-down.
Algunos modelos más nuevos, como YOLO11, combinan los beneficios de ambos enfoques. Mantiene la eficiencia del método bottom-up al omitir el paso de agrupación manual, al tiempo que aprovecha la precisión de los sistemas top-down al detectar personas y estimar sus poses a la vez, en un proceso único y simplificado.
Link to this sectionEntrenamiento personalizado de YOLO11 para la estimación de poses#
Mientras analizamos cómo funcionan los modelos de estimación de poses, es posible que te preguntes: ¿cómo aprenden realmente estos modelos a estimar la pose de diferentes objetos? Ahí es donde entra en juego la idea del entrenamiento personalizado.
El entrenamiento personalizado significa enseñar a un modelo a reconocer puntos clave específicos usando tus propios datos. Dado que construir un modelo desde cero requiere una gran cantidad de imágenes etiquetadas y un tiempo considerable, muchas personas optan por el transfer learning. Esto implica comenzar con un modelo que ya ha sido entrenado en un conjunto de datos grande, como el modelo de estimación de poses de YOLO11, que está preentrenado en el COCO-Pose dataset, y luego ajustarlo (fine-tuning) con tus propios datos para una tarea o caso de uso específico.
Digamos que estás trabajando con poses de yoga; puedes ajustar YOLO11 usando imágenes donde cada pose esté etiquetada con puntos clave específicos para esa actividad. Para hacerlo, necesitarás un dataset personalizado de imágenes anotadas de las que el modelo pueda aprender.
Durante el entrenamiento, puedes ajustar parámetros como el batch size (el número de imágenes procesadas a la vez), el learning rate (la rapidez con la que el modelo actualiza su aprendizaje) y los epochs (cuántas veces el modelo recorre el dataset) para mejorar la precisión. Esto hace que sea mucho más fácil construir modelos de estimación de poses adaptados a tus necesidades específicas.
Link to this sectionAplicaciones reales de la estimación de poses#
Ahora que hemos hablado de qué es la estimación de poses y cómo funciona, analicemos más de cerca algunos de sus casos de uso reales.
Link to this sectionUso de la estimación de poses para fisioterapia#
La estimación de poses se está convirtiendo gradualmente en una herramienta fiable en el sector sanitario, especialmente en fisioterapia. Mediante el uso de IA y computer vision, estos sistemas pueden realizar un seguimiento de la postura y los movimientos en tiempo real y proporcionar comentarios, de forma similar a lo que ofrecería un fisioterapeuta.
Por ejemplo, un paciente que se recupera de una cirugía de rodilla puede usar un sistema de estimación de poses para asegurarse de que está realizando sus ejercicios de rehabilitación correctamente. El sistema puede detectar cualquier movimiento incorrecto y ofrecer sugerencias de mejora, ayudando al paciente a mantenerse en el camino correcto y evitar lesiones.

Fig 3. Un ejemplo del uso de YOLO11 para fisioterapia.
Más allá de la rehabilitación, la estimación de poses también se está abriendo camino en fitness apps. Por ejemplo, alguien que hace ejercicio en casa puede usar la aplicación para comprobar su postura durante los ejercicios. La aplicación puede proporcionar comentarios en tiempo real, como ajustar el ángulo de una sentadilla o asegurarse de que la espalda esté recta durante un peso muerto. Esto ayuda a los usuarios a mejorar su técnica y prevenir lesiones sin necesidad de un entrenador.
Link to this sectionCaptura de movimiento para el entretenimiento habilitada por la estimación de poses#
La estimación de poses ha cambiado la forma en que funciona la captura de movimiento en el entretenimiento, haciéndola más sencilla y accesible. En el pasado, la captura de movimiento requería colocar marcadores en el cuerpo de una persona y rastrearlos con cámaras especiales, lo que podía ser complicado y costoso.
Ahora, con los avances en IA y computer vision, podemos usar cameras normales y algoritmos para rastrear los movimientos corporales sin necesidad de marcadores, lo que hace que el proceso sea más eficiente y preciso, incluso en tiempo real.
Un gran ejemplo de esto es Disney's AR (Augmented Reality) Poser. Esta divertida herramienta te permite tomar una foto con tu teléfono y hacer que un personaje digital copie tu pose en realidad aumentada. Funciona analizando tu pose en la imagen y combinándola con un personaje 3D, creando un selfie AR divertido y personalizado.

Fig 4. Un personaje AR imita la pose de una persona usando estimación de poses.
Link to this sectionInvestigación del comportamiento social impulsada por la estimación de poses de animales#
Estudiar el comportamiento de los animales ayuda a los científicos a entender cómo se comunican, encuentran pareja, cuidan a sus crías y viven en grupo. Este conocimiento es vital para proteger la vida silvestre y obtener una comprensión más profunda del mundo natural.
La estimación de poses simplifica este proceso tracking animal mediante el seguimiento de sus movimientos y postura usando imágenes y vídeos, sin necesidad de colocar sensores o etiquetas a los animales. Estos sistemas pueden supervisar automáticamente sus poses, proporcionando información sobre comportamientos como el acicalamiento, el juego o la lucha.
Un ejemplo interesante de esto es el uso de la estimación de poses por parte de los científicos para estudiar el comportamiento de los simios. De hecho, los investigadores han recopilado datasets como OpenApePose, que contiene más de 71.000 imágenes etiquetadas de seis especies de simios.

Fig 5. Estimación de poses de simios.
Link to this sectionPros y contras de la estimación de poses#
Aquí tienes algunos de los beneficios clave que la estimación de poses puede aportar a diversos sectores:
- Scalability: Los sistemas de estimación de poses pueden implementarse en una amplia gama de dispositivos, desde smartphones hasta configuraciones de cámaras avanzadas, lo que los hace altamente escalables y accesibles para diferentes casos de uso y entornos.
- Rentable: Dado que la estimación de poses depende de cámaras normales y no requiere costosos sensores o etiquetas, puede ser una solución más rentable para rastrear el movimiento tanto en investigación como en aplicaciones comerciales.
- Supervisión continua: Los sistemas de estimación de poses pueden proporcionar un seguimiento continuo en tiempo real, permitiendo supervisar cambios a lo largo del tiempo, ya sea para el progreso del paciente en rehabilitación o el seguimiento del comportamiento animal en la naturaleza.
Aunque las ventajas de la estimación de poses son claras en diversos campos, también hay algunos desafíos a considerar. Aquí tienes algunas limitaciones clave que debes tener en cuenta:
-
Generalización limitada: Muchos modelos entrenados en datasets humanos no se generalizan bien a animales o estructuras corporales poco comunes sin un reentrenamiento en datasets específicos.
-
Limitaciones ambientales: El rendimiento puede disminuir con poca luz, desenfoque por movimiento rápido o fondos desordenados.
-
Alta sensibilidad a la oclusión: La precisión puede disminuir cuando las partes del cuerpo están bloqueadas o fuera de encuadre, especialmente en escenas concurridas o en el seguimiento de varias personas.
Link to this sectionConclusiones clave#
La estimación de poses ha avanzado mucho desde sus inicios, evolucionando de sistemas que usaban marcadores a herramientas impactantes impulsadas por modelos de deep learning como YOLO11. Ya sea mejorando la fisioterapia, impulsando experiencias interactivas de AR o ayudando en la investigación de la vida silvestre, la estimación de poses está cambiando la forma en que las máquinas entienden el movimiento y la postura. A medida que la tecnología sigue avanzando, abordar sus limitaciones será clave para desbloquear usos aún más prácticos y mejorar la capacidad de las máquinas para entender cómo nos movemos nosotros y otros seres vivos.
¿Sientes curiosidad por la IA? Explora nuestro GitHub repository, conecta con our community y consulta our licensing options para poner en marcha tu proyecto de computer vision. Aprende más sobre innovaciones como AI in retail y computer vision in the logistics en nuestras páginas de soluciones.






