La guía definitiva de herramientas de estimación de poses
Aprende cómo pueden utilizarse las herramientas de estimación de poses para detectar puntos clave del cuerpo en imágenes y vídeos, estimar poses en 2D y 3D, y potenciar diversas aplicaciones de IA de visión.

Como humanos, leemos el movimiento de forma instintiva. Cuando alguien se inclina hacia adelante, gira la cabeza o levanta un brazo, puedes deducir inmediatamente lo que está haciendo. Es una habilidad silenciosa, casi subconsciente, que da forma a cómo interactuamos con las personas y exploramos el mundo.
A medida que la tecnología se convierte en una parte más importante de nuestra vida diaria, es natural querer que nuestros dispositivos entiendan el movimiento con la misma fluidez que nosotros. Los avances recientes en inteligencia artificial, especialmente los basados en el aprendizaje profundo, lo hacen posible. En particular, la visión artificial ayuda a las máquinas a extraer significado de imágenes y vídeos, y es lo que impulsa este progreso.
Por ejemplo, la estimación de poses es una tarea común de visión artificial que predice la ubicación de puntos clave corporales predefinidos (como hombros, codos, caderas y rodillas) en una imagen o un fotograma de vídeo. Estos puntos clave se pueden conectar mediante una definición de esqueleto fija para formar una representación simplificada de la pose.
Modelos de visión artificial como Ultralytics YOLO11 y el próximo Ultralytics YOLO26 admiten tareas como la estimación de poses y se pueden usar para potenciar aplicaciones en tiempo real, incluyendo la corrección de forma en el deporte y el ejercicio físico, la supervisión de la seguridad y experiencias interactivas de realidad aumentada.

Fig 1. Un vistazo al uso de Ultralytics YOLO11 para la estimación de poses (Fuente)
En este artículo, analizaremos a fondo las herramientas de estimación de poses y veremos cómo funciona, dónde se utiliza y algunos de los mejores modelos y bibliotecas disponibles en la actualidad. ¡Comencemos!
Link to this section¿Qué es la estimación de poses?#
La estimación de poses es una técnica de visión artificial que ayuda a un sistema a comprender cómo está posicionado una persona o un objeto en una imagen o vídeo. En lugar de analizar cada píxel por igual, predice un conjunto de puntos de referencia coherentes, como la cabeza, los hombros, los codos, las caderas, las rodillas y los tobillos.
La mayoría de los modelos arrojan las coordenadas de estos puntos clave y una puntuación que refleja la probabilidad de que cada predicción sea correcta. Luego, estos puntos clave se pueden conectar mediante una disposición de esqueleto predefinida para formar una representación de pose simple.
Cuando se aplica fotograma a fotograma en vídeos, los puntos clave resultantes se pueden asociar a lo largo del tiempo para estimar el movimiento. Esto permite aplicaciones como la comprobación de la técnica, el análisis de movimiento y la interacción basada en gestos.

Fig 2. Un ejemplo de estimación de poses (Fuente)
Link to this sectionLa necesidad de herramientas de estimación de poses#
El movimiento humano transporta mucha información. La forma en que alguien se inclina, se estira o desplaza su peso puede revelar intenciones, esfuerzo, fatiga o incluso riesgo de lesiones. Hasta hace poco, capturar ese nivel de detalle requería normalmente sensores especializados, trajes de captura de movimiento o entornos de laboratorio controlados.
La estimación de poses cambia eso. La extracción de puntos clave corporales a partir de imágenes y vídeos normales permite a los ordenadores analizar el movimiento mediante cámaras estándar. Esto hace que el análisis del movimiento sea más accesible, escalable y práctico para su uso en entornos reales.
Aquí tienes algunas formas en las que la estimación de poses puede generar un impacto:
- Lugares de trabajo más seguros: los sistemas basados en visión se pueden utilizar para detectar posturas de riesgo, esfuerzos repetitivos o técnicas de levantamiento inseguras antes de que ocurran lesiones.
- Mejor entrenamiento físico y deportivo: las soluciones de IA visual pueden evaluar la forma, el equilibrio y la técnica en tiempo real, brindando a los usuarios información inmediata sin necesidad de dispositivos vestibles.
- Sanidad y rehabilitación: los médicos pueden realizar un seguimiento remoto del progreso de la recuperación, la postura y el rango de movimiento utilizando grabaciones de vídeo sencillas.
- Experiencias interactivas: la estimación de poses facilita que los avatares digitales y los entornos inmersivos sigan y reflejen el movimiento humano con precisión.
Link to this sectionLa evolución de los algoritmos de estimación de poses#
La idea de estimar poses ha existido durante muchos años. Los primeros enfoques utilizaban modelos geométricos simples y reglas creadas manualmente, y normalmente solo funcionaban en condiciones controladas.
Por ejemplo, un sistema podría funcionar bien cuando una persona permanece quieta en una posición fija, pero fallar cuando comienza a caminar, girar o interactuar con objetos en escenas del mundo real. Estos métodos a menudo tenían dificultades con el movimiento natural, los cambios de ángulo de cámara, los fondos complejos y la oclusión parcial.
La estimación de poses moderna depende del aprendizaje profundo para afrontar estos retos. Al entrenar redes neuronales convolucionales con grandes conjuntos de datos etiquetados, los modelos aprenden patrones visuales que les ayudan a detectar puntos clave de forma más fiable en diferentes poses, personas y entornos.
Con más ejemplos, el modelo mejora sus predicciones y se vuelve más capaz de generalizar a nuevas escenas. Gracias a este progreso, la estimación de poses admite ahora una amplia gama de casos de uso prácticos, como la supervisión ergonómica en el lugar de trabajo y el análisis deportivo, donde los entrenadores y analistas estudian cómo se mueven los atletas.
Link to this sectionTipos de técnicas de estimación de poses#
La estimación de poses se presenta en varias formas, dependiendo del entorno y de lo que necesites medir. Estos son los tipos principales que encontrarás:
- Estimación de poses en 2D: Este enfoque detecta puntos clave corporales en una imagen o un fotograma de vídeo bidimensional. Funciona bien con cámaras estándar y es computacionalmente eficiente, lo que lo hace adecuado para tareas como el seguimiento básico de movimiento, el análisis de postura y la corrección de forma en tiempo real.
- Estimación de poses en 3D: Al estimar la profundidad además de las coordenadas de imagen, la estimación de poses en 3D proporciona una comprensión espacial del movimiento corporal. Esto es especialmente útil cuando el movimiento hacia adelante y hacia atrás importa, como en el análisis deportivo, la rehabilitación, la biomecánica y la animación. Concretamente, la estimación de poses humanas en 3D captura las posiciones de las articulaciones y el movimiento en un espacio 3D, reduciendo la ambigüedad que puede ocurrir con las proyecciones en 2D.
- Estimación de poses de una sola persona: Estos sistemas están diseñados para seguir a un individuo a la vez. Suelen funcionar mejor en entornos controlados o semicontrolados donde el sujeto es claramente visible, como en aplicaciones de ejercicio guiado, videollamadas o configuraciones de análisis de movimiento.
- Estimación de poses de varias personas: Creado para escenas con varias personas, este enfoque detecta y sigue las poses de varios individuos simultáneamente. Es especialmente útil en entornos concurridos como lugares de trabajo, gimnasios, espacios públicos y actividades grupales, donde los sujetos pueden solaparse u ocluirse unos a otros.

Fig 3. Comprender el movimiento humano en el espacio 3D frente al espacio de imagen 2D (Fuente)
Link to this sectionComprender cómo funcionan los modelos de estimación de poses humanas#
La estimación de poses se puede aplicar a muchos tipos de objetos, pero para simplificar, centrémonos en la estimación de poses humanas.
La mayoría de los sistemas de estimación de poses humanas están entrenados con conjuntos de datos anotados donde partes corporales clave están etiquetadas en grandes colecciones de imágenes y fotogramas de vídeo. Usando estos ejemplos, el modelo aprende patrones visuales vinculados a puntos de referencia del cuerpo humano como hombros, codos, caderas, rodillas y tobillos, de modo que pueda predecir los puntos clave con precisión en nuevas escenas.
Otro aspecto clave es la arquitectura de inferencia del modelo, que determina cómo detecta los puntos clave y los ensambla en poses completas. Algunos sistemas detectan primero a cada persona y luego estiman los puntos clave dentro de la región de cada una, mientras que otros detectan los puntos clave en toda la imagen y luego los agrupan por individuos. Los diseños de una sola etapa más nuevos pueden predecir poses en una sola pasada, equilibrando la velocidad y la precisión para su uso en tiempo real.
A continuación, veamos en detalle los diferentes enfoques de estimación de poses.
Link to this sectionEstimación de poses ascendente (bottom-up)#
En un enfoque ascendente, el modelo observa toda la imagen y busca primero los puntos clave del cuerpo, como la cabeza, los hombros, los codos, las caderas, las rodillas y los tobillos. En esta etapa, no intenta separar a las personas. Simplemente detecta todos los puntos clave o articulaciones corporales definidos por el esqueleto de la pose en toda la escena.
Después, el sistema realiza un segundo paso para conectar los puntos. Enlaza los puntos clave que pertenecen entre sí y los agrupa en esqueletos completos, uno por persona. Como no necesita detectar primero a cada persona, los métodos ascendentes suelen funcionar bien en escenas concurridas donde las personas se solapan, aparecen en diferentes tamaños o están parcialmente ocultas.
Link to this sectionDetección de poses descendente (top-down)#
Por el contrario, los sistemas descendentes comienzan detectando primero a cada persona en la imagen. Colocan un cuadro delimitador (bounding box) alrededor de cada individuo y tratan cada cuadro como su propia región para analizar.
Una vez que se aísla a una persona, el modelo predice los puntos clave del cuerpo dentro de esa región. Esta configuración paso a paso suele producir resultados muy precisos, especialmente cuando solo hay unas pocas personas en la escena y cada una es claramente visible.
Link to this sectionEstimación de poses de una sola etapa o híbrida#
Los modelos de una sola etapa, a veces llamados híbridos, predicen las poses en una sola pasada. En lugar de ejecutar primero la detección de personas y después la estimación de puntos clave, arrojan la ubicación de la persona y los puntos clave del cuerpo al mismo tiempo.
Como todo sucede en un solo módulo, estos modelos suelen ser más rápidos y eficientes, lo que los convierte en una opción sólida para usos en tiempo real como el seguimiento de movimiento en vivo y la captura de movimiento. Modelos como Ultralytics YOLO11 están construidos sobre esta idea, con el objetivo de equilibrar la velocidad con predicciones de puntos clave fiables.
Link to this sectionEntrenamiento y evaluación de modelos de estimación de poses#
Independientemente del enfoque utilizado, un modelo de estimación de poses debe entrenarse y probarse cuidadosamente antes de que sea fiable en el mundo real. Por lo general, aprende de grandes conjuntos de imágenes (y a veces vídeo) donde los puntos clave corporales están etiquetados, lo que le ayuda a manejar diferentes poses, ángulos de cámara y entornos.
Algunos conjuntos de datos de estimación de poses muy conocidos incluyen COCO Keypoints, MPII Human Pose, CrowdPose y OCHuman. Cuando estos conjuntos de datos no reflejan las condiciones a las que se enfrentará el modelo en la implementación, los ingenieros suelen recopilar y etiquetar imágenes adicionales del entorno objetivo, como una planta de fábrica, un gimnasio o una clínica.

Fig 4. Varias poses estimadas usando visión artificial (Fuente)
Tras el entrenamiento, el rendimiento del modelo se evalúa mediante estándares de referencia para medir la precisión y la robustez, y para guiar un ajuste adicional para su uso en el mundo real. Los resultados se suelen reportar usando la precisión media media, comúnmente conocida como mAP, que resume el rendimiento a través de diferentes umbrales de confianza comparando las poses predichas con la verdad fundamental etiquetada.
En muchas referencias de poses, una pose predicha se empareja con una pose de verdad fundamental mediante la Similitud de Puntos Clave de Objeto (OKS). OKS mide qué tan cerca están los puntos clave predichos de los puntos clave anotados, teniendo en cuenta factores como la escala de la persona y la dificultad de localización típica de cada punto clave.
Los modelos de poses también arrojan puntuaciones de confianza para las personas detectadas y para los puntos clave individuales. Estas puntuaciones reflejan la confianza del modelo y se utilizan para clasificar y filtrar las predicciones, lo cual es especialmente importante en condiciones difíciles como oclusión, desenfoque de movimiento o ángulos de cámara inusuales.
Link to this sectionHerramientas y bibliotecas populares de estimación de poses#
Hoy en día hay muchas herramientas de estimación de poses disponibles, cada una equilibrando velocidad, precisión y facilidad de uso. Estas son algunas de las herramientas y bibliotecas más utilizadas:
- Ultralytics YOLO11: Desarrollado como un modelo de IA de visión de código abierto de vanguardia, YOLO11 se basa en modelos anteriores como Ultralytics YOLOv8. Mejora la velocidad, la precisión y la eficiencia general, a la vez que admite diversas tareas de visión artificial, incluida la estimación de poses. Con un sólido rendimiento en todas las plataformas, desde ordenadores portátiles hasta dispositivos de borde (edge), YOLO11 es una gran opción para muchas implementaciones en el mundo real.
- Ultralytics YOLO26: Este próximo modelo de nueva generación está diseñado para ser más ligero, pequeño y rápido, sin dejar de mantener una gran precisión. Está construido para su uso en tiempo real y una implementación más sencilla, y admite tareas como la detección de objetos, la segmentación de instancias y la estimación de poses en tamaños de modelo adecuados para todo, desde dispositivos de borde hasta sistemas más grandes.
- MediaPipe: Es un marco multiplataforma para crear tuberías (pipelines) de visión y aprendizaje automático. Es ligero y funciona de forma eficiente en dispositivos móviles, tabletas y aplicaciones web, e incluye soluciones y modelos listos para usar para la pose de cuerpo completo, puntos de referencia faciales y seguimiento de manos.
- OpenPose: Este sistema de estimación de poses de código abierto de extremo a extremo es ampliamente conocido por la detección de puntos clave de varias personas. Puede estimar puntos clave del cuerpo, las manos y la cara conjuntamente, y se utiliza habitualmente en investigación, animación y análisis de movimiento.
- MMPose: MMPose es un kit de herramientas de estimación de poses basado en PyTorch del ecosistema OpenMMLab. Proporciona muchas implementaciones de modelos, utilidades de entrenamiento y opciones de configuración, lo que lo hace útil para la experimentación y la personalización profunda.
- HRNet y AlphaPose: Son modelos de estimación de poses más antiguos que todavía se utilizan hoy en día en investigación. HRNet es una arquitectura de modelo de pose que mantiene características de imagen de alta resolución en toda la red, lo que le ayuda a localizar puntos clave con precisión. AlphaPose es un sistema de estimación de poses de varias personas ampliamente utilizado, generalmente cuando se necesita una gran precisión en escenas concurridas o complejas.
Link to this sectionAplicaciones reales del análisis y estimación de poses#
La estimación de poses se utiliza cada vez más para convertir vídeos ordinarios en información útil sobre el movimiento. Al seguir los puntos clave del cuerpo fotograma a fotograma, estos sistemas pueden deducir la postura, el movimiento y el comportamiento físico a partir de transmisiones de cámara, haciendo que dicha tecnología sea práctica en muchos entornos reales.
Por ejemplo, en sanidad y rehabilitación, el seguimiento de poses puede ayudar a los médicos a ver y medir cómo se mueve un paciente durante la terapia y la recuperación. Al extraer puntos de referencia corporales a partir de grabaciones de vídeo ordinarias, se puede utilizar para evaluar la postura, el rango de movimiento y los patrones de movimiento generales a lo largo del tiempo. Estas mediciones pueden respaldar y optimizar las evaluaciones clínicas tradicionales y, en algunos casos, facilitar el seguimiento del progreso sin necesidad de sensores vestibles o equipos especializados.
De manera similar, en los deportes y la retransmisión, la estimación de poses puede analizar cómo se mueven los atletas directamente a partir de transmisiones de vídeo. Un ejemplo interesante es Hawk-Eye, un sistema de seguimiento basado en cámaras utilizado en deportes profesionales para el arbitraje y los gráficos de retransmisión. También proporciona seguimiento esquelético al estimar los puntos clave del cuerpo de un atleta a partir de vistas de cámara.
Link to this sectionCómo elegir la herramienta de estimación de poses adecuada#
Elegir la herramienta de estimación de poses adecuada comienza con la comprensión de las necesidades de tu proyecto de visión artificial. Algunas aplicaciones priorizan la velocidad en tiempo real, mientras que otras requieren mayor precisión y detalle.
El dispositivo de implementación objetivo también marca la diferencia. Las aplicaciones móviles y los dispositivos de borde suelen requerir modelos ligeros y eficientes, mientras que los modelos más grandes suelen ser más adecuados para servidores o entornos en la nube.
Además de esto, la facilidad de uso puede desempeñar un papel. Una buena documentación, una implementación fluida y el soporte para el entrenamiento personalizado pueden optimizar tu proyecto.
En pocas palabras, las diferentes herramientas destacan en diferentes áreas. Por ejemplo, los modelos Ultralytics YOLO ofrecen un equilibrio práctico entre velocidad, precisión y facilidad de implementación para muchas aplicaciones de estimación de poses en el mundo real.

Fig 5. Estimación de poses animales usando Ultralytics YOLO11 (Fuente)
Link to this sectionConclusiones clave#
La estimación de poses ayuda a los ordenadores a comprender el movimiento humano mediante la detección de puntos clave corporales en imágenes y vídeos. Modelos como YOLO11 y YOLO26 hacen que sea más fácil crear aplicaciones en tiempo real para áreas como los deportes, la sanidad, la seguridad en el lugar de trabajo y las experiencias interactivas. A medida que los modelos siguen volviéndose más rápidos y precisos, es probable que la estimación de poses se convierta en una característica común en muchos sistemas de IA de visión.
¿Quieres saber más sobre IA? Echa un vistazo a nuestra comunidad y a nuestro repositorio de GitHub. Explora nuestras páginas de soluciones para aprender sobre IA en robótica y visión artificial en la fabricación. ¡Descubre nuestras opciones de licencia y comienza a construir con visión artificial hoy mismo!






