Yolo Vision Shenzhen
Shenzhen
Únete ahora

La guía definitiva sobre herramientas de estimación de posturas

Descubra cómo se pueden utilizar las herramientas de estimación de poses para detect puntos clave detect en imágenes y vídeos, estimar poses en 2D y 3D, y potenciar diversas aplicaciones de IA visual.

Como seres humanos, interpretamos los movimientos de forma instintiva. Cuando alguien se inclina hacia delante, gira la cabeza o levanta un brazo, podemos deducir inmediatamente lo que está haciendo. Se trata de una habilidad silenciosa, casi subconsciente, que determina cómo interactuamos con las personas y exploramos el mundo.

A medida que la tecnología se convierte en una parte cada vez más importante de nuestra vida cotidiana, es natural que queramos que nuestros dispositivos comprendan el movimiento con la misma fluidez que nosotros. Los recientes avances en inteligencia artificial, especialmente los basados en el aprendizaje profundo, lo están haciendo posible. En concreto, la visión artificial ayuda a las máquinas a extraer significado de las imágenes y los vídeos, y está impulsando este progreso.

Por ejemplo, la estimación de la postura es una tarea habitual de la visión artificial que predice la ubicación de puntos clave predefinidos del cuerpo (como los hombros, los codos, las caderas y las rodillas) en una imagen o fotograma de vídeo. Estos puntos clave se pueden conectar utilizando una definición de esqueleto fija para formar una representación simplificada de la postura. 

Modelos de visión artificial como Ultralytics YOLO11 y el próximo Ultralytics admiten tareas como la estimación de posturas y pueden utilizarse para impulsar aplicaciones en tiempo real, incluyendo comentarios sobre formas en fitness y deportes, supervisión de seguridad y experiencias interactivas de realidad aumentada.

Fig. 1. Una mirada al uso de Ultralytics YOLO11 la estimación de posturas (Fuente)

En este artículo, profundizaremos en las herramientas de estimación de posturas y veremos cómo funciona la estimación de posturas, dónde se utiliza y algunos de los mejores modelos y bibliotecas disponibles en la actualidad. ¡Empecemos!

¿Qué es la estimación de pose?

La estimación de la postura es una técnica de visión artificial que ayuda a un sistema a comprender cómo se posiciona una persona u objeto en una imagen o vídeo. En lugar de analizar cada píxel por igual, predice un conjunto de puntos de referencia consistentes, como la cabeza, los hombros, los codos, las caderas, las rodillas y los tobillos. 

La mayoría de los modelos generan las coordenadas de estos puntos clave y una puntuación que refleja la probabilidad de que cada predicción sea correcta. A continuación, estos puntos clave se pueden conectar utilizando un diseño de esqueleto predefinido para formar una representación simple de la postura. 

Cuando se aplica fotograma a fotograma en vídeos, los puntos clave resultantes se pueden asociar a lo largo del tiempo para estimar el movimiento. Esto permite aplicaciones como comprobaciones de forma, análisis de movimiento e interacción basada en gestos.

Fig. 2. Ejemplo de estimación de postura (Fuente)

La necesidad de herramientas de estimación de posturas

El movimiento humano transmite mucha información. La forma en que una persona se inclina, se estira o desplaza su peso puede revelar sus intenciones, su esfuerzo, su fatiga o incluso el riesgo de sufrir una lesión. Hasta hace poco, para capturar ese nivel de detalle se necesitaban sensores especializados, trajes de captura de movimiento o entornos de laboratorio controlados.

La estimación de la postura cambia eso. La extracción de puntos de referencia clave del cuerpo a partir de imágenes y vídeos normales permite a los ordenadores analizar el movimiento utilizando cámaras estándar. Esto hace que el análisis del movimiento sea más accesible, escalable y práctico para su uso en entornos reales.

A continuación se indican algunas formas en las que la estimación de la postura puede tener un impacto:

  • Lugares de trabajo más seguros: los sistemas basados en la visión pueden utilizarse para detect posturas detect , esfuerzos repetitivos o técnicas de elevación inseguras antes de que se produzcan lesiones.
  • Mejor entrenamiento físico y deportivo: las soluciones de IA Vision pueden evaluar la forma, el equilibrio y la técnica en tiempo real, proporcionando a los usuarios información inmediata sin necesidad de dispositivos portátiles.
  • Atención sanitaria y rehabilitación: los médicos pueden track remoto del progreso track , la postura y la amplitud de movimiento mediante sencillas grabaciones de vídeo.
  • Experiencias interactivas: la estimación de la postura facilita que los avatares digitales y los entornos inmersivos sigan y reflejen con precisión los movimientos humanos.

La evolución de los algoritmos de estimación de posturas

La idea de estimar poses existe desde hace muchos años. Los primeros enfoques utilizaban modelos geométricos simples y reglas elaboradas manualmente, y normalmente solo funcionaban en condiciones controladas.

Por ejemplo, un sistema puede funcionar bien cuando una persona permanece inmóvil en una posición fija, pero fallar cuando empieza a caminar, girar o interactuar con objetos en escenas del mundo real. Estos métodos suelen tener dificultades con los movimientos naturales, los cambios de ángulo de cámara, los fondos recargados y las oclusiones parciales.

La estimación moderna de posturas se basa en el aprendizaje profundo para hacer frente a estos retos. Al entrenar redes neuronales convolucionales con grandes conjuntos de datos etiquetados, los modelos aprenden patrones visuales que les ayudan a detect de forma más fiable en diferentes posturas, personas y entornos. 

Con más ejemplos, el modelo mejora sus predicciones y se vuelve más eficaz a la hora de generalizar a nuevas escenas. Gracias a este avance, la estimación de poses ahora admite una amplia gama de casos de uso práctico, incluyendo la supervisión y la ergonomía en el lugar de trabajo, y el análisis deportivo, donde los entrenadores y analistas estudian cómo se mueven los atletas.

Tipos de técnicas de estimación de posturas

La estimación de la postura se presenta en diferentes formas, dependiendo de la configuración y de lo que se necesite medir. Estos son los principales tipos con los que te encontrarás:

  • Estimación de pose en 2D: este enfoque detecta puntos clave del cuerpo en una imagen bidimensional o fotograma de vídeo. Funciona bien con cámaras estándar y es computacionalmente eficiente, lo que lo hace adecuado para tareas como el seguimiento básico del movimiento, el análisis de la postura y la retroalimentación de la forma en tiempo real.
  • Estimación de la postura en 3D: al estimar la profundidad además de las coordenadas de la imagen, la estimación de la postura en 3D proporciona una comprensión espacial del movimiento corporal. Esto resulta especialmente útil cuando el movimiento hacia delante y hacia atrás es importante, como en el análisis deportivo, la rehabilitación, la biomecánica y la animación. En concreto, la estimación de la postura humana en 3D captura las posiciones y los movimientos de las articulaciones en el espacio tridimensional, lo que reduce la ambigüedad que puede producirse con las proyecciones en 2D.
  • Estimación de la postura de una sola persona: estos sistemas están diseñados para track persona a la vez. Suelen funcionar mejor en entornos controlados o semicontrolados en los que el sujeto es claramente visible, como aplicaciones de ejercicios guiados, videollamadas o configuraciones de análisis de movimiento.
  • Estimación de poses de varias personas: Diseñado para escenas con varias personas, este enfoque detecta y rastrea las poses de varias personas simultáneamente. Es especialmente útil en entornos concurridos, como lugares de trabajo, gimnasios, espacios públicos y actividades en grupo, donde los sujetos pueden superponerse u ocultarse unos a otros.

Fig. 3. Comprensión del movimiento humano en el espacio 3D frente al espacio de imagen 2D (Fuente)

Comprender cómo funcionan los modelos de estimación de la postura humana

La estimación de la postura se puede aplicar a muchos tipos de objetos, pero para simplificar, centrémonos en la estimación de la postura humana.

La mayoría de los sistemas de estimación de la postura humana se entrenan con conjuntos de datos anotados en los que se etiquetan las partes clave del cuerpo en grandes colecciones de imágenes y fotogramas de vídeo. A partir de estos ejemplos, el modelo aprende patrones visuales vinculados a puntos de referencia del cuerpo humano, como los hombros, los codos, las caderas, las rodillas y los tobillos, para poder predecir con precisión los puntos clave en nuevas escenas.

Otro aspecto clave es la arquitectura de inferencia del modelo, que determina cómo detecta los puntos clave y los ensambla en poses completas. Algunos sistemas detect primero detect persona y luego estiman los puntos clave dentro de la región de cada persona, mientras que otros detect en toda la imagen y luego los agrupan por individuos. Los diseños más recientes de una sola etapa pueden predecir las poses en una sola pasada, equilibrando la velocidad y la precisión para su uso en tiempo real.

A continuación, veamos en detalle los diferentes enfoques de estimación de poses. 

Estimación de postura ascendente

En un enfoque ascendente, el modelo analiza la imagen completa y primero encuentra los puntos clave del cuerpo, como la cabeza, los hombros, los codos, las caderas, las rodillas y los tobillos. En esta etapa, no intenta separar a las personas. Simplemente detecta todos los puntos clave o articulaciones del cuerpo definidos por el esqueleto de la pose en toda la escena.

A continuación, el sistema realiza un segundo paso para conectar los puntos. Une los puntos clave que pertenecen al mismo conjunto y los agrupa en esqueletos completos, uno por persona. Dado que no es necesario detect primero detect persona, los métodos ascendentes suelen funcionar bien en escenas concurridas en las que las personas se superponen, aparecen en diferentes tamaños o están parcialmente ocultas.

Detección de posturas de arriba hacia abajo

Por el contrario, los sistemas descendentes comienzan detectando primero a cada persona de la imagen. Colocan un cuadro delimitador alrededor de cada individuo y tratan cada cuadro como una región independiente para analizar.

Una vez que se aísla a una persona, el modelo predice los puntos clave del cuerpo dentro de esa región. Esta configuración paso a paso suele producir resultados muy precisos, especialmente cuando solo hay unas pocas personas en la escena y cada una de ellas es claramente visible.

Estimación de pose de una sola etapa o híbrida

Los modelos de una sola etapa, a veces denominados híbridos, predicen las posturas en una sola pasada. En lugar de ejecutar primero la detección de personas y luego la estimación de puntos clave, muestran la ubicación de la persona y los puntos clave del cuerpo al mismo tiempo.

Dado que todo ocurre en un único módulo, estos modelos suelen ser más rápidos y eficientes, lo que los hace muy adecuados para usos en tiempo real, como el seguimiento de movimiento en directo y la captura de movimiento. Modelos como Ultralytics YOLO11 basan en esta idea, con el objetivo de equilibrar la velocidad con predicciones fiables de puntos clave.

Entrenamiento y evaluación de modelos de estimación de posturas

Independientemente del enfoque utilizado, un modelo de estimación de posturas debe entrenarse y probarse cuidadosamente antes de que sea fiable en el mundo real. Normalmente aprende a partir de grandes conjuntos de imágenes (y, en ocasiones, vídeos) en los que se etiquetan los puntos clave del cuerpo, lo que le ayuda a manejar diferentes posturas, ángulos de cámara y entornos.

Algunos conjuntos de datos conocidos para la estimación de posturas son COCO , MPII Human Pose, CrowdPose y OCHuman. Cuando estos conjuntos de datos no reflejan las condiciones a las que se enfrentará el modelo en su implementación, los ingenieros suelen recopilar y etiquetar imágenes adicionales del entorno de destino, como una fábrica, un gimnasio o una clínica.

Fig. 4. Estimación de diversas posturas mediante visión artificial (Fuente)

Después del entrenamiento, se evalúa el rendimiento del modelo con puntos de referencia estándar para medir su precisión y solidez, y para orientar los ajustes posteriores para su uso en el mundo real. Los resultados suelen presentarse utilizando la precisión media, comúnmente denominada mAP, que resume el rendimiento en diferentes umbrales de confianza comparando las poses previstas con la verdad fundamental etiquetada.

En muchos benchmarks de pose, la pose predicha se compara con una pose real utilizando la similitud de puntos clave del objeto (OKS). La OKS mide la proximidad entre los puntos clave predichos y los puntos clave anotados, teniendo en cuenta factores como la escala de la persona y la dificultad típica de localización de cada punto clave. 

Los modelos Pose también generan puntuaciones de confianza para las personas detectadas y para los puntos clave individuales. Estas puntuaciones reflejan la confianza del modelo y se utilizan para clasificar y filtrar las predicciones, lo que resulta especialmente importante en condiciones difíciles, como oclusiones, desenfoque por movimiento o ángulos de cámara inusuales.

Herramientas y bibliotecas populares para la estimación de poses

Hoy en día existen muchas herramientas de estimación de poses, cada una de las cuales equilibra velocidad, precisión y facilidad de uso. Estas son algunas de las herramientas y bibliotecas más utilizadas:

  • Ultralytics YOLO11: Desarrollado como un modelo de IA de visión de código abierto de última generación, YOLO11 en modelos anteriores como Ultralytics YOLOv8. Mejora la velocidad, la precisión y la eficiencia general, al tiempo que admite diversas tareas de visión artificial, incluida la estimación de poses. Con un gran rendimiento en todas las plataformas, desde ordenadores portátiles hasta dispositivos periféricos, YOLO11 una excelente opción para muchas implementaciones en el mundo real.
  • Ultralytics : este próximo modelo de última generación está diseñado para ser más ligero, más pequeño y más rápido, sin perder precisión. Está pensado para su uso en tiempo real y una implementación más sencilla, y admite tareas como la detección de objetos, la segmentación de instancias y la estimación de poses en modelos de distintos tamaños, adecuados para todo tipo de dispositivos, desde los más pequeños hasta los sistemas más grandes.
  • MediaPipe: Es un marco multiplataforma para crear procesos de visión y aprendizaje automático. Es ligero y funciona de manera eficiente en dispositivos móviles, tabletas y aplicaciones web, e incluye soluciones y modelos listos para usar para la postura de todo el cuerpo, puntos de referencia faciales y seguimiento de manos.
  • OpenPose: Este sistema integral de estimación de posturas de código abierto es muy conocido por su detección de puntos clave en múltiples personas. Puede estimar conjuntamente los puntos clave del cuerpo, las manos y el rostro, y se utiliza habitualmente en investigación, animación y análisis de movimiento.
  • MMPose: MMPose es un kit de herramientas de estimación de poses PyTorch del ecosistema OpenMMLab. Proporciona numerosas implementaciones de modelos, utilidades de entrenamiento y opciones de configuración, lo que lo hace útil para la experimentación y la personalización profunda.
  • HRNet y AlphaPose: Son modelos de estimación de posturas más antiguos que todavía se utilizan en la investigación actual. HRNet es una arquitectura de modelo de postura que mantiene características de imagen de alta resolución en toda la red, lo que le ayuda a localizar puntos clave con precisión. AlphaPose es un sistema de estimación de posturas para varias personas muy utilizado, que suele emplearse cuando se necesita una gran precisión en escenas concurridas o complejas.

Aplicaciones reales del análisis y la estimación de posturas

La estimación de posturas se utiliza cada vez más para convertir vídeos normales en información útil sobre el movimiento. Mediante el seguimiento fotograma a fotograma de los puntos clave del cuerpo, estos sistemas pueden inferir la postura, el movimiento y el comportamiento físico a partir de las imágenes de la cámara, lo que hace que esta tecnología sea práctica en muchos entornos del mundo real.

Por ejemplo, en el ámbito de la asistencia sanitaria y la rehabilitación, el seguimiento de posturas puede ayudar a los médicos a ver y medir cómo se mueve un paciente durante la terapia y la recuperación. Al extraer puntos de referencia corporales de grabaciones de vídeo normales, se puede utilizar para evaluar la postura, el rango de movimiento y los patrones generales de movimiento a lo largo del tiempo. Estas mediciones pueden respaldar y optimizar las evaluaciones clínicas tradicionales y, en algunos casos, facilitar track sin necesidad de sensores portátiles ni equipos especializados.

Del mismo modo, en los deportes y las retransmisiones, la estimación de la postura permite analizar cómo se mueven los atletas directamente a partir de las imágenes de vídeo. Un ejemplo interesante es Hawk-Eye, un sistema de seguimiento basado en cámaras que se utiliza en los deportes profesionales para el arbitraje y los gráficos de retransmisión. También proporciona un seguimiento esquelético mediante la estimación de los puntos clave del cuerpo de un atleta a partir de las imágenes de la cámara.

Elegir la herramienta adecuada para la estimación de la postura

Para elegir la herramienta de estimación de posturas adecuada, primero hay que comprender las necesidades de su proyecto de visión artificial. Algunas aplicaciones dan prioridad a la velocidad en tiempo real, mientras que otras requieren mayor precisión y detalle. 

El dispositivo de implementación de destino también marca la diferencia. Las aplicaciones móviles y los dispositivos periféricos suelen requerir modelos ligeros y eficientes, mientras que los modelos más grandes suelen ser más adecuados para servidores o entornos en la nube.

Además, la facilidad de uso también puede influir. Una buena documentación, una implementación fluida y la posibilidad de personalizar la formación pueden agilizar tu proyecto. 

En pocas palabras, cada herramienta destaca en un área diferente. Por ejemplo, YOLO Ultralytics ofrecen un equilibrio práctico entre velocidad, precisión y facilidad de implementación para muchas aplicaciones de estimación de poses en el mundo real.

Fig. 5. Estimación de la postura de animales utilizando Ultralytics YOLO11 Fuente)

Conclusiones clave

La estimación de la postura ayuda a los ordenadores a comprender el movimiento humano mediante la detección de puntos clave del cuerpo en imágenes y vídeos. Modelos como YOLO11 YOLO26 facilitan la creación de aplicaciones en tiempo real para ámbitos como los deportes, la sanidad, la seguridad en el lugar de trabajo y las experiencias interactivas. A medida que los modelos se vuelven más rápidos y precisos, es probable que la estimación de la postura se convierta en una característica común en muchos sistemas de IA visual.

¿Quieres saber más sobre la IA? Echa un vistazo a nuestra comunidad y al repositorio GitHub. Explora nuestras páginas de soluciones para obtener más información sobre la IA en robótica y la visión artificial en la fabricación. Descubre nuestras opciones de licencia y empieza a crear con visión artificial hoy mismo.

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Comienza gratis