Aprenda cómo funciona la estimación de la postura, sus aplicaciones en el mundo real y cómo modelos como Ultralytics YOLO11 permiten a las máquinas interpretar el movimiento y la postura del cuerpo.

Aprenda cómo funciona la estimación de la postura, sus aplicaciones en el mundo real y cómo modelos como Ultralytics YOLO11 permiten a las máquinas interpretar el movimiento y la postura del cuerpo.
Cuando ves a alguien encorvado o erguido con los hombros hacia atrás, enseguida sabes si su postura es mala o segura. No hace falta que nadie te lo explique. Esto se debe a que, con el tiempo, hemos aprendido de forma natural a interpretar el lenguaje corporal.
A través de la experiencia y la observación, nuestros cerebros han llegado a ser muy buenos reconociendo la postura de diversos objetos, incluidos los humanos. Gracias a los recientes avances en inteligencia artificial (IA) y visión por ordenador, un campo que permite a las máquinas interpretar la información visual del mundo, las máquinas están empezando a aprender y replicar también esta habilidad.
La estimación de la pose es una tarea de visión por ordenador que ayuda a las máquinas a averiguar la posición y orientación de una persona u objeto observando imágenes o vídeos. Para ello, identifica los puntos clave del cuerpo, como las articulaciones y las extremidades, para entender cómo se mueve alguien o incluso algo.
Esta tecnología se está utilizando ampliamente en campos como el fitness, la sanidad y la animación. En entornos laborales, por ejemplo, puede utilizarse para controlar la postura de los empleados y apoyar iniciativas de seguridad y bienestar. Los modelos de visión artificial como Ultralytics YOLO11 lo hacen posible estimando las posturas humanas en tiempo real.
En este artículo examinaremos más de cerca la estimación de la pose y su funcionamiento, junto con casos de uso reales en los que está marcando la diferencia. Comencemos.
La investigación sobre la estimación de la pose comenzó a finales de los años sesenta y setenta. A lo largo de los años, los enfoques de esta tarea de visión por ordenador han pasado de las matemáticas y la geometría básicas a métodos más avanzados basados en la inteligencia artificial.
Al principio, las técnicas dependían de ángulos de cámara fijos y puntos de referencia conocidos. Más tarde, evolucionaron para incluir modelos 3D y coincidencia de características. Hoy en día, los modelos de aprendizaje profundo como YOLO11 pueden detectar posiciones corporales en tiempo real a partir de imágenes o vídeos, lo que hace que la estimación de la pose sea más rápida y precisa que nunca.
A medida que mejoraba la tecnología, los investigadores vieron las aplicaciones potenciales de poder controlar y seguir las posturas de diversos objetos, especialmente humanos y animales. La estimación de la postura es especialmente importante porque permite a las herramientas de IA comprender y medir la postura y el movimiento de formas que antes no eran posibles.
Por ejemplo, permite que los ordenadores reconozcan gestos para interactuar con manos libres, analiza los movimientos de los atletas para mejorar su rendimiento, impulsa animaciones realistas en los videojuegos e incluso ayuda en la asistencia sanitaria haciendo un seguimiento del progreso de recuperación de los pacientes.
La estimación de la pose es diferente de otras tareas de visión por ordenador como la detección de objetos y la segmentación de instancias. Estas tareas se centran principalmente en identificar y localizar objetos dentro de una imagen.
La detección de objetos, por ejemplo, dibuja recuadros alrededor de objetos como personas, vehículos o animales para indicar su presencia y posición. La segmentación de instancias lleva esto un paso más allá, delineando la forma precisa de cada objeto a nivel de píxel.
Sin embargo, ambos métodos se centran principalmente en qué es el objeto y dónde está, pero no proporcionan información sobre cómo está colocado o qué puede estar haciendo. Ahí es donde la estimación de la pose resulta crucial.
Al identificar los puntos clave del cuerpo, como los codos, las rodillas o incluso la cola, la estimación de la pose puede interpretar la postura y el movimiento. Esto permite comprender mejor las acciones, los gestos y la dinámica corporal, incluido el movimiento en el espacio 3D.
Los modelos de estimación de la pose suelen seguir dos enfoques principales: ascendente y descendente. En el enfoque ascendente, el modelo detecta primero puntos clave individuales, como codos, rodillas u hombros, y luego los agrupa para averiguar a qué persona u objeto pertenecen. En cambio, el enfoque descendente empieza por detectar primero cada objeto (como una persona en la imagen) y luego localiza los puntos clave de ese objeto concreto.
Algunos modelos más recientes, como YOLO11, combinan las ventajas de ambos enfoques. Mantiene la eficiencia del método ascendente al omitir el paso de agrupación manual, al tiempo que aprovecha la precisión de los sistemas descendentes al detectar a las personas y estimar sus poses a la vez, en un único proceso racionalizado.
Mientras repasamos cómo funcionan los modelos de estimación de la pose, es posible que te preguntes: ¿cómo aprenden realmente estos modelos a estimar la pose de distintos objetos? Aquí es donde entra en escena la idea del entrenamiento personalizado.
El entrenamiento personalizado consiste en enseñar a un modelo a reconocer puntos clave específicos utilizando sus propios datos. Dado que construir un modelo desde cero requiere una gran cantidad de imágenes etiquetadas y mucho tiempo, muchas personas optan por el aprendizaje por transferencia. Esto implica comenzar con un modelo que ya ha sido entrenado en un gran conjunto de datos, como el modelo de estimación de pose YOLO11, que está preentrenado en el conjunto de datos COCO-Pose, y luego ajustarlo con tus propios datos para una tarea o caso de uso específico.
Digamos que trabajas con posturas de yoga: puedes perfeccionar YOLO11 utilizando imágenes en las que cada postura esté etiquetada con puntos clave específicos de esa actividad. Para ello, necesitarás un conjunto de datos personalizado con imágenes anotadas de las que el modelo pueda aprender.
Durante el entrenamiento, puede ajustar parámetros como el tamaño del lote (el número de imágenes procesadas a la vez), la tasa de aprendizaje (la rapidez con la que el modelo actualiza su aprendizaje) y las épocas (cuántas veces el modelo recorre el conjunto de datos) para mejorar la precisión. Esto hace que sea mucho más fácil construir modelos de estimación de pose adaptados a sus necesidades específicas.
Ahora que ya hemos explicado qué es la estimación de la pose y cómo funciona, veamos más de cerca algunos de sus casos de uso en el mundo real.
La estimación de la postura se está convirtiendo poco a poco en una herramienta fiable en el sector sanitario, especialmente en fisioterapia. Gracias a la inteligencia artificial y la visión por ordenador, estos sistemas pueden realizar un seguimiento de la postura y los movimientos en tiempo real y proporcionar información similar a la que ofrecería un fisioterapeuta.
Por ejemplo, un paciente que se recupera de una operación de rodilla puede utilizar un sistema de estimación de posturas para asegurarse de que está haciendo correctamente sus ejercicios de rehabilitación. El sistema puede detectar cualquier movimiento incorrecto y ofrecer sugerencias para mejorarlo, ayudando al paciente a mantener el rumbo y evitar lesiones.
Más allá de la rehabilitación, la estimación de la postura también se está abriendo camino en las aplicaciones de fitness. Por ejemplo, alguien que haga ejercicio en casa puede utilizar la aplicación para comprobar su forma durante los ejercicios. La aplicación puede dar información en tiempo real, como ajustar el ángulo de una sentadilla o asegurarse de que la espalda está recta durante un peso muerto. Esto ayuda a los usuarios a mejorar su forma y prevenir lesiones sin necesidad de un entrenador.
La estimación de poses ha cambiado la forma en que funciona la captura de movimientos en el entretenimiento, haciéndola más sencilla y accesible. En el pasado, la captura de movimiento requería colocar marcadores en el cuerpo de una persona y seguirlos con cámaras especiales, lo que podía resultar complicado y caro.
Ahora, con los avances en IA y visión por ordenador, podemos utilizar cámaras normales y algoritmos para seguir los movimientos del cuerpo sin necesidad de marcadores, lo que hace que el proceso sea más eficaz y preciso, incluso en tiempo real.
Un buen ejemplo de ello es AR (Augmented Reality) Poser de Disney. Esta divertida herramienta te permite hacerte una foto con el móvil y que un personaje digital copie tu pose en realidad aumentada. Funciona analizando tu pose en la foto y emparejándola con un personaje en 3D, creando un divertido selfie AR personalizado.
He aquí algunas de las principales ventajas que la estimación de la pose puede aportar a diversos sectores:
Aunque las ventajas de la estimación de la pose son evidentes en diversos campos, también hay que tener en cuenta algunos retos. Estas son algunas de las principales limitaciones que hay que tener en cuenta:
La estimación de la postura ha recorrido un largo camino desde sus inicios, evolucionando desde sistemas que utilizaban marcadores hasta herramientas impactantes impulsadas por modelos de aprendizaje profundo como YOLO11. Ya sea para mejorar la fisioterapia, impulsar experiencias interactivas de realidad aumentada o ayudar en la investigación de la vida salvaje, la estimación de la postura está cambiando la forma en que las máquinas entienden el movimiento y la postura. A medida que la tecnología sigue avanzando, abordar sus limitaciones será clave para desbloquear usos aún más prácticos y hacer que las máquinas comprendan mejor cómo nos movemos nosotros y otros seres vivos.
¿Siente curiosidad por la IA? Explore nuestro repositorio de GitHub, conecte con nuestra comunidad y consulte nuestras opciones de licencia para poner en marcha su proyecto de visión por ordenador. Obtenga más información sobre innovaciones como la IA en el comercio minorista y la visión por ordenador en el sector logístico en nuestras páginas de soluciones.