¿Qué es OpenPose? Los fundamentos de la estimación de la pose

Hoy en día, las imágenes y las cámaras están en todas partes: integradas en nuestros teléfonos, hogares e incluso espacios públicos. Confiamos en ellas no solo para capturar momentos, sino también para ayudarnos a comprender e interactuar con el mundo que nos rodea.

Entre bastidores, la visión por ordenador, un subcampo de la inteligencia artificial (IA), lo hace posible permitiendo a las máquinas interpretar datos visuales. Permite a los sistemas detect objetos, reconocer caras y track movimientos, y desempeña un papel fundamental en muchas de las tecnologías que utilizamos a diario.

Gracias a los recientes avances en IA, los modelos de visión artificial ahora pueden analizar y extraer datos e información más complejos. Un ejemplo de esto es la estimación de pose, una tarea de visión artificial centrada en la comprensión del movimiento humano.

Funciona identificando puntos clave en el cuerpo, como hombros, codos y rodillas, en imágenes o videos. Esto hace posible analizar cómo se mueve la gente, lo que permite aplicaciones en el seguimiento de la forma física, la animación, la atención médica y más.

Entre las muchas herramientas desarrolladas para la estimación de la pose, OpenPose destaca como un gran avance. Creado por investigadores del Laboratorio de Computación Perceptual de la Universidad Carnegie Mellon, fue uno de los primeros sistemas de código abierto capaces de detectar poses de cuerpo completo, incluyendo manos, pies y puntos clave faciales, para múltiples personas en tiempo real utilizando solo una cámara (con hasta 135 puntos clave por persona).

En este artículo, exploraremos OpenPose, cómo funciona y su importancia como hito en la visión artificial.

Fig. 1. Estimación de pose multi-persona utilizando OpenPose.

‍

Una mirada a la historia de la estimación de la pose

Antes de que la IA se adoptara ampliamente, el seguimiento del movimiento humano en vídeos implicaba el uso de equipos especializados. En industrias como el cine y la animación, los actores a menudo usaban trajes con marcadores reflectantes para que las cámaras pudieran capturar sus movimientos en un entorno de estudio controlado.

Aunque estas técnicas de captura del movimiento basadas en marcadores eran precisas, también resultaban caras y estaban limitadas a configuraciones específicas. A medida que avanzaba la visión por ordenador, los investigadores buscaron formas de track movimiento del cuerpo sin utilizar marcadores. Utilizaron bordes, contornos y plantillas para encontrar formas humanas en las imágenes.

Estos primeros sistemas funcionaban en instancias simples y directas, pero tenían problemas con los escenarios del mundo real. A menudo daban malos resultados cuando las personas se movían de manera inesperada o cuando aparecía más de una persona en un fotograma.

A finales de la década de 2010, el aprendizaje profundo trajo un cambio importante a la estimación de la pose. Los modelos de visión artificial podían entrenarse con grandes conjuntos de datos de poses humanas. En lugar de depender de bordes y plantillas, los modelos aprendieron a reconocer las articulaciones y la estructura del cuerpo estudiando miles de imágenes etiquetadas. Esto hizo que la estimación de la pose fuera más precisa, flexible e impactante en una gama más amplia de entornos.

Fig. 2. La evolución de los modelos de estimación de pose humana desde 2017 hasta 2023.

‍

OpenPose: Donde despegó la estimación de poses moderna

OpenPose se lanzó por primera vez en 2017 y es capaz de estimar las poses de varias personas simultáneamente en una sola imagen. A diferencia de los sistemas más antiguos, OpenPose no requiere trajes o marcadores especiales. Funciona con cámaras estándar y puede procesar imágenes y video en tiempo real. Estas características hicieron que la estimación de poses fuera más accesible para desarrolladores e investigadores.

Los cimientos que OpenPose sentó para la visión por ordenador ayudaron a otros a construir arquitecturas más modernas para otras muchas aplicaciones. En la actualidad, modelos de IA de visión como Ultralytics YOLO8 y Ultralytics YOLO11 que admiten tareas de estimación de la pose, ofrecen resultados más rápidos y una latencia menor.

Fig. 3. Uso de YOLO11 para la estimación de la pose.

‍

Sin embargo, OpenPose es un excelente punto de partida si tiene curiosidad por saber cómo ha evolucionado la estimación de poses. Introdujo ideas clave en las que muchos sistemas más nuevos todavía se basan en la actualidad.

Capacidades clave de OpenPose

Ahora que comprendemos mejor por qué OpenPose es importante, veamos más de cerca lo que realmente puede hacer.

En el corazón de las capacidades de OpenPose se encuentra algo llamado detección de puntos clave. Los puntos clave son puntos de referencia específicos del cuerpo humano, como la punta de la nariz, el centro de los hombros, los codos, las muñecas, las caderas, las rodillas y los tobillos. OpenPose puede detect hasta 135 de estos puntos por persona, incluidas zonas detalladas como los dedos y los rasgos faciales.

Cuando estos puntos están conectados, forman una representación simplificada del cuerpo humano: puedes pensar en ello como un esqueleto digital. Este esquema esquelético muestra no solo dónde está una persona, sino también cómo está posada: ya sea sentada, de pie, saludando, sonriendo o caminando. Las computadoras pueden interpretar el movimiento humano visualmente usando estos esqueletos, al igual que nosotros entendemos instintivamente el lenguaje corporal de alguien.

El seguimiento esquelético es especialmente útil porque elimina el ruido de fondo y las distracciones, permitiendo que el sistema se centre únicamente en la postura y el movimiento humanos. En lugar de analizar cada píxel, OpenPose se concentra en puntos significativos que cuentan la historia de cómo una persona se está moviendo o interactuando.

Al extraer esta información estructurada de imágenes o vídeos cotidianos, OpenPose permite crear aplicaciones que responden a gestos, supervisan la actividad física, evalúan las señales emocionales o incluso animan personajes digitales.

¿Cómo funciona OpenPose?

Aquí hay una descripción general de cómo OpenPose detecta y conecta puntos clave en el cuerpo humano a partir de la entrada visual:

Comienza con una imagen: OpenPose toma una sola imagen de una foto, video o transmisión de cámara en vivo.
‍
Detecta partes importantes del cuerpo: El sistema busca puntos clave en el cuerpo, como la nariz, los codos, las muñecas, las rodillas y los tobillos. Se marcan donde el sistema confía en que se encuentra una parte del cuerpo.
‍
Averigua qué partes van juntas: A continuación, OpenPose comprueba cómo están conectados los puntos clave. Utiliza cálculos matemáticos para decidir qué articulaciones pertenecen a la misma persona, por ejemplo, hacer coincidir una muñeca con el codo y el hombro derechos.
‍
Dibuja un esqueleto para cada persona: Después de agrupar los puntos clave, OpenPose los conecta en una "figura de palo" que muestra la pose de cada persona. Esto funciona incluso cuando aparecen varias personas en el mismo fotograma.
‍
Devuelve los datos de la pose: Finalmente, proporciona las posiciones exactas de todos los puntos clave detectados. Estos pueden ser utilizados para rastrear el movimiento, reconocer gestos o construir herramientas interactivas - todo en tiempo real.

Fig. 4. Detección y seguimiento de puntos clave humanos utilizando OpenPose.

‍

Aplicaciones de estimación de la pose en todas las industrias utilizando OpenPose

OpenPose fue una de las primeras herramientas avanzadas que hizo que la estimación de poses fuera práctica para una variedad de casos de uso en el mundo real. Si bien no se usa comúnmente en soluciones de visión artificial en tiempo real en la actualidad, jugó un papel importante en la configuración del trabajo inicial en campos como los deportes, el entretenimiento, la educación y la seguridad.

Analicemos más de cerca cómo ayudó a allanar el camino en estas áreas.

Estimación de la pose con OpenPose para fitness y deportes

Cuando ves béisbol, es fácil entender lo que está sucediendo: puedes reconocer al instante un lanzamiento, un swing o una base robada. Como humanos, intuitivamente leemos los movimientos del cuerpo y les damos sentido sin mucho esfuerzo. Pero para las máquinas, reconocer estas acciones es mucho más complejo. Necesitan información precisa sobre cómo cada parte del cuerpo se mueve a través del espacio.

OpenPose fue un paso sustancial en esta área de la visión artificial. Era una herramienta práctica para analizar la forma atlética en una variedad de entornos.

Muchos proyectos de investigación utilizaron OpenPose para analizar movimientos como swings y saltos, incluso clasificando acciones específicas de béisbol basándose en cómo se movían los jugadores. Debido a que funcionaba en entornos abiertos con video estándar, permitió a los investigadores probar cómo tales sistemas podrían funcionar en escenarios reales de entrenamiento o coaching.

Estos primeros estudios ayudaron a sentar las bases de las herramientas de seguimiento del rendimiento que ahora se utilizan en la tecnología deportiva avanzada.

Fig 5. Un vistazo a un pipeline de clasificación de acciones de béisbol utilizando OpenPose.

‍

Uso de OpenPose en sistemas de seguridad

De forma similar, los investigadores también utilizaron OpenPose para explorar cómo el seguimiento de la pose basado en vídeo podría apoyar la supervisión de la seguridad. Se probó en la detección de comportamientos como caídas, gestos inesperados o patrones de movimiento en áreas públicas.

Debido a que funcionaba con cámaras estándar, OpenPose hizo que la experimentación temprana fuera más accesible en entornos como hospitales y centros de transporte. Estos estudios ayudaron a impulsar el desarrollo de modelos más nuevos que ahora se utilizan en sistemas de vigilancia, detección de caídas y respuesta de emergencia.

Fig 6. Detección de caídas habilitada por OpenPose.

‍

Pros y contras de OpenPose

Aquí hay un vistazo de algunas de las ventajas que ofrece OpenPose:

Útil para la investigación y la creación de prototipos: Se ha utilizado ampliamente en la investigación académica, especialmente en campos como la interacción persona-ordenador, la biomecánica y el análisis del comportamiento.
‍
Soporte multiplataforma: Puede ejecutarse en Windows, Linux y macOS, con soporte tanto para unidades centrales de procesamiento (CPU) como para unidades de procesamiento gráfico (GPU).
‍
Capacidad de procesamiento sin conexión: Puede ejecutarse en entornos sin acceso a Internet, lo que lo hace ideal para entornos sensibles a la privacidad como la atención médica o la educación.

Aunque OpenPose fue un gran paso adelante, también tiene limitaciones técnicas que es importante tener en cuenta. Estos son algunos de los principales desafíos asociados con OpenPose:

Altos requisitos de procesamiento: Ejecutar OpenPose en tiempo real requiere una GPU potente e importantes recursos informáticos.
‍
Sensible al entorno: El rendimiento puede disminuir en condiciones de poca luz, espacios concurridos o cuando los ángulos de la cámara no son los ideales.
‍
Pesado en comparación con los modelos más nuevos: En comparación con los modelos de estimación de pose más recientes, OpenPose es relativamente grande y más lento. No es adecuado para su despliegue en dispositivos con recursos limitados como smartphones, tabletas o sistemas integrados.

Conclusiones clave

OpenPose jugó un papel importante en hacer que la estimación de la pose sea más accesible. Demostró que el seguimiento de los movimientos del cuerpo se podía hacer con una cámara simple, sin depender de trajes o equipos especializados.

Sentó las bases para muchas aplicaciones prácticas en los ámbitos de la salud, la educación, el entretenimiento y la investigación. Si bien los modelos más nuevos ahora ofrecen velocidades más rápidas y un rendimiento más ligero, OpenPose sigue siendo un punto de referencia clave para comprender cómo ha evolucionado la estimación de poses.

Únase a nuestra comunidad y visite nuestro repositorio de GitHub para obtener más información sobre la IA. Si busca crear sus propias soluciones de visión artificial, explore nuestras opciones de licencia. Además, consulte cómo la visión artificial en la atención médica y la IA en la logística están teniendo un impacto.

¿Qué es OpenPose? Explorando un hito en la estimación de pose

Una mirada a la historia de la estimación de la pose

OpenPose: Donde despegó la estimación de poses moderna

Capacidades clave de OpenPose

¿Cómo funciona OpenPose?

Aplicaciones de estimación de la pose en todas las industrias utilizando OpenPose

Estimación de la pose con OpenPose para fitness y deportes

Uso de OpenPose en sistemas de seguridad

Pros y contras de OpenPose

Conclusiones clave

Leer más en esta categoría

¿Qué es la destilación de conjuntos de datos? Una breve descripción general

Aprendizaje autodirigido para la eliminación de ruido: un análisis paso a paso

¿Qué es la correspondencia de imágenes en Vision AI? Una breve introducción

¡Construyamos juntos el futuro
de la IA!

¿Qué es OpenPose? Explorando un hito en la estimación de pose

Una mirada a la historia de la estimación de la pose

OpenPose: Donde despegó la estimación de poses moderna

Capacidades clave de OpenPose

¿Cómo funciona OpenPose?

Aplicaciones de estimación de la pose en todas las industrias utilizando OpenPose

Estimación de la pose con OpenPose para fitness y deportes

Uso de OpenPose en sistemas de seguridad

Pros y contras de OpenPose

Conclusiones clave

Leer más en esta categoría

¿Qué es la destilación de conjuntos de datos? Una breve descripción general

Aprendizaje autodirigido para la eliminación de ruido: un análisis paso a paso

¿Qué es la correspondencia de imágenes en Vision AI? Una breve introducción

¡Construyamos juntos el futuro de la IA!

¡Construyamos juntos el futuro
de la IA!