Cómo utilizar Ultralytics YOLO11 para la estimación de la pose

Abirami Vina

3 min leer

14 de octubre de 2024

Aprenda a utilizar el modelo YOLO11 de Ultralytics para una estimación precisa de la pose. Cubriremos la inferencia en tiempo real y el entrenamiento de modelos personalizados para diversas aplicaciones.

La investigación relacionada con la visión por ordenador, una rama de la inteligencia artificial (IA), se remonta a la década de 1960. Sin embargo, no fue hasta la década de 2010, con el auge del aprendizaje profundo, cuando se produjeron grandes avances en la forma en que las máquinas comprenden las imágenes. Uno de los últimos avances en visión por ordenador son los modelos YOLO11 de Ultralytics. Los modelos YOLO11, presentados por primera vez en el evento híbrido anual de Ultralytics, YOLO Vision 2024 (YV24), admiten una serie de tareas de visión por ordenador, incluida la estimación de poses.

La estimación de la pose se puede utilizar para detectar puntos clave de una persona u objeto en una imagen o vídeo para comprender su posición, postura o movimiento. Se utiliza ampliamente en aplicaciones como la analítica deportiva, la monitorización del comportamiento animal y la robótica para ayudar a las máquinas a interpretar acciones físicas en tiempo real. Gracias a su mayor precisión, eficacia y velocidad con respecto a los modelos anteriores de la serie YOLO (You Only Look Once), YOLO11 es idóneo para tareas de estimación de la postura en tiempo real.

__wf_reserved_inherit
Fig. 1. Ejemplo de utilización de Ultralytics YOLO11 para la estimación de la pose.

En este artículo, exploraremos qué es la estimación de la pose, discutiremos algunas de sus aplicaciones y veremos cómo utilizar YOLO11 con el paquete Python Ul tralytics para la estimación de la pose. También veremos cómo utilizar Ultralytics HUB para probar YOLO11 y la estimación de la pose con unos pocos clics. Pongámonos manos a la obra.

¿Qué es la estimación de la pose?

Antes de sumergirnos en cómo utilizar el nuevo modelo YOLO11 de Ultralytics para la estimación de la pose, vamos a comprender mejor la estimación de la pose.

La estimación de la pose es una técnica de visión por ordenador utilizada para analizar la pose de una persona u objeto en una imagen o vídeo. Los modelos de aprendizaje profundo como YOLO11 pueden identificar, localizar y rastrear puntos clave en un objeto o persona determinados. En el caso de los objetos, estos puntos clave pueden incluir esquinas, bordes o marcas superficiales distintivas, mientras que en el caso de los humanos, estos puntos clave representan articulaciones importantes como el codo, la rodilla o el hombro. 

La estimación de la pose es única y más compleja que otras tareas de visión por ordenador, como la detección de objetos. Mientras que la detección de objetos localiza objetos en una imagen dibujando un recuadro a su alrededor, la estimación de la pose va más allá al predecir las posiciones exactas de los puntos clave del objeto.

__wf_reserved_inherit
Fig. 2. Uso de YOLO11 para detectar y estimar las poses de las personas en una oficina.

En lo que respecta a la estimación de la pose, hay dos formas principales de trabajar: ascendente y descendente. El enfoque ascendente detecta puntos clave individuales y los agrupa en esqueletos, mientras que el enfoque descendente se centra en detectar primero los objetos y luego estimar los puntos clave dentro de ellos. 

YOLO11 combina los puntos fuertes de los métodos descendente y ascendente. Al igual que el método ascendente, mantiene las cosas sencillas y rápidas sin necesidad de agrupar manualmente los puntos clave. Al mismo tiempo, aprovecha la precisión del método descendente al detectar a las personas y estimar sus poses en un solo paso.

Casos prácticos de estimación de poses para YOLO11 

Las versátiles capacidades de YOLO11 para la estimación de la pose abren un amplio abanico de posibles aplicaciones en muchos sectores. Veamos con más detalle algunos casos de uso de YOLO11 para la estimación de poses.

Estimación de la postura en tiempo real con YOLO11: mejora de la seguridad de los trabajadores

La seguridad es un aspecto importante de cualquier proyecto de construcción. Esto es especialmente cierto, ya que estadísticamente, las obras de construcción ven un mayor número de lesiones relacionadas con el trabajo. En 2021, alrededor del 20% de todas las lesiones mortales relacionadas con el trabajo se produjeron en obras de construcción o cerca de ellas. Con riesgos diarios como equipos pesados y sistemas eléctricos, es esencial adoptar medidas de seguridad estrictas para mantener a salvo a los trabajadores. Los métodos tradicionales, como el uso de señales, barricadas y la vigilancia manual por parte de los supervisores, no siempre son eficaces y suelen apartar a los supervisores de tareas más críticas.

La IA puede intervenir para mejorar la seguridad, y el riesgo de accidentes puede reducirse utilizando un sistema de seguimiento de los trabajadores basado en la estimación de posturas. Los modelos YOLO11 de Ultralytics pueden utilizarse para seguir los movimientos y posturas de los trabajadores. De este modo, se puede detectar rápidamente cualquier peligro potencial, como trabajadores que se sitúan demasiado cerca de equipos peligrosos o que realizan tareas de forma incorrecta. Si se detecta un riesgo, se puede avisar a los supervisores, o una alarma puede alertar al trabajador. Un sistema de supervisión continua puede hacer que las obras sean más seguras, al estar siempre atento a los peligros y proteger a los trabajadores

__wf_reserved_inherit
Fig. 3. Ejemplo de estimación de la pose en una obra utilizando YOLO11.

Estimación de la pose con YOLO11 para la vigilancia del ganado

Los ganaderos y los investigadores pueden utilizar YOLO11 para estudiar el movimiento y el comportamiento de los animales de granja, como el ganado vacuno, para detectar signos precoces de enfermedades como la cojera. La cojera es una afección por la que un animal tiene dificultades para moverse correctamente debido a dolores en las patas o pies. En el ganado vacuno, enfermedades como la cojera no sólo afectan a su salud y bienestar, sino que también provocan problemas de producción en las explotaciones lecheras. Los estudios muestran que la cojera afecta a entre el 8% del ganado en sistemas basados en pastos y entre el 15% y el 30% en sistemas confinados en toda la industria láctea mundial. La detección y el tratamiento precoz de las cojeras pueden contribuir a mejorar el bienestar de los animales y a reducir las pérdidas de producción asociadas a esta enfermedad.

Las funciones de estimación de la postura de YOLO11 pueden ayudar a los ganaderos a seguir los patrones de marcha del animal e identificar rápidamente cualquier anomalía que pueda indicar problemas de salud, como problemas articulares o infecciones. La detección precoz de estos problemas permite un tratamiento más rápido, reduciendo las molestias de los animales y ayudando a los ganaderos a evitar pérdidas económicas.

Los sistemas de vigilancia basados en la inteligencia artificial también pueden ayudar a analizar el comportamiento en reposo, las interacciones sociales y los patrones de alimentación. Los ganaderos también pueden utilizar la estimación de poses para obtener observaciones sobre signos de estrés o agresividad. Estos datos pueden utilizarse para mejorar las condiciones de vida de los animales y aumentar su bienestar.

__wf_reserved_inherit
Fig. 4. Visualización de la estimación de la pose de la vaca.

Casos de uso de YOLO11 en la industria del fitness

La estimación de posturas también puede ayudar a las personas a mejorar su postura en tiempo real mientras hacen ejercicio. Con YOLO11, los instructores de gimnasia y yoga pueden monitorizar y seguir los movimientos corporales de las personas que hacen ejercicio, centrándose en puntos clave como las articulaciones y las extremidades para evaluar su postura. Los datos recogidos pueden compararse con las posturas y técnicas de entrenamiento ideales, y los instructores pueden recibir alertas si alguien realiza un movimiento de forma incorrecta, lo que ayuda a prevenir lesiones.

__wf_reserved_inherit
Fig. 5. Uso de la estimación de poses para analizar un entrenamiento.

Por ejemplo, durante una clase de yoga, la estimación de posturas puede ayudar a controlar si todos los alumnos mantienen el equilibrio y la alineación adecuados. Las aplicaciones móviles integradas con visión por ordenador y estimación de posturas pueden hacer más accesible el ejercicio físico a las personas que se ejercitan en casa o a quienes no tienen acceso a entrenadores personales. Esta información continua en tiempo real ayuda a los usuarios a mejorar su técnica y alcanzar sus objetivos de fitness, reduciendo al mismo tiempo el riesgo de lesiones.

Probando la estimación de la pose en tiempo real con el modelo YOLO11

Ahora que hemos explorado qué es la estimación de la pose y discutido algunas de sus aplicaciones. Veamos cómo probar la estimación de la pose con el nuevo modelo YOLO11. Para empezar, hay dos formas de hacerlo: utilizando el paquete Python de Ultralytics o a través de Ultralytics HUB. Veamos ambas opciones.

Ejecutar inferencias con YOLO11

Ejecutar una inferencia implica que el modelo YOLO11 procese nuevos datos fuera de sus conjuntos de entrenamiento y utilice los patrones que aprendió para hacer predicciones basadas en esos datos. Puede ejecutar inferencias mediante código con el paquete Ultralytics Python. Todo lo que necesitas hacer para empezar es instalar el paquete Ultralytics usando pip, conda o Docker. Si se enfrenta a algún problema durante la instalación, nuestra Guía de problemas comunes ofrece consejos útiles para la solución de problemas. 

Una vez que haya instalado el paquete correctamente, el siguiente código describe cómo cargar un modelo y utilizarlo para predecir las poses de los objetos en una imagen.

__wf_reserved_inherit
Fig. 6. Fragmento de código que muestra la ejecución de inferencias con YOLO11.

Entrenamiento de un modelo YOLO11 personalizado

Digamos que estás trabajando en un proyecto de visión por ordenador y tienes un conjunto de datos específico para una aplicación concreta que implica la estimación de la pose. Entonces puede ajustar y entrenar un modelo YOLO11 personalizado para adaptarlo a su aplicación. Por ejemplo, puedes utilizar un conjunto de datos de puntos clave para analizar y comprender la pose de un tigre en imágenes identificando características clave como la posición de sus extremidades, cabeza y cola.

Puede utilizar el siguiente fragmento de código para cargar y entrenar un modelo de estimación de pose YOLO11. El modelo puede construirse a partir de una configuración YAML, o puede cargar un modelo preentrenado para el entrenamiento. Este script también le permite transferir pesos y comenzar a entrenar el modelo utilizando un conjunto de datos especificado, como el conjunto de datos COCO para la estimación de la pose.

__wf_reserved_inherit
Fig 7. Entrenamiento personalizado YOLO11.

Utilizando el modelo personalizado recién entrenado, puede realizar inferencias sobre imágenes no vistas relacionadas con su solución de visión por ordenador. El modelo entrenado también puede convertirse a otros formatos mediante el modo de exportación.

Pruebe YOLO11 en Ultralytics HUB

Hasta ahora, hemos visto métodos para utilizar YOLO11 que requieren algunos conocimientos básicos de codificación. Si eso no es lo que estás buscando, o no estás familiarizado con la codificación, hay otra opción: Ultralytics HUB. Ultralytics HUB es una plataforma fácil de usar diseñada para simplificar el proceso de formación y despliegue de modelos YOLO. HUB le permite gestionar fácilmente conjuntos de datos, entrenar modelos y desplegarlos sin necesidad de conocimientos técnicos.

Para realizar inferencias sobre imágenes, puede crear una cuenta, navegar hasta la sección "Modelos" y elegir el modelo de estimación de la pose YOLO11 que le interese. En la sección de vista previa, puede cargar una imagen y ver los resultados de la predicción, como se muestra a continuación. 

__wf_reserved_inherit
Fig. 8. Estimación de la pose en Ultralytics HUB con YOLO11.

Avances de YOLO11 en la detección de la pose humana

Ultralytics YOLO11 ofrece soluciones precisas y flexibles para tareas como la estimación de la postura en una amplia gama de aplicaciones. Desde mejorar la seguridad de los trabajadores en las obras de construcción hasta controlar la salud del ganado y ayudar a corregir la postura en rutinas de fitness, YOLO11 aporta precisión y comentarios en tiempo real gracias a su avanzada tecnología de visión por ordenador. 

Su versatilidad, con múltiples variantes de modelos y la posibilidad de realizar entrenamientos personalizados para casos de uso específicos, la convierten en una herramienta muy valiosa tanto para desarrolladores como para empresas. Ya sea mediante la codificación con el paquete Python de Ultralytics o utilizando el HUB de Ultralytics para una implementación más sencilla, YOLO11 hace que la estimación de la pose sea accesible e impactante.

Para obtener más información, visite nuestro repositorio de GitHub y participe en nuestra comunidad. Explore las aplicaciones de IA en fabricación y agricultura en nuestras páginas de soluciones. 🚀

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Empezar gratis
Enlace copiado en el portapapeles