Comparación de Ultralytics con otros YOLO para la estimación de posturas

¿Quieres poner en marcha un proyecto de visión artificial?

Cuando observas la postura de alguien, es fácil notar si está encorvado, inclinado hacia adelante o erguido. Los seres humanos podemos comprender rápidamente cómo se relacionan entre sí las diferentes partes del cuerpo.

Es una parte inherente a cómo interpretamos el movimiento y el lenguaje corporal en la vida cotidiana. Sin embargo, para las máquinas, este tipo de comprensión visual no es automática. Enseñar a un sistema a reconocer el movimiento y la estructura requiere técnicas avanzadas de aprendizaje profundo y visión artificial que le permitan interpretar las imágenes de forma significativa.

En concreto, la estimación de poses es una técnica de IA visual que permite a un modelo de visión artificial desarrollar una comprensión similar. En lugar de limitarse a detectar un objeto en una imagen, el modelo predice puntos clave que representan hitos estructurales importantes.

Estos puntos clave podrían corresponder a articulaciones del cuerpo, extremidades de animales, componentes de maquinaria o incluso puntos fijos, como las esquinas de una pista. Al identificar y rastrear estos puntos, el sistema puede comprender la posición, la alineación y el movimiento de una manera estructurada y medible.

A medida que la estimación de la postura se aplica a más escenarios del mundo real, los modelos tienen que manejar puntos clave no humanos, escenas complejas y conjuntos de datos personalizados de manera más eficaz. Por ejemplo, los modelos de última generación, como Ultralytics , admiten tareas de visión artificial, como la estimación de la postura, y se basan en modelos YOLO anteriores con mejoras arquitectónicas y de entrenamiento diseñadas para mejorar la flexibilidad y el rendimiento general.

Fig. 1. Ejemplo de estimación de postura habilitada por YOLO Fuente)

En este artículo, compararemos YOLO26-pose con los modelos anteriores Ultralytics YOLO y exploraremos cómo mejora la flexibilidad, la velocidad de convergencia y el rendimiento en escenas complejas. ¡Empecemos!

¿Qué es la estimación de pose?

Antes de entrar en la comparación Ultralytics YOLO , echemos un vistazo más de cerca a lo que realmente significa la estimación de poses en el contexto de la visión artificial.

La estimación de la pose es una técnica utilizada para detect track puntos clave track en una imagen o fotograma de vídeo. Estos puntos clave pueden representar puntos de referencia estructurales importantes, como las articulaciones del cuerpo humano, las extremidades de un animal, los componentes de una máquina o los puntos de referencia fijos de una escena.

Fig. 2. Estimación de la postura de los trabajadores mediante la estimación de la postura humana (Fuente)

Al identificar las coordenadas de estos puntos, un modelo puede comprender cómo se posiciona un objeto y cómo se mueve a lo largo del tiempo. A diferencia de la clasificación de imágenes, que asigna una única etiqueta a toda una imagen, o de los modelos de detección de objetos, que se centran en dibujar cuadros delimitadores alrededor de los objetos, la estimación de la pose proporciona información espacial más detallada sobre la estructura y el movimiento.

Descripción general de YOLO26-pose

YOLO26-pose está disponible en múltiples variantes o tamaños de modelo, incluyendo opciones ligeras como YOLO26n-pose y modelos más grandes como YOLO26m-pose, YOLO26l-pose y YOLO26x-pose. Esto permite a los equipos elegir el equilibrio adecuado entre velocidad y precisión en función de sus necesidades de hardware y rendimiento.

Ultralytics proporciona modelos de postura preentrenados con grandes conjuntos de datos generales, como el COCO , concretamente las anotaciones COCO(COCO ) para la estimación de la postura humana, por lo que no es necesario empezar desde cero. En la mayoría de los casos, los equipos ajustan estos modelos con sus propios conjuntos de datos para adaptarlos a puntos clave, diseños o entornos específicos.

Esto suele implicar la preparación de archivos de anotaciones personalizados que definen las coordenadas de los puntos clave y las etiquetas de clase en un formato estructurado. Estas anotaciones asignan los puntos clave a coordenadas de píxeles específicas dentro de cada imagen, lo que permite al modelo aprender relaciones espaciales precisas durante el entrenamiento.

El uso de modelos preentrenados agiliza el entrenamiento, reduce los requisitos de datos y ayuda a que los proyectos pasen a la fase de producción de forma más eficiente.

Aplicaciones reales de la estimación de la postura humana

A continuación, se muestran algunos ejemplos reales en los que la estimación de la postura desempeña un papel importante:

Atención sanitaria y rehabilitación: los médicos pueden utilizar modelos de postura para evaluar la postura, supervisar el progreso de la recuperación y analizar los patrones de movimiento durante la fisioterapia.
Sistemas autónomos: los drones y las cámaras inteligentes pueden utilizar la información sobre la postura para comprender mejor la orientación y el movimiento de los objetos en escenas dinámicas.
Seguridad en el lugar de trabajo: Las organizaciones pueden supervisar la postura corporal y los movimientos repetitivos para ayudar a identificar posibles riesgos para la seguridad.
Fitness y entrenamiento personal: las aplicaciones de fitness utilizan la estimación de posturas para track la forma en que se realizan track , contar las repeticiones y proporcionar información en tiempo real sobre la postura y los movimientos que se mantienen durante los tutoriales de fitness.

Fig. 3. La estimación de la postura puede ayudar a track puntos track del cuerpo durante el movimiento atlético. (Fuente)

Explorando la compatibilidad Ultralytics con la estimación de posturas

Ultralytics se basa enYOLO anteriores Ultralytics YOLO con actualizaciones diseñadas para que el entrenamiento y la implementación sean más prácticos.

Al igual que las versiones anteriores, admite la estimación de poses como parte de un marco unificado. La principal diferencia es que YOLO26 está diseñado para ser más flexible y estable en una gama más amplia de casos de uso del mundo real.

Los modelosYOLO anteriores Ultralytics estaban muy influenciados por conjuntos de datos de posturas humanas, lo que significaba que parte de los métodos antiguos se optimizaban en torno a las estructuras articulares humanas. YOLO26 elimina esas suposiciones específicas de los seres humanos.

Como resultado, es más adecuado para puntos clave no humanos, como la detección de las esquinas de una pista de tenis u otros puntos de referencia estructurales personalizados. Esto es importante porque los modelos YOLO26-pose preentrenados y listos para usar se entrenan con conjuntos de datos como COCO y predicen los puntos clave humanos definidos en las anotaciones del conjunto de datos.

Sin embargo, cuando los equipos desean detect tipos de puntos de referencia, como componentes de maquinaria, marcadores de campos deportivos o puntos de infraestructura, el modelo normalmente debe ajustarse con un conjunto de datos personalizado en el que se anoten esos puntos clave específicos.

Dado que YOLO26 no está vinculado a supuestos sobre las estructuras articulares humanas, puede adaptarse de manera más eficaz durante el ajuste fino. Esta flexibilidad permite que el modelo aprenda diseños de puntos clave personalizados de forma más fiable, lo que conduce a una mejora de las métricas de evaluación al validar conjuntos de datos con configuraciones de puntos clave únicas.

YOLO26-pose también está diseñado para mejorar la localización de puntos clave cuando partes de un objeto están parcialmente ocultas o aparecen a una escala muy pequeña. En escenas del mundo real con sujetos distantes, imágenes tomadas con drones o escenarios con objetos pequeños, esto puede dar lugar a predicciones de puntos clave más precisas en comparación con los modelos de pose anteriores.

Otra actualización importante es la mejora de la formulación de pérdidas utilizada durante el entrenamiento. La función de pérdida determina cómo el modelo corrige sus errores mientras aprende.

En lo que respecta a YOLO26-pose, este proceso es más eficaz, lo que ayuda al modelo a aprender más rápido y alcanzar una gran precisión en menos épocas, donde una época se refiere a una pasada completa por el conjunto de datos de entrenamiento.

En general, YOLO26-pose se basa en los modelos anteriores Ultralytics YOLO , con mejoras más evidentes en el soporte de puntos clave no humanos y la convergencia del entrenamiento, al tiempo que mantiene el mismo flujo de trabajo familiar.

Comparación entre YOLO26-pose y Ultralytics YOLOv5

La primera versión deYOLO Ultralytics , Ultralytics YOLOv5, se creó principalmente para la detección de objetos. Aunque YOLOv5 se amplió YOLOv5 para admitir la segmentación de instancias, no incluye un cabezal de estimación de pose nativo y especializado dentro del Ultralytics oficial Ultralytics .

Los equipos que necesitaban la detección de puntos clave solían recurrir a implementaciones independientes o modificaciones personalizadas. Ultralytics incluye la estimación de la pose como una tarea integrada, con un cabezal arquitectónico específico diseñado expresamente para predecir puntos clave.

Esto significa que los modelos YOLO26-pose pueden entrenarse, validarse e implementarse dentro del mismo flujo de trabajo unificado que la detección y la segmentación. Para proyectos centrados en la detección estructurada de puntos clave, YOLO26 proporciona soporte nativo para poses y una arquitectura específica para tareas que YOLOv5 ofrece de forma predeterminada.

Diferencias clave: YOLO26-pose frente a Ultralytics YOLOv8

Ultralytics YOLOv8 introdujo la estimación de poses nativas dentro del Ultralytics unificado Ultralytics , lo que facilita el entrenamiento y la implementación de modelos de puntos clave utilizando el mismo flujo de trabajo que la detección y la segmentación. Se basa en un proceso de posprocesamiento tradicional con supresión no máxima (NMS) y utiliza formulaciones de pérdida anteriores para la regresión y el entrenamiento de cuadros delimitadores.

YOLO26 se basa en estos fundamentos con actualizaciones arquitectónicas y de entrenamiento que repercuten directamente en la estimación de poses. Una diferencia importante es el diseño integral. YOLO26 elimina la necesidad de NMS externo NMS la inferencia, lo que simplifica la implementación y mejora la consistencia de la latencia, especialmente en CPU y dispositivos periféricos.

Otra mejora clave se encuentra en la metodología de entrenamiento. YOLO26 introduce el optimizador MuSGD junto con estrategias de pérdida actualizadas. Para las tareas de pose, integra la estimación de log-verosimilitud residual, que mejora la forma en que se modela la incertidumbre de los puntos clave. En conjunto, estos cambios pueden conducir a una convergencia más rápida y a predicciones de puntos clave más estables, especialmente en escenas complejas o parcialmente ocluidas.

En resumen, YOLOv8 estableció una base sólida y versátil. YOLO26-pose perfecciona esa base con una mayor eficiencia en el entrenamiento, un mejor manejo de la oclusión y una mayor flexibilidad para aplicaciones de posturas no humanas en el mundo real.

YOLO26-Pose frente a Ultralytics YOLO11: ¿Qué ha mejorado?

Ultralytics YOLO11 se basa en Ultralytics YOLOv8 perfecciona las capas de extracción de características y la estructura principal. Redujo los FLOP, mejoró la eficiencia de los parámetros y proporcionó mAP más alto, mAP mantuvo un sólido rendimiento en tiempo real. Para las tareas de pose, esto significó una mayor precisión de los puntos clave con una arquitectura más ligera.

YOLO26-pose continúa esa progresión con un cambio arquitectónico más fundamental. En pocas palabras, YOLO11 la eficiencia y la precisión de YOLOv8, y YOLO26 se basa en esa base con actualizaciones arquitectónicas y de entrenamiento destinadas a una convergencia más rápida, una inferencia más estable y una mayor precisión de la pose en escenarios complejos.

¿Por qué deberías empezar a utilizar el modelo YOLO26 para la estimación de poses?

A medida que exploras las diferencias entreYOLO Ultralytics , es posible que te preguntes si debes cambiar a YOLO26-pose.

La respuesta corta es que se trata de una actualización sencilla. Si ya utiliza Ultralytics YOLOv8 o Ultralytics YOLO11, cambiar a YOLO26-pose normalmente solo implica cambiar la versión del modelo, sin necesidad de reconstruir su canalización.

Podrá beneficiarse de una mejor compatibilidad con puntos clave no humanos, una convergencia más rápida durante el entrenamiento y un mejor manejo de los puntos ocluidos, todo ello sin salir del Ultralytics . Para la mayoría de los proyectos de pose nuevos y existentes, pasar a YOLO26-pose es una forma sencilla de obtener esas mejoras con una fricción mínima.

Además, YOLO26-pose es totalmente compatible con el Python Ultralytics Python , que se basa en PyTorch simplifica el entrenamiento, la validación y la implementación. Los modelos se pueden exportar a formatos como ONNX, TensorRT, OpenVINO, CoreML y TFLite, lo que facilita su implementación en GPU, CPU y dispositivos periféricos sin cambiar el flujo de trabajo general.

Conclusiones clave

Ultralytics hace que la estimación de posturas sea más flexible y fiable, especialmente cuando se trabaja con puntos clave no humanos o escenas complejas. Se entrena más rápido, gestiona mejor la oclusión y ofrece resultados más consistentes en diferentes conjuntos de datos. Para los equipos que ya utilizan los modelosYOLO Ultralytics YOLO , YOLO26 ofrece mejoras claras sin cambiar los flujos de trabajo existentes.

¿Quiere saber más sobre la IA? Consulte nuestra comunidad y nuestro repositorio de GitHub. Explore nuestras páginas de soluciones para obtener más información sobre la IA en robótica y la visión artificial en la agricultura. Descubra nuestras opciones de licencia y comience a construir con visión artificial hoy mismo.

Ultralytics frente a otrosYOLO Ultralytics YOLO para la estimación de posturas