Pose Estimation
Aprende cómo la estimación de poses utiliza puntos clave para rastrear el movimiento. Explora aplicaciones del mundo real y comienza a usar Ultralytics YOLO26 para obtener resultados rápidos y precisos.
La estimación de pose es una técnica especializada de computer vision que va más allá de simplemente detectar la presencia de objetos, ya que busca comprender su estructura geométrica y orientación física. Mientras que la object detection estándar dibuja una sencilla caja rectangular alrededor de un sujeto, la estimación de pose identifica puntos semánticos específicos, conocidos como keypoints, tales como articulaciones en un cuerpo humano (codos, rodillas, hombros) o esquinas estructurales en un vehículo. Al mapear estos puntos de referencia, los modelos de machine learning pueden reconstruir una representación esquelética del sujeto, permitiendo a los sistemas interpretar el lenguaje corporal, la dinámica del movimiento y la posición precisa en el espacio 2D o 3D.
Link to this sectionMecanismos centrales: Top-Down frente a Bottom-Up#
La estimación de pose moderna depende en gran medida de arquitecturas sofisticadas de deep learning, que a menudo utilizan Convolutional Neural Networks (CNNs) para procesar datos visuales. Los algoritmos generalmente siguen una de estas dos estrategias principales para identificar keypoints:
- Enfoques Top-Down: Este método emplea primero un modelo de detección de objetos para localizar instancias individuales dentro de bounding boxes. Una vez que se recorta a una persona u objeto de la imagen general, el estimador de pose predice los keypoints dentro de esa región específica. Este enfoque suele ser muy preciso, pero puede sufrir una mayor inference latency a medida que aumenta el número de sujetos en el encuadre.
- Enfoques Bottom-Up: Por el contrario, esta estrategia detecta todos los posibles keypoints en toda la imagen simultáneamente (por ejemplo, encontrando todas las "rodillas izquierdas" en una multitud) y luego utiliza algoritmos de asociación para agruparlos en esqueletos individuales. Este método es generalmente preferido para real-time inference en escenas concurridas, ya que el coste computacional permanece relativamente constante independientemente de cuántas personas estén presentes.
Modelos de última generación como YOLO26 utilizan arquitecturas avanzadas end-to-end que equilibran estas necesidades, proporcionando una estimación de pose de alta velocidad adecuada para el despliegue en dispositivos de edge AI y plataformas móviles.
Link to this sectionDiferenciación de términos relacionados de computer vision#
Resulta útil diferenciar la estimación de pose de otras tareas de reconocimiento visual para comprender su valor único en flujos de trabajo de computer vision:
- Object Detection: Se centra en identificar qué es un objeto y dónde está, devolviendo una caja rectangular. Trata al sujeto como un objeto rígido sin entender su articulación interna.
- Instance Segmentation: Genera una máscara perfecta a nivel de píxel que perfila la forma precisa del objeto. Aunque la segmentación proporciona límites, no identifica explícitamente las articulaciones o enlaces esqueléticos necesarios para el kinematic analysis.
- Pose Estimation: Se dirige específicamente a la estructura interna, mapeando conexiones entre puntos de referencia predeterminados (por ejemplo, de la cadera a la rodilla) para analizar la postura y la acción.
Link to this sectionAplicaciones en el mundo real#
La capacidad de digitalizar el movimiento humano y de objetos ha dado lugar a aplicaciones transformadoras en diversas industrias, a menudo entrenadas utilizando herramientas como la Ultralytics Platform para gestionar grandes conjuntos de datos de keypoints anotados.
Link to this sectionAtención sanitaria y rehabilitación#
En el campo médico, la AI in healthcare utiliza la estimación de pose para supervisar la rehabilitación de pacientes de forma remota. Al rastrear los ángulos de las articulaciones y el rango de movimiento, los sistemas automatizados pueden garantizar que los pacientes realicen physical therapy exercises correctamente en casa. Esto reduce el riesgo de relesión y permite a los clínicos cuantificar el progreso de la recuperación sin necesidad de costosos equipos de laboratorio.
Link to this sectionAnálisis deportivo#
Los entrenadores y atletas aprovechan el sports analytics para optimizar el rendimiento. Los modelos de estimación de pose pueden analizar el plano del swing de un golfista, la longitud de la zancada de un corredor o la biomecánica de un lanzador sin necesidad de los intrusivos trajes con marcadores utilizados en la motion capture tradicional. Esto proporciona información inmediata y basada en datos para mejorar la técnica y prevenir lesiones por sobreuso.
Link to this sectionRetail y análisis de comportamiento#
En entornos comerciales, los sistemas de AI in retail utilizan la detección de pose para comprender el comportamiento del cliente, como cuando alcanza productos en estantes altos o permanece en pasillos específicos. Estos datos ayudan a optimizar la disposición de las tiendas y a mejorar el inventory management correlacionando acciones físicas con decisiones de compra.
Link to this sectionEjemplo de código: Estimación de pose con YOLO26#
Implementar la estimación de pose es sencillo con los modernos frameworks de Python. El siguiente ejemplo demuestra cómo utilizar el paquete ultralytics para cargar un modelo YOLO26 preentrenado (el sucesor de YOLO11) y detectar keypoints humanos en una imagen.
from ultralytics import YOLO
# Load the YOLO26 pose model (nano version for speed)
model = YOLO("yolo26n-pose.pt")
# Perform inference on an image source
# The model identifies bounding boxes and specific keypoints (joints)
results = model("https://ultralytics.com/images/bus.jpg")
# Print the xy coordinates of detected keypoints
print(results[0].keypoints.xy)
# Visualize the skeletal results directly
results[0].show()





