Descubra la estimación de la pose: cómo funcionan los modelos de puntos clave (descendentes o ascendentes), usos reales desde la sanidad a los deportes, además de las principales ventajas y retos.
La estimación de la postura es una tarea especializada de visión por computadora que va más allá de la detección de objetos para identificar su geometría y orientación específicas. Al señalar las coordenadas de los puntos de referencia estructurales , conocidos como puntos clave, esta tecnología crea una representación esquelética de un sujeto. En los seres humanos, estos puntos clave suelen corresponder a las principales articulaciones, como hombros, codos, caderas y rodillas. Esta capacidad permite a los modelos de aprendizaje automático interpretar el lenguaje corporal , la actividad y la postura, salvando la brecha entre la simple detección de píxeles y la comprensión de comportamientos físicos complejos .
La estimación de poses moderna se basa en gran medida en arquitecturas de aprendizaje profundo, concretamente en redes neuronales convolucionales (CNN) y, cada vez más, en transformadores. El proceso se divide generalmente en dos metodologías principales:
Para aplicaciones de alto rendimiento, los últimos modelos YOLO26 integran estos conceptos para ofrecer una rápida estimación de la postura adecuada para dispositivos periféricos.
Es crucial diferenciar la estimación de la pose de tareas de visión similares:
La utilidad de la estimación de la pose se extiende a diversos sectores en los que es fundamental analizar el movimiento.
En el campo de la IA en la atención sanitaria, la estimación de la postura ayuda en fisioterapia mediante el seguimiento automático de los movimientos del paciente. Los sistemas pueden medir el ángulo de las articulaciones durante los ejercicios de rehabilitación para garantizar que los pacientes mantengan la forma adecuada y reducir así el riesgo de que vuelvan a lesionarse. Esto permite la monitorización a distancia y los avances en telesalud, haciendo más accesible una atención de calidad.
Entrenadores y deportistas utilizan análisis deportivo para diseccionar el rendimiento. Al extraer datos biomecánicos de vídeo, la IA puede analizar el plano de swing de un golfista o la eficiencia de la marcha de un corredor sin necesidad de los trajes de marcadores intrusivos utilizados en la captura de movimiento tradicional.
Los siguientes Python El fragmento muestra cómo cargar un modelo YOLO26 preentrenado
y realizar la estimación de la pose en una imagen. Para ello es necesario el ultralytics y visualiza el
salida esquelética.
from ultralytics import YOLO
# Load the official YOLO26 nano pose model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image source to detect keypoints
results = model("path/to/image.jpg")
# Visualize the detected keypoints and skeleton
results[0].show()
Para entrenar modelos de pose sólidos se necesitan conjuntos de datos masivos con anotaciones. Las referencias estándar, como el conjunto de datosCOCO Pose, proporcionan miles de figuras humanas etiquetadas. Sin embargo, sigue habiendo problemas, como la oclusión (cuando se ocultan partes del cuerpo) y la autooclusión (cuando una persona bloquea sus propias extremidades). partes del cuerpo) y la autooclusión (cuando una persona bloquea sus propias extremidades). Para resolverlos se necesitan técnicas avanzadas de aumento de datos y diversos datos de entrenamiento que abarquen varios ángulos y de iluminación.
Además, la implementación de estos modelos en dispositivos de IA periféricos requiere una optimización cuidadosa, como la cuantificación de modelos, para mantener una alta precisión sin sacrificar la velocidad. Los usuarios pueden optimizar este flujo de trabajo utilizando Ultralytics , que simplifica el entrenamiento y la implementación.