Descubra la estimación de la pose: cómo funcionan los modelos de puntos clave (descendentes o ascendentes), usos reales desde la sanidad a los deportes, además de las principales ventajas y retos.
La estimación de la pose es una visión por ordenador (VC) que va más allá de la a identificar su geometría y orientación específicas. Al señalar las coordenadas de puntos de referencia estructurales -conocidos como puntos clave- estatecnología crea una representación esquelética de un sujeto. En los seres humanos, estos puntos clave suelen corresponder a las principales articulaciones, como hombros, codos, caderas y rodillas, caderas y rodillas. Esta capacidad permite interpretar el lenguaje corporal, la actividad y la interpretar el lenguaje corporal, la actividad y la postura, salvando las distancias entre la simple detección de píxeles y la comprensión de comportamientos físicos complejos. comportamientos físicos complejos.
La estimación moderna de la pose se basa en gran medida en arquitecturas de aprendizaje profundo (DL), en concreto redes neuronales convolucionales (CNN) y, cada vez más, transformadores. El proceso suele dividirse en dos metodologías principales:
Para aplicaciones de alto rendimiento, modelos como Ultralytics YOLO11 integran estos conceptos para ofrecer una estimación de la posición adecuada para dispositivos de borde.
Es crucial diferenciar la estimación de la pose de tareas de visión similares:
La utilidad de la estimación de la pose se extiende a diversos sectores en los que es fundamental analizar el movimiento.
En el campo de la IA en la atención sanitaria, la estimación de la postura ayuda en fisioterapia mediante el seguimiento automático de los movimientos del paciente. Los sistemas pueden medir el ángulo de las articulaciones durante los ejercicios de rehabilitación para garantizar que los pacientes mantengan la forma adecuada y reducir así el riesgo de que vuelvan a lesionarse. Esto permite la monitorización a distancia y los avances en telesalud, haciendo más accesible una atención de calidad.
Entrenadores y deportistas utilizan análisis deportivo para diseccionar el rendimiento. Al extraer datos biomecánicos de vídeo, la IA puede analizar el plano de swing de un golfista o la eficiencia de la marcha de un corredor sin necesidad de los trajes de marcadores intrusivos utilizados en la captura de movimiento tradicional.
Los siguientes Python muestra cómo cargar un modelo YOLO11 preentrenado
y realizar la estimación de la pose en una imagen. Para ello se requiere el ultralytics y visualiza el
salida esquelética.
from ultralytics import YOLO
# Load the official YOLO11 nano pose model
model = YOLO("yolo11n-pose.pt")
# Run inference on an image source
results = model("https://docs.ultralytics.com/usage/python/")
# Visualize the detected keypoints and skeleton
results[0].show()
Para entrenar modelos de pose sólidos se necesitan conjuntos de datos masivos con anotaciones. Las referencias estándar, como el conjunto de datosCOCO Pose, proporcionan miles de figuras humanas etiquetadas. Sin embargo, sigue habiendo problemas, como la oclusión (cuando se ocultan partes del cuerpo) y la autooclusión (cuando una persona bloquea sus propias extremidades). partes del cuerpo) y la autooclusión (cuando una persona bloquea sus propias extremidades). Para resolverlos se necesitan técnicas avanzadas de aumento de datos y diversos datos de entrenamiento que abarquen varios ángulos y de iluminación.
Además, el despliegue de estos modelos en dispositivos edge AI requiere una cuidadosa optimización cuantificación del modelo, para mantener una sin sacrificar la velocidad.