Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Estimación de la pose

Descubra la estimación de la pose: cómo funcionan los modelos de puntos clave (descendentes o ascendentes), usos reales desde la sanidad a los deportes, además de las principales ventajas y retos.

La estimación de la postura es una tarea especializada de visión por computadora que va más allá de la detección de objetos para identificar su geometría y orientación específicas. Al señalar las coordenadas de los puntos de referencia estructurales , conocidos como puntos clave, esta tecnología crea una representación esquelética de un sujeto. En los seres humanos, estos puntos clave suelen corresponder a las principales articulaciones, como hombros, codos, caderas y rodillas. Esta capacidad permite a los modelos de aprendizaje automático interpretar el lenguaje corporal , la actividad y la postura, salvando la brecha entre la simple detección de píxeles y la comprensión de comportamientos físicos complejos .

Mecanismos y enfoques básicos

La estimación de poses moderna se basa en gran medida en arquitecturas de aprendizaje profundo, concretamente en redes neuronales convolucionales (CNN) y, cada vez más, en transformadores. El proceso se divide generalmente en dos metodologías principales:

  • Enfoque descendente: Este método emplea primero un modelo de detección de objetos para instancias individuales (por ejemplo, humanos) dentro de un cuadro delimitador. Una vez Una vez recortado, el sistema calcula los puntos clave de esa persona. Este método suele ser más preciso, pero costoso desde el punto de vista informático a medida que aumenta el número de personas. computacionalmente caro a medida que aumenta el número de personas.
  • Enfoque ascendente: Alternativamente, el modelo detecta todos los puntos clave potenciales en toda la imagen (por ejemplo, cada codo izquierdo) y luego los asocia para formar esqueletos distintos. Esto suele ser preferible para inferencia en tiempo real en escenas abarrotadas, ya que el tiempo de procesamiento depende menos del número de sujetos.

Para aplicaciones de alto rendimiento, los últimos modelos YOLO26 integran estos conceptos para ofrecer una rápida estimación de la postura adecuada para dispositivos periféricos.

Distinguir conceptos relacionados

Es crucial diferenciar la estimación de la pose de tareas de visión similares:

  • Detección de objetos: Mientras que detección de objetos identifica dónde está un objeto y qué es (etiqueta de clase), trata el objeto como una caja rígida. La estimación de la pose revela la estructura interna y la articulación dentro de esa caja.
  • Segmentación de instancias: La segmentación por instancias proporciona una una máscara perfecta de píxeles de la forma de un objeto. Si bien esboza el límite, no identifica explícitamente las articulaciones o esqueleto, lo cual es necesario para analizar la dinámica del movimiento o la cinemática. cinemática.

Aplicaciones en el mundo real

La utilidad de la estimación de la pose se extiende a diversos sectores en los que es fundamental analizar el movimiento.

Sanidad y rehabilitación

En el campo de la IA en la atención sanitaria, la estimación de la postura ayuda en fisioterapia mediante el seguimiento automático de los movimientos del paciente. Los sistemas pueden medir el ángulo de las articulaciones durante los ejercicios de rehabilitación para garantizar que los pacientes mantengan la forma adecuada y reducir así el riesgo de que vuelvan a lesionarse. Esto permite la monitorización a distancia y los avances en telesalud, haciendo más accesible una atención de calidad.

Análisis deportivo y biomecánica

Entrenadores y deportistas utilizan análisis deportivo para diseccionar el rendimiento. Al extraer datos biomecánicos de vídeo, la IA puede analizar el plano de swing de un golfista o la eficiencia de la marcha de un corredor sin necesidad de los trajes de marcadores intrusivos utilizados en la captura de movimiento tradicional.

Ejemplo de código: Estimación de pose con YOLO26

Los siguientes Python El fragmento muestra cómo cargar un modelo YOLO26 preentrenado y realizar la estimación de la pose en una imagen. Para ello es necesario el ultralytics y visualiza el salida esquelética.

from ultralytics import YOLO

# Load the official YOLO26 nano pose model
model = YOLO("yolo26n-pose.pt")

# Run inference on an image source to detect keypoints
results = model("path/to/image.jpg")

# Visualize the detected keypoints and skeleton
results[0].show()

Retos y datos

Para entrenar modelos de pose sólidos se necesitan conjuntos de datos masivos con anotaciones. Las referencias estándar, como el conjunto de datosCOCO Pose, proporcionan miles de figuras humanas etiquetadas. Sin embargo, sigue habiendo problemas, como la oclusión (cuando se ocultan partes del cuerpo) y la autooclusión (cuando una persona bloquea sus propias extremidades). partes del cuerpo) y la autooclusión (cuando una persona bloquea sus propias extremidades). Para resolverlos se necesitan técnicas avanzadas de aumento de datos y diversos datos de entrenamiento que abarquen varios ángulos y de iluminación.

Además, la implementación de estos modelos en dispositivos de IA periféricos requiere una optimización cuidadosa, como la cuantificación de modelos, para mantener una alta precisión sin sacrificar la velocidad. Los usuarios pueden optimizar este flujo de trabajo utilizando Ultralytics , que simplifica el entrenamiento y la implementación.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora