Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Estimación de la pose

Descubra la estimación de la pose: cómo funcionan los modelos de puntos clave (descendentes o ascendentes), usos reales desde la sanidad a los deportes, además de las principales ventajas y retos.

La estimación de la pose es una visión por ordenador (VC) que va más allá de la a identificar su geometría y orientación específicas. Al señalar las coordenadas de puntos de referencia estructurales -conocidos como puntos clave- estatecnología crea una representación esquelética de un sujeto. En los seres humanos, estos puntos clave suelen corresponder a las principales articulaciones, como hombros, codos, caderas y rodillas, caderas y rodillas. Esta capacidad permite interpretar el lenguaje corporal, la actividad y la interpretar el lenguaje corporal, la actividad y la postura, salvando las distancias entre la simple detección de píxeles y la comprensión de comportamientos físicos complejos. comportamientos físicos complejos.

Mecanismos y enfoques básicos

La estimación moderna de la pose se basa en gran medida en arquitecturas de aprendizaje profundo (DL), en concreto redes neuronales convolucionales (CNN) y, cada vez más, transformadores. El proceso suele dividirse en dos metodologías principales:

  • Enfoque descendente: Este método emplea primero un modelo de detección de objetos para instancias individuales (por ejemplo, humanos) dentro de un cuadro delimitador. Una vez Una vez recortado, el sistema calcula los puntos clave de esa persona. Este método suele ser más preciso, pero costoso desde el punto de vista informático a medida que aumenta el número de personas. computacionalmente caro a medida que aumenta el número de personas.
  • Enfoque ascendente: Alternativamente, el modelo detecta todos los puntos clave potenciales en toda la imagen (por ejemplo, cada codo izquierdo) y luego los asocia para formar esqueletos distintos. Esto suele ser preferible para inferencia en tiempo real en escenas abarrotadas, ya que el tiempo de procesamiento depende menos del número de sujetos.

Para aplicaciones de alto rendimiento, modelos como Ultralytics YOLO11 integran estos conceptos para ofrecer una estimación de la posición adecuada para dispositivos de borde.

Distinguir conceptos relacionados

Es crucial diferenciar la estimación de la pose de tareas de visión similares:

  • Detección de objetos: Mientras que detección de objetos identifica dónde está un objeto y qué es (etiqueta de clase), trata el objeto como una caja rígida. La estimación de la pose revela la estructura interna y la articulación dentro de esa caja.
  • Segmentación de instancias: La segmentación por instancias proporciona una una máscara perfecta de píxeles de la forma de un objeto. Si bien esboza el límite, no identifica explícitamente las articulaciones o esqueleto, lo cual es necesario para analizar la dinámica del movimiento o la cinemática. cinemática.

Aplicaciones en el mundo real

La utilidad de la estimación de la pose se extiende a diversos sectores en los que es fundamental analizar el movimiento.

Sanidad y rehabilitación

En el campo de la IA en la atención sanitaria, la estimación de la postura ayuda en fisioterapia mediante el seguimiento automático de los movimientos del paciente. Los sistemas pueden medir el ángulo de las articulaciones durante los ejercicios de rehabilitación para garantizar que los pacientes mantengan la forma adecuada y reducir así el riesgo de que vuelvan a lesionarse. Esto permite la monitorización a distancia y los avances en telesalud, haciendo más accesible una atención de calidad.

Análisis deportivo y biomecánica

Entrenadores y deportistas utilizan análisis deportivo para diseccionar el rendimiento. Al extraer datos biomecánicos de vídeo, la IA puede analizar el plano de swing de un golfista o la eficiencia de la marcha de un corredor sin necesidad de los trajes de marcadores intrusivos utilizados en la captura de movimiento tradicional.

Ejemplo de código: Estimación de la pose con YOLO11

Los siguientes Python muestra cómo cargar un modelo YOLO11 preentrenado y realizar la estimación de la pose en una imagen. Para ello se requiere el ultralytics y visualiza el salida esquelética.

from ultralytics import YOLO

# Load the official YOLO11 nano pose model
model = YOLO("yolo11n-pose.pt")

# Run inference on an image source
results = model("https://docs.ultralytics.com/usage/python/")

# Visualize the detected keypoints and skeleton
results[0].show()

Retos y datos

Para entrenar modelos de pose sólidos se necesitan conjuntos de datos masivos con anotaciones. Las referencias estándar, como el conjunto de datosCOCO Pose, proporcionan miles de figuras humanas etiquetadas. Sin embargo, sigue habiendo problemas, como la oclusión (cuando se ocultan partes del cuerpo) y la autooclusión (cuando una persona bloquea sus propias extremidades). partes del cuerpo) y la autooclusión (cuando una persona bloquea sus propias extremidades). Para resolverlos se necesitan técnicas avanzadas de aumento de datos y diversos datos de entrenamiento que abarquen varios ángulos y de iluminación.

Además, el despliegue de estos modelos en dispositivos edge AI requiere una cuidadosa optimización cuantificación del modelo, para mantener una sin sacrificar la velocidad.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora