¡Sintonice YOLO Vision 2025!
25 de septiembre de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glosario

Estimación de la pose

Descubra la estimación de la pose: cómo funcionan los modelos de puntos clave (descendentes o ascendentes), usos reales desde la sanidad a los deportes, además de las principales ventajas y retos.

La estimación de la postura es una tarea de visión por ordenador que identifica la posición y orientación de una persona u objeto mediante la localización de puntos clave, como articulaciones, puntos de referencia u otras características distintivas. El resultado es un conjunto de coordenadas que pueden conectarse para formar una estructura esquelética, proporcionando una comprensión detallada de la postura y el movimiento de un objeto dentro de una imagen o vídeo. Esta tecnología es fundamental para las aplicaciones que requieren un conocimiento del movimiento, los gestos o configuraciones corporales específicas, desde el seguimiento del estado físico hasta la robótica.

Cómo funciona la estimación de poses

Los modelos de estimación de la pose analizan los datos visuales para predecir la ubicación de puntos clave predefinidos. En el caso de la estimación de la pose humana, suelen ser las articulaciones principales, como hombros, codos, caderas y rodillas. Estos puntos se enlazan para crear un esqueleto, que representa la estructura del cuerpo y la pose actual. Existen dos métodos principales para este proceso:

  • Enfoque descendente: Este método utiliza primero un detector de objetos para identificar y aislar a cada persona u objeto en una imagen con un cuadro delimitador. A continuación, analiza el contenido de cada cuadro individualmente para localizar los puntos clave de ese caso concreto. Aunque intuitivo, su rendimiento depende en gran medida de la detección inicial de objetos.
  • Enfoque ascendente: Este enfoque comienza detectando todos los puntos clave de toda la imagen -por ejemplo, todos los codos y todas las rodillas- y luego los agrupa en esqueletos distintos. Este método puede ser más eficaz en escenas con mucha gente, ya que su tiempo de procesamiento no está ligado al número de personas presentes.

Las arquitecturas modernas, como las utilizadas en Ultralytics YOLO11, suelen combinar los puntos fuertes de ambos enfoques para lograr un equilibrio entre velocidad y precisión en las aplicaciones en tiempo real.

Estimación de la pose frente a otras tareas de visión por ordenador

La estimación de la pose proporciona un nivel de análisis más granular en comparación con otras tareas habituales de visión por ordenador. Aunque están relacionadas, estas tareas tienen fines distintos:

  • Detección de objetos se centra en la identificación y localización de objetos mediante el trazado de un rectángulo a su alrededor. Responde a las preguntas "¿Qué es el objeto?" y "¿Dónde está?", pero no proporciona información sobre la postura o la articulación del objeto.
  • Segmentación de instancias lleva la detección un paso más allá, perfilando la forma precisa de cada objeto a nivel de píxel. Sin embargo, al igual que la detección de objetos, no describe la configuración interna del objeto.

La estimación de la pose es única por su capacidad de interpretar cómo se posiciona y se mueve un objeto o una persona, lo que resulta crucial para comprender mejor las acciones y los comportamientos.

Aplicaciones en el mundo real

La capacidad de analizar el movimiento abre un amplio abanico de aplicaciones en muchos sectores.

  • La IA en la asistencia sanitaria y la fisioterapia: Los sistemas de estimación de posturas ayudan a monitorizar a los pacientes que realizan ejercicios de rehabilitación, garantizando la forma correcta y realizando un seguimiento de los progresos a lo largo del tiempo. Al analizar los movimientos de un paciente a través de una simple cámara, estos sistemas pueden ofrecer información en tiempo real, ayudando a prevenir lesiones y mejorar los resultados de la recuperación sin necesidad de evaluaciones manuales.
  • Análisis deportivo y fitness: Entrenadores y atletas utilizan la estimación de la postura para realizar análisis biomecánicos detallados de los movimientos. Por ejemplo, puede seguir el swing de un golfista, la forma de lanzar de un jugador de baloncesto o la marcha de un corredor para identificar áreas de mejora y reducir el riesgo de lesiones. Esta tecnología también se integra en aplicaciones de seguimiento de entrenamientos para guiar a los usuarios a través de ejercicios con la técnica adecuada.
  • Captura de movimiento y animación: En la industria del entretenimiento, la estimación de poses ofrece una alternativa sin marcadores a las técnicas tradicionales de captura de movimiento, que a menudo requieren que los actores lleven trajes especiales con sensores. Esto simplifica el proceso de animación de personajes digitales, haciéndolo más accesible y eficiente.
  • Control del comportamiento animal: Los investigadores aplican la estimación de posturas para estudiar a los animales en sus hábitats naturales sin etiquetas intrusivas. El seguimiento de las posturas y movimientos de distintas especies permite a los científicos comprender mejor las interacciones sociales y otros comportamientos vitales para la conservación de la fauna.

Principales ventajas y retos

La estimación de la pose ofrece importantes ventajas, pero también tiene ciertas limitaciones.

Beneficios

  • Rentable: Se basa en cámaras estándar, lo que elimina la necesidad de hardware o sensores especializados y caros.
  • No invasivo: permite seguir el movimiento de personas y animales sin marcadores físicos ni etiquetas.
  • Riqueza de datos: Proporciona información detallada sobre la postura y el movimiento que no está disponible en otras tareas de visión por ordenador.

Desafíos

  • Oclusión: La precisión puede disminuir considerablemente cuando las partes del cuerpo quedan bloqueadas a la vista o se solapan con otros objetos o personas.
  • Factores ambientales: Las malas condiciones de iluminación, el desenfoque de movimiento y los fondos desordenados pueden afectar negativamente al rendimiento del modelo.
  • Requisitos de los datos: El entrenamiento de modelos precisos requiere conjuntos de datos grandes y diversos, como el conjunto de datos COCO-Pose, y los modelos pueden no generalizarse bien a poses o sujetos no bien representados en los datos de entrenamiento.

Únete a la comunidad de Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora
Enlace copiado al portapapeles