Descubra los puntos clave de la visión por ordenador: estimación de la pose con Ultralytics YOLO11 para fitness, reconocimiento de gestos y seguimiento rápido y preciso.
Los puntos clave son ubicaciones espaciales precisas e informativas dentro de una imagen que definen características distintivas de un objeto o una escena. escena. En el campo de la visión por ordenador, estas coordenadas -típicamente representadas como valores X e Y- marcan puntos de interés significativos, como las esquinas de un edificio, el centro de un ojo o las articulaciones de un cuerpo humano. de un edificio, el centro de un ojo o las articulaciones de un cuerpo humano. A diferencia del procesamiento de cada píxel de una imagen, centrarse en estos puntos dispersos y semánticamente ricos permite modelos de inteligencia artificial (IA) comprender la geometría, analizar las formas y track movimiento con gran precisión. Este concepto es fundamental para tareas avanzadas que requieren una comprensión estructural del sujeto, en lugar de sólo su presencia o ubicación.
Los puntos clave sirven como bloques de construcción fundamentales para mapear la estructura de los objetos dinámicos. Cuando se detectan y conectan varios Cuando se detectan y conectan varios puntos clave, forman un gráfico esquelético o alámbrico que representa la pose del objeto. Este Esto se aplica sobre todo a la estimación de la algoritmos predicen la ubicación de las articulaciones anatómicas -hombros, codos, caderas y rodillas- para reconstruir la postura humana.
Aprovechando arquitecturas de aprendizaje profundo como YOLO11los sistemas pueden recuperar estas coordenadas directamente a partir de las imágenes de entrada. Este proceso implica extracción de características complejas en las que la red a identificar patrones locales invariables a la iluminación, la rotación y la escala. Los datos resultantes son ligeros y computacionalmente eficientes, lo que los hace ideales para la inferencia en tiempo real en dispositivos periféricos.
Para comprender la utilidad específica de los puntos clave, resulta útil compararlos con otras tareas primarias de visión por ordenador informática:
La capacidad de track puntos concretos de un tema abre la puerta a diversas aplicaciones en distintos sectores:
Las bibliotecas modernas facilitan la detección de puntos clave mediante modelos preentrenados. El sitio
ultralytics proporciona acceso instantáneo a
YOLO11 modelos entrenados en conjuntos de datos masivos como
COCO para identificar articulaciones humanas.
El siguiente ejemplo muestra cómo cargar un modelo de estimación de pose y visualizar los puntos clave detectados:
from ultralytics import YOLO
# Load a pretrained YOLO11n-pose model
model = YOLO("yolo11n-pose.pt")
# Run inference on a local image or URL
results = model("https://docs.ultralytics.com/tasks/detect/")
# Visualize the results, showing the skeletal keypoints
results[0].show()
En este flujo de trabajo, el modelo produce un Keypoints que contiene las coordenadas y un objeto
puntuación de confianza para cada punto detectado. Los desarrolladores pueden
extraer estos x, y valores para construir una lógica personalizada, como contar repeticiones en una aplicación de gimnasia o
controlar un personaje de juego mediante
interacción persona-ordenador.