Descubra los puntos clave de la visión por ordenador: estimación de la pose con Ultralytics YOLO11 para fitness, reconocimiento de gestos y seguimiento rápido y preciso.
Los puntos clave son ubicaciones espaciales específicas e informativas dentro de una imagen que definen características distintivas de un objeto o escena. En el ámbito de la visión por computadora (CV), estos puntos, que suelen representarse como coordenadas X e Y, marcan áreas de interés significativas, como las esquinas de un edificio, rasgos faciales como los ojos y la nariz, o las articulaciones anatómicas del cuerpo humano. A diferencia del procesamiento de cada píxel en una cuadrícula densa, centrarse en estos puntos dispersos y semánticamente ricos permite a los modelos de inteligencia artificial (IA) comprender eficazmente la geometría, analizar formas y track con gran precisión. Este concepto es fundamental para tareas avanzadas que requieren una comprensión estructural del sujeto, más allá de su mera presencia o ubicación.
Los puntos clave sirven como bloques de construcción fundamentales para mapear la estructura de objetos dinámicos. Cuando se detectan y conectan múltiples puntos clave, forman un gráfico esquelético o estructura alámbrica que representa la pose del objeto. Esto se aplica más comúnmente en la estimación de la pose, donde los algoritmos de aprendizaje profundo (DL) predicen la ubicación de las articulaciones (hombros, codos, caderas y rodillas) para reconstruir la postura humana o animal.
Al aprovechar arquitecturas avanzadas como el modelo Ultralytics , los sistemas pueden realizar una regresión de estas coordenadas directamente a partir de las imágenes de entrada con una velocidad notable. Este proceso implica una compleja extracción de características, en la que la red neuronal aprende a identificar patrones locales invariables en cuanto a iluminación, rotación y escala. Dado que los puntos clave representan un resumen condensado del estado de un objeto, son computacionalmente eficientes, lo que los hace ideales para la inferencia en tiempo real en dispositivos de computación periférica.
Para comprender la utilidad específica de los puntos clave, resulta útil compararlos con otras tareas principales de visión artificial que se encuentran en la Ultralytics :
La capacidad de track puntos concretos de un tema abre la puerta a diversas aplicaciones en distintos sectores:
Las bibliotecas modernas facilitan la detección de puntos clave mediante modelos preentrenados. El sitio
ultralytics El paquete proporciona acceso instantáneo a modelos de última generación como YOLO26 y
YOLO11, que puede entrenarse con conjuntos de datos como
COCO o
Postura del tigre.
El siguiente ejemplo muestra cómo cargar un modelo de estimación de pose y visualizar los puntos clave detectados utilizando Python:
from ultralytics import YOLO
# Load a pretrained YOLO26n-pose model
model = YOLO("yolo26n-pose.pt")
# Run inference on a local image
results = model("path/to/runner.jpg")
# Visualize the results, showing the skeletal keypoints
results[0].show()
En este flujo de trabajo, el modelo genera un objeto de resultado que contiene las coordenadas y un
puntuación de confianza para cada punto detectado. Los desarrolladores pueden
extraer estos x, y valores para construir una lógica personalizada, como contar repeticiones en una aplicación de gimnasia o
controlar un personaje de juego mediante captura de movimiento.