Descubra os pontos-chave da visão computacional: estimativa de pose com o Ultralytics YOLO11 para fitness, reconhecimento de gestos e rastreio rápido e preciso.
Os pontos-chave são localizações espaciais específicas e informativas dentro de uma imagem que definem características distintas de um objeto ou cena. No domínio da visão computacional (CV), esses pontos — normalmente representados como coordenadas X e Y — marcam áreas significativas de interesse, como os cantos de um edifício, características faciais como os olhos e o nariz ou as articulações anatómicas do corpo humano. Ao contrário do processamento de cada pixel numa grelha densa, o foco nesses pontos esparsos e semanticamente ricos permite que os modelos de inteligência artificial (IA) compreendam com eficiência a geometria, analisem formas e track com alta precisão. Esse conceito é fundamental para tarefas avançadas que exigem uma compreensão estrutural do objeto, em vez de apenas sua presença ou localização.
Os pontos-chave servem como blocos de construção fundamentais para mapear a estrutura de objetos dinâmicos. Quando vários pontos-chave são detetados e conectados, eles formam um gráfico esquelético ou wireframe que representa a pose do objeto. Isso é mais comumente aplicado na estimativa de pose, onde algoritmos de aprendizagem profunda (DL) prevêem a localização das articulações — ombros, cotovelos, ancas e joelhos — para reconstruir a postura humana ou animal.
Ao aproveitar arquiteturas avançadas como o modelo Ultralytics , os sistemas podem regressar essas coordenadas diretamente a partir de imagens de entrada com uma velocidade notável. Este processo envolve uma complexa extração de características, em que a rede neural aprende a identificar padrões locais invariáveis em relação à iluminação, rotação e escala. Como os pontos-chave representam um resumo condensado do estado de um objeto, eles são computacionalmente eficientes, tornando-os ideais para inferência em tempo real em dispositivos de computação de ponta.
Para compreender a utilidade específica dos pontos-chave, é útil compará-los com outras tarefas primárias de visão computacional encontradas na Ultralytics :
A capacidade de track pontos específicos de um assunto abre a porta a diversas aplicações em vários sectores:
As bibliotecas modernas facilitam a implementação da deteção de pontos-chave utilizando modelos pré-treinados. O
ultralytics O pacote fornece acesso instantâneo a modelos de última geração, como YOLO26 e
YOLO11, que pode ser treinado em conjuntos de dados como
COCO ou
Pose do Tigre.
O exemplo a seguir demonstra como carregar um modelo de estimativa de pose e visualizar os pontos-chave detetados usando Python:
from ultralytics import YOLO
# Load a pretrained YOLO26n-pose model
model = YOLO("yolo26n-pose.pt")
# Run inference on a local image
results = model("path/to/runner.jpg")
# Visualize the results, showing the skeletal keypoints
results[0].show()
Neste fluxo de trabalho, o modelo gera um objeto de resultado contendo as coordenadas e um
índice de confiança para cada ponto detectado. Os programadores podem
extrair estes dados brutos x, y valores para criar uma lógica personalizada, como a contagem de repetições numa aplicação de ginásio ou
controlar um personagem de jogo através de captura de movimento.