Descubra os pontos-chave da visão computacional: estimativa de pose com o Ultralytics YOLO11 para fitness, reconhecimento de gestos e rastreio rápido e preciso.
Os pontos-chave são localizações espaciais precisas e informativas dentro de uma imagem que definem caraterísticas distintas de um objeto ou cena. No domínio da visão por computador, estas coordenadas - normalmente representadas como valores X e Y - marcam pontos de interesse significativos, como os cantos de um cantos de um edifício, o centro de um olho ou as articulações de um corpo humano. Ao contrário do processamento de todos os píxeis de uma imagem, o foco estes pontos esparsos e semanticamente ricos permitem modelos de inteligência artificial (IA) para compreender eficazmente a geometria, analisar formas e track movimentos com elevada precisão. Este conceito é fundamental para tarefas avançadas que requerem uma compreensão estrutural do objeto, em vez de apenas a sua presença ou localização.
Os pontos-chave servem como blocos de construção fundamentais para mapear a estrutura de objectos dinâmicos. Quando vários pontos-chave são detectados e ligados, formam um gráfico esquelético ou uma estrutura de arame que representa a pose do objeto. Esta é mais comummente aplicado na estimativa de pose, onde os algoritmos prevêem a localização das articulações anatómicas - ombros, cotovelos, ancas e joelhos - para reconstruir a postura humana.
Ao tirar partido de arquitecturas de aprendizagem profunda como YOLO11os sistemas podem regredir estas coordenadas diretamente a partir das imagens de entrada. Este processo envolve extração de caraterísticas complexas em que a rede aprende a identificar padrões locais invariantes à iluminação, rotação e escala. Os dados resultantes são leves e e computacionalmente eficientes, tornando-os ideais para inferência em tempo real em dispositivos de ponta.
Para compreender a utilidade específica dos pontos-chave, é útil compará-los com outras tarefas primárias de visão computacional computacional:
A capacidade de track pontos específicos de um assunto abre a porta a diversas aplicações em vários sectores:
As bibliotecas modernas facilitam a implementação da deteção de pontos-chave utilizando modelos pré-treinados. O
ultralytics fornece acesso instantâneo a
YOLO11 modelos treinados em conjuntos de dados maciços como
COCO para identificar as articulações humanas.
O exemplo seguinte demonstra como carregar um modelo de estimativa de pose e visualizar os pontos-chave detectados:
from ultralytics import YOLO
# Load a pretrained YOLO11n-pose model
model = YOLO("yolo11n-pose.pt")
# Run inference on a local image or URL
results = model("https://docs.ultralytics.com/tasks/detect/")
# Visualize the results, showing the skeletal keypoints
results[0].show()
Neste fluxo de trabalho, o modelo produz um Keypoints que contém as coordenadas e um objeto
índice de confiança para cada ponto detectado. Os programadores podem
extrair estes dados brutos x, y valores para criar uma lógica personalizada, como a contagem de repetições numa aplicação de ginásio ou
controlar um personagem de jogo através de
interação homem-computador.