Keypoints
Aprende como os keypoints definem a geometria e postura do objeto em IA. Explora a estimativa de pose com o Ultralytics YOLO26 e começa com o nosso SDK Python fácil de usar.
Keypoints são localizações espaciais ou marcos distintos dentro de uma imagem que definem características significativas de um objeto ou sujeito. No contexto de visão computacional e aprendizado de máquina, um keypoint é tipicamente representado por um conjunto de coordenadas (X, Y) que apontam uma parte específica de um objeto, como o cotovelo de uma pessoa, o canto de um edifício ou o centro da roda de um carro. Ao contrário de tarefas mais simples que apenas identificam a presença de um objeto, identificar keypoints permite que modelos de inteligência artificial (IA) compreendam a geometria, a postura e o arranjo estrutural do sujeito. Essa capacidade é fundamental para análises visuais avançadas, permitindo que máquinas interpretem a linguagem corporal, rastreiem movimentos precisos e alinhem sobreposições digitais a objetos do mundo real.
Link to this sectionO papel dos Keypoints em modelos de IA#
Keypoints servem como dados fundamentais para pose estimation, uma técnica que mapeia a estrutura esquelética de um humano ou animal. Ao detectar um conjunto predefinido de pontos — como ombros, joelhos e tornozelos — algoritmos podem reconstruir a pose completa de um sujeito em tempo real. Esse processo vai além da object detection padrão, que normalmente gera uma bounding box em torno de um objeto sem compreender sua forma interna.
Arquiteturas modernas, como o Ultralytics YOLO26 de última geração, evoluíram para prever esses keypoints com alta precisão e velocidade. Esses modelos utilizam redes de deep learning (DL) treinadas em enormes datasets anotados, como o COCO Keypoints, para aprender os padrões visuais associados a articulações e características faciais. Durante a inferência, o modelo faz a regressão das coordenadas para cada keypoint, muitas vezes incluindo uma pontuação de confiança para indicar a confiabilidade da previsão.
Link to this sectionKeypoints vs. conceitos relacionados#
É útil distinguir keypoints de outras saídas comuns de visão computacional para compreender sua utilidade única:
- Keypoints vs. Bounding Boxes: Uma bounding box fornece uma localização aproximada, envolvendo todo o objeto em um retângulo. Keypoints fornecem uma localização de alta precisão de partes específicas dentro desse objeto.
- Keypoints vs. Image Segmentation: A image segmentation classifica cada pixel para criar uma máscara precisa da forma do objeto. Embora a segmentação ofereça informações detalhadas de contorno, os keypoints oferecem um resumo estrutural (um "esqueleto"), o que é frequentemente mais eficiente para analisar movimento e cinemática.
- Keypoints vs. Feature Descriptors: No processamento de imagem tradicional, como o SIFT (Scale-Invariant Feature Transform), keypoints são pontos de interesse (cantos, bolhas) usados para correspondência de imagens. Na estimativa de pose por DL moderna, keypoints são rótulos semânticos (por exemplo, "pulso esquerdo") aprendidos pela rede.
Link to this sectionAplicações no Mundo Real#
A capacidade de rastrear partes específicas do corpo ou características de objetos desbloqueia diversas aplicações em vários setores:
- Análise esportiva: Treinadores e atletas usam a estimativa de pose para analisar a biomecânica. Ao rastrear keypoints nas articulações, sistemas podem calcular ângulos e velocidades para melhorar a técnica em esportes como golfe, tênis ou corrida de curta distância. Veja como os modelos Ultralytics YOLO rastreiam tacadas de golfe para fornecer feedback acionável.
- Saúde e reabilitação: Plataformas de fisioterapia aproveitam keypoints para monitorar exercícios de pacientes remotamente. O sistema garante que os pacientes mantenham a forma correta durante as rotinas de reabilitação, reduzindo o risco de lesões e rastreando o progresso da recuperação.
- Realidade Aumentada (AR): Filtros de redes sociais e aplicações de prova virtual dependem de keypoints faciais (olhos, nariz, contornos da boca) para ancorar máscaras digitais ou óculos de forma segura no rosto de um usuário, mantendo o alinhamento mesmo quando ele se move.
- Monitoramento de motoristas: Sistemas de segurança automotiva rastreiam marcos faciais para detectar sinais de sonolência ou distração, alertando o motorista se seus olhos se fecharem ou se a posição de sua cabeça indicar falta de atenção.
Link to this sectionImplementando detecção de Keypoint com YOLO26#
Usando a Ultralytics Platform ou o Python SDK, desenvolvedores podem implementar facilmente a detecção de keypoints. O exemplo a seguir demonstra como carregar um modelo YOLO26-pose pré-treinado e executar a inferência em uma imagem para detectar esqueletos humanos.
from ultralytics import YOLO
# Load a pre-trained YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Visualize the results showing detected keypoints and skeletons
for result in results:
result.show() # Display the image with keypoints drawn
# Access keypoint coordinates (x, y, confidence)
keypoints = result.keypoints.data
print(f"Detected keypoints shape: {keypoints.shape}")Este fluxo de trabalho simples permite a implantação rápida de aplicações sofisticadas de computer vision (CV). Para usuários que buscam treinar seus próprios modelos personalizados de keypoints — por exemplo, para detectar pontos específicos em máquinas industriais ou espécies de animais — a Ultralytics Platform simplifica o processo de anotação de dados e treinamento de modelos na nuvem.
Link to this sectionConsiderações avançadas#
A implementação bem-sucedida da detecção de keypoints exige o gerenciamento de desafios como oclusão (quando uma parte do corpo está escondida) e condições de iluminação variáveis. Modelos modernos abordam isso por meio de data augmentation robusto durante o treinamento, expondo a rede a cenários variados. Além disso, a integração de keypoints com algoritmos de object tracking permite a identificação consistente de indivíduos ao longo do tempo em fluxos de vídeo, algo essencial para aplicações como segurança ou análise comportamental.






