Saiba como os pontos-chave definem a geometria e a postura dos objetos na IA. Explore a estimativa de pose com Ultralytics e comece a usar Python nosso Python fácil de usar.
Os pontos-chave são localizações espaciais distintas ou marcos dentro de uma imagem que definem características significativas de um objeto ou assunto. No contexto da visão computacional e da aprendizagem automática, um ponto-chave é normalmente representado por um conjunto de coordenadas (X, Y) que identificam uma parte específica de um objeto, como o cotovelo de uma pessoa, o canto de um edifício ou o centro de uma roda de carro. Ao contrário de tarefas mais simples que apenas identificam a presença de um objeto, a identificação de pontos-chave permite que modelos de inteligência artificial (IA) compreendam a geometria, a postura e o arranjo estrutural do sujeito. Essa capacidade é fundamental para a análise visual avançada, permitindo que as máquinas interpretem a linguagem corporal, track movimentos track e alinhem sobreposições digitais com objetos do mundo real.
Os pontos-chave servem como dados fundamentais para a estimativa de postura, uma técnica que mapeia a estrutura esquelética de um ser humano ou animal. Ao detetar um conjunto predefinido de pontos — como ombros, joelhos e tornozelos — os algoritmos podem reconstruir a postura completa de um sujeito em tempo real. Esse processo vai além da deteção padrão de objetos , que normalmente gera uma caixa delimitadora ao redor de um objeto sem compreender sua forma interna.
Arquiteturas modernas, como o Ultralytics de última geração, evoluíram para prever esses pontos-chave com alta precisão e velocidade. Esses modelos utilizam redes de deep learning (DL) treinadas em enormes conjuntos de dados anotados, como COCO , para aprender os padrões visuais associados a articulações e características faciais. Durante a inferência, o modelo regressa as coordenadas para cada ponto-chave, muitas vezes incluindo uma pontuação de confiança para indicar a fiabilidade da previsão.
É útil distinguir os pontos-chave de outros resultados comuns da visão computacional para compreender a sua utilidade única:
A capacidade de track partes track do corpo ou características de objetos abre caminho para diversas aplicações em todos os setores:
Usando a Ultralytics ou o Python , os programadores podem facilmente implementar a deteção de pontos-chave. O exemplo a seguir demonstra como carregar um modelo YOLO26-pose pré-treinado e executar a inferência em uma imagem para detect esqueletos detect .
from ultralytics import YOLO
# Load a pre-trained YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Visualize the results showing detected keypoints and skeletons
for result in results:
result.show() # Display the image with keypoints drawn
# Access keypoint coordinates (x, y, confidence)
keypoints = result.keypoints.data
print(f"Detected keypoints shape: {keypoints.shape}")
Este fluxo de trabalho simples permite a rápida implementação de sofisticadas aplicações de visão computacional (CV). Para utilizadores que desejam treinar os seus próprios modelos de pontos-chave personalizados — por exemplo, para detect pontos detect em máquinas industriais ou espécies animais — a Ultralytics simplifica o processo de anotação de dados e treino de modelos na nuvem.
A implementação bem-sucedida da deteção de pontos-chave requer o tratamento de desafios como oclusão (quando uma parte do corpo está oculta) e condições de iluminação diversas. Os modelos modernos resolvem isso por meio de um robusto aumento de dados durante o treinamento, expondo a rede a cenários variados. Além disso, a integração de pontos-chave com algoritmos de rastreamento de objetos permite a identificação consistente de indivíduos ao longo do tempo em fluxos de vídeo, essencial para aplicações como segurança ou análise comportamental .