Yolo Vision Shenzhen
Shenzhen
Junte-se agora

O guia definitivo para ferramentas de estimativa de pose

Saiba como as ferramentas de estimativa de pose podem ser usadas para detect pontos-chave detect em imagens e vídeos, estimar poses 2D e 3D e alimentar várias aplicações de IA de visão.

Como seres humanos, interpretamos os movimentos instintivamente. Quando alguém se inclina para a frente, vira a cabeça ou levanta um braço, é possível inferir imediatamente o que está a fazer. É uma habilidade silenciosa, quase subconsciente, que molda a forma como interagimos com as pessoas e exploramos o mundo.

À medida que a tecnologia se torna uma parte cada vez mais importante da vida quotidiana, é natural que queiramos que os nossos dispositivos compreendam os movimentos com a mesma facilidade que nós. Os recentes avanços na inteligência artificial, especialmente os baseados na aprendizagem profunda, estão a tornar isso possível. Em particular, a visão computacional ajuda as máquinas a extrair significado de imagens e vídeos e está a impulsionar esse progresso.

Por exemplo, a estimativa de pose é uma tarefa comum de visão computacional que prevê as localizações de pontos-chave predefinidos do corpo (como ombros, cotovelos, ancas e joelhos) numa imagem ou fotograma de vídeo. Esses pontos-chave podem ser conectados usando uma definição de esqueleto fixa para formar uma representação simplificada da pose. 

Modelos de visão computacional, como Ultralytics YOLO11 e o futuro Ultralytics suportam tarefas como estimativa de pose e podem ser usados para alimentar aplicações em tempo real, incluindo feedback de forma em fitness e desportos, monitorização de segurança e experiências interativas de realidade aumentada.

Fig. 1. Uma análise da utilização Ultralytics YOLO11 estimativa de pose (Fonte)

Neste artigo, vamos aprofundar o tema das ferramentas de estimativa de pose e ver como funciona a estimativa de pose, onde é utilizada e alguns dos melhores modelos e bibliotecas disponíveis atualmente. Vamos começar!

O que é estimativa de pose?

A estimativa de pose é uma técnica de visão computacional que ajuda um sistema a compreender como uma pessoa ou objeto está posicionado numa imagem ou vídeo. Em vez de analisar cada pixel igualmente, ela prevê um conjunto de pontos de referência consistentes, como cabeça, ombros, cotovelos, ancas, joelhos e tornozelos. 

A maioria dos modelos gera as coordenadas desses pontos-chave e uma pontuação que reflete a probabilidade de cada previsão estar correta. Esses pontos-chave podem então ser conectados usando um layout de esqueleto predefinido para formar uma representação simples da pose. 

Quando aplicados quadro a quadro em vídeos, os pontos-chave resultantes podem ser associados ao longo do tempo para estimar o movimento. Isso permite aplicações como verificações de forma, análise de movimento e interação baseada em gestos.

Fig. 2. Um exemplo de estimativa de pose (Fonte)

A necessidade de ferramentas de estimativa de pose

Os movimentos humanos transmitem muita informação. A forma como alguém se inclina, estica ou transfere o peso do corpo pode revelar intenções, esforço, fadiga ou até mesmo risco de lesões. Até recentemente, capturar esse nível de detalhe exigia normalmente sensores especializados, fatos de captura de movimentos ou ambientes laboratoriais controlados.

A estimativa de pose muda isso. A extração de pontos de referência importantes do corpo a partir de imagens e vídeos comuns permite que os computadores analisem o movimento usando câmaras padrão. Isso torna a análise de movimento mais acessível, escalável e prática para uso em ambientes reais.

Aqui estão algumas maneiras pelas quais a estimativa de pose pode causar impacto:

  • Locais de trabalho mais seguros: sistemas orientados por visão podem ser usados para detect posturas detect , esforço repetitivo ou técnicas de levantamento inseguras antes que ocorram lesões.
  • Melhor preparação física e treino desportivo: as soluções de IA de visão podem avaliar a forma, o equilíbrio e a técnica em tempo real, dando aos utilizadores feedback imediato sem dispositivos vestíveis.
  • Cuidados de saúde e reabilitação: Os médicos podem track remotamente o progresso track , a postura e a amplitude de movimento usando gravações de vídeo simples.
  • Experiências interativas: a estimativa de pose facilita que avatares digitais e ambientes imersivos sigam e reflitam os movimentos humanos com precisão.

A evolução dos algoritmos de estimativa de pose

A ideia de estimar poses existe há muitos anos. As abordagens iniciais utilizavam modelos geométricos simples e regras criadas manualmente, e normalmente funcionavam apenas em condições controladas.

Por exemplo, um sistema pode funcionar bem quando uma pessoa fica parada numa posição fixa, mas falhar quando ela começa a andar, virar ou interagir com objetos em cenas do mundo real. Esses métodos frequentemente enfrentavam dificuldades com movimentos naturais, mudanças nos ângulos da câmara, fundos desorganizados e oclusão parcial.

A estimativa de poses moderna depende do aprendizado profundo para lidar com esses desafios. Ao treinar redes neurais convolucionais em grandes conjuntos de dados rotulados, os modelos aprendem padrões visuais que os ajudam detect de forma mais confiável em diferentes poses, pessoas e ambientes. 

Com mais exemplos, o modelo melhora as suas previsões e torna-se mais eficaz na generalização para novas cenas. Devido a este progresso, a estimativa de pose agora suporta uma ampla gama de casos de uso práticos, incluindo monitorização do local de trabalho e ergonomia, além de análise desportiva, onde treinadores e analistas estudam como os atletas se movimentam.

Tipos de técnicas de estimativa de pose

A estimativa de pose pode assumir várias formas, dependendo da configuração e do que precisa medir. Aqui estão os principais tipos que irá encontrar:

  • Estimativa de pose 2D: esta abordagem deteta pontos-chave do corpo numa imagem bidimensional ou num fotograma de vídeo. Funciona bem com câmaras padrão e é computacionalmente eficiente, tornando-a adequada para tarefas como rastreamento básico de movimentos, análise de postura e feedback de forma em tempo real.
  • Estimativa de pose 3D: Ao estimar a profundidade além das coordenadas da imagem, a estimativa de pose 3D fornece uma compreensão espacial do movimento corporal. Isso é especialmente útil quando o movimento para a frente e para trás é importante, como em análises desportivas, reabilitação, biomecânica e animação. Especificamente, a estimativa de pose humana 3D captura as posições das articulações e o movimento no espaço 3D, reduzindo a ambiguidade que pode ocorrer com projeções 2D.
  • Estimativa de pose de uma única pessoa: esses sistemas são projetados para track indivíduo por vez. Eles tendem a ter melhor desempenho em ambientes controlados ou semicontrolados, onde o sujeito é claramente visível, como aplicações de exercícios guiados, videochamadas ou configurações de análise de movimento.
  • Estimativa de poses para várias pessoas: Concebida para cenas com várias pessoas, esta abordagem deteta e rastreia poses para vários indivíduos simultaneamente. É particularmente útil em ambientes movimentados, como locais de trabalho, ginásios, espaços públicos e atividades em grupo, onde os indivíduos podem sobrepor-se ou ocultar-se uns aos outros.

Fig. 3. Compreensão do movimento humano no espaço 3D vs. espaço de imagem 2D (Fonte)

Entendendo como funcionam os modelos de estimativa da postura humana

A estimativa de pose pode ser aplicada a muitos tipos de objetos, mas para simplificar, vamos nos concentrar na estimativa de pose humana.

A maioria dos sistemas de estimativa de poses humanas é treinada em conjuntos de dados anotados, nos quais partes importantes do corpo são identificadas em grandes coleções de imagens e fotogramas de vídeo. Usando esses exemplos, o modelo aprende padrões visuais ligados a pontos de referência do corpo humano, como ombros, cotovelos, ancas, joelhos e tornozelos, para que possa prever pontos-chave com precisão em novas cenas.

Outro aspeto importante é a arquitetura de inferência do modelo, que determina como ele detecta pontos-chave e os reúne em poses completas. Alguns sistemas detect primeiro detect pessoa e, em seguida, estimam os pontos-chave dentro da região de cada pessoa, enquanto outros detect em toda a imagem e, em seguida, agrupam-nos em indivíduos. Os designs mais recentes de estágio único podem prever poses em uma única passagem, equilibrando velocidade e precisão para uso em tempo real.

A seguir, vamos examinar detalhadamente diferentes abordagens de estimativa de pose. 

Estimativa de pose bottom-up

Numa abordagem ascendente, o modelo analisa a imagem como um todo e encontra primeiro os pontos-chave do corpo, como cabeça, ombros, cotovelos, ancas, joelhos e tornozelos. Nesta fase, ele não tenta separar as pessoas. Ele simplesmente deteta todos os pontos-chave ou articulações do corpo definidos pelo esqueleto da pose em toda a cena.

Depois disso, o sistema realiza uma segunda etapa para ligar os pontos. Ele liga pontos-chave que pertencem uns aos outros e agrupa-os em esqueletos completos, um por pessoa. Como não precisa de detect pessoa primeiro, os métodos bottom-up costumam funcionar bem em cenas lotadas, onde as pessoas se sobrepõem, aparecem em tamanhos diferentes ou estão parcialmente escondidas.

Detecção de poses de cima para baixo

Em contrapartida, os sistemas top-down começam por detetar primeiro cada pessoa na imagem. Colocam uma caixa delimitadora em torno de cada indivíduo e tratam cada caixa como uma região própria para análise.

Depois que uma pessoa é isolada, o modelo prevê os pontos-chave do corpo dentro dessa região. Essa configuração passo a passo geralmente produz resultados muito precisos, especialmente quando há poucas pessoas na cena e cada uma delas é claramente visível.

Estimativa de pose em fase única ou híbrida

Os modelos de fase única, por vezes chamados híbridos, prevêem poses numa única passagem. Em vez de executar primeiro a deteção de pessoas e depois a estimativa de pontos-chave, eles apresentam a localização da pessoa e os pontos-chave do corpo ao mesmo tempo.

Como tudo acontece num único módulo, esses modelos costumam ser mais rápidos e eficientes, o que os torna ideais para utilizações em tempo real, como rastreamento de movimento ao vivo e captura de movimento. Modelos como o Ultralytics YOLO11 construídos com base nessa ideia, com o objetivo de equilibrar velocidade e previsões confiáveis de pontos-chave.

Treinamento e avaliação de modelos de estimativa de pose

Independentemente da abordagem utilizada, um modelo de estimativa de pose ainda precisa ser treinado e testado cuidadosamente antes de se tornar confiável no mundo real. Normalmente, ele aprende a partir de grandes conjuntos de imagens (e, às vezes, vídeos) onde os pontos-chave do corpo são identificados, ajudando-o a lidar com diferentes poses, ângulos de câmara e ambientes.

Alguns conjuntos de dados bem conhecidos para estimativa de poses incluem COCO , MPII Human Pose, CrowdPose e OCHuman. Quando esses conjuntos de dados não refletem as condições que o modelo enfrentará na implementação, os engenheiros geralmente coletam e rotulam imagens adicionais do ambiente de destino, como chão de fábrica, ginásio ou clínica.

Fig. 4. Várias poses sendo estimadas usando visão computacional (Fonte)

Após o treino, o desempenho do modelo é avaliado em benchmarks padrão para medir a precisão e a robustez e para orientar ajustes adicionais para uso no mundo real. Os resultados são frequentemente relatados usando a precisão média, comumente referida como mAP, que resume o desempenho em diferentes limites de confiança, comparando as poses previstas com a verdade fundamental rotulada.

Em muitos benchmarks de pose, uma pose prevista é comparada com uma pose real usando a Similaridade de Pontos-Chave do Objeto (OKS). A OKS mede a proximidade dos pontos-chave previstos em relação aos pontos-chave anotados, levando em consideração fatores como a escala da pessoa e a dificuldade típica de localização de cada ponto-chave. 

Os modelos Pose também geram pontuações de confiança para pessoas detetadas e para pontos-chave individuais. Essas pontuações refletem a confiança do modelo e são usadas para classificar e filtrar previsões, o que é especialmente importante em condições desafiadoras, como oclusão, desfoque de movimento ou ângulos de câmara incomuns.

Ferramentas e bibliotecas populares de estimativa de poses

Atualmente, existem muitas ferramentas de estimativa de pose disponíveis, cada uma equilibrando velocidade, precisão e facilidade de uso. Aqui estão algumas das ferramentas e bibliotecas mais utilizadas:

  • Ultralytics YOLO11: Desenvolvido como um modelo de IA de visão de código aberto de última geração, YOLO11 em modelos anteriores, como Ultralytics YOLOv8. Ele melhora a velocidade, a precisão e a eficiência geral, ao mesmo tempo que suporta várias tarefas de visão computacional, incluindo estimativa de pose. Com um forte desempenho em várias plataformas, desde computadores portáteis a dispositivos de ponta, YOLO11 uma ótima opção para muitas implementações no mundo real.
  • Ultralytics : Este modelo de última geração, que será lançado em breve, foi projetado para ser mais leve, menor e mais rápido, mantendo a alta precisão. Ele foi desenvolvido para uso em tempo real e implantação mais fácil, e suporta tarefas como deteção de objetos, segmentação de instâncias e estimativa de poses em modelos de tamanhos adequados para tudo, desde dispositivos de ponta até sistemas maiores.
  • MediaPipe: É uma estrutura multiplataforma para a criação de pipelines de visão e aprendizagem automática. É leve e funciona de forma eficiente em dispositivos móveis, tablets e aplicações web, e inclui soluções e modelos prontos a usar para poses de corpo inteiro, pontos de referência faciais e rastreamento de mãos.
  • OpenPose: Este sistema completo de estimativa de pose de código aberto é amplamente conhecido pela deteção de pontos-chave em várias pessoas. Ele pode estimar pontos-chave do corpo, mãos e rosto em conjunto, e é comumente usado em pesquisas, animações e análises de movimento.
  • MMPose: MMPose é um kit de ferramentas de estimativa de pose PyTorch do ecossistema OpenMMLab. Ele fornece muitas implementações de modelos, utilitários de treinamento e opções de configuração, o que o torna útil para experimentação e personalização profunda.
  • HRNet e AlphaPose: Estes são modelos mais antigos de estimativa de pose que ainda são usados em pesquisas atualmente. O HRNet é uma arquitetura de modelo de pose que mantém recursos de imagem de alta resolução em toda a rede, o que ajuda a localizar pontos-chave com precisão. O AlphaPose é um sistema de estimativa de pose para várias pessoas amplamente utilizado, comumente usado quando é necessária uma grande precisão em cenas complexas ou com muitas pessoas.

Aplicações reais da análise e estimativa de poses

A estimativa de pose está a ser cada vez mais utilizada para transformar vídeos comuns em informações úteis sobre movimentos. Ao rastrear pontos-chave do corpo quadro a quadro, esses sistemas podem inferir a postura, o movimento e o comportamento físico a partir das imagens da câmara, tornando essa tecnologia prática em muitos cenários do mundo real.

Por exemplo, na área da saúde e reabilitação, o rastreamento de poses pode ajudar os médicos a ver e medir como um paciente se move durante a terapia e a recuperação. Ao extrair pontos de referência do corpo a partir de gravações de vídeo comuns, ele pode ser usado para avaliar a postura, a amplitude de movimento e os padrões gerais de movimento ao longo do tempo. Essas medições podem apoiar e otimizar as avaliações clínicas tradicionais e, em alguns casos, facilitar track sem a necessidade de sensores vestíveis ou equipamentos especializados.

Da mesma forma, nos desportos e na transmissão televisiva, a estimativa de pose pode analisar como os atletas se movem diretamente a partir de imagens de vídeo. Um exemplo interessante é o Hawk-Eye, um sistema de rastreamento baseado em câmaras utilizado em desportos profissionais para arbitragem e gráficos de transmissão. Ele também fornece rastreamento esquelético, estimando os pontos-chave do corpo de um atleta a partir das imagens da câmara.

Escolhendo a ferramenta certa para estimativa de pose

A escolha da ferramenta certa para estimativa de pose começa com a compreensão das necessidades do seu projeto de visão computacional. Algumas aplicações priorizam a velocidade em tempo real, enquanto outras exigem maior precisão e detalhe. 

O dispositivo de implantação alvo também faz diferença. Aplicativos móveis e dispositivos de ponta normalmente exigem modelos leves e eficientes, enquanto modelos maiores costumam ser mais adequados para servidores ou ambientes de nuvem.

Além disso, a facilidade de utilização pode desempenhar um papel importante. Uma boa documentação, uma implementação tranquila e suporte para formação personalizada podem otimizar o seu projeto. 

Em termos simples, diferentes ferramentas se destacam em diferentes áreas. Por exemplo, YOLO Ultralytics oferecem um equilíbrio prático entre velocidade, precisão e facilidade de implementação para muitas aplicações reais de estimativa de pose.

Fig. 5. Estimativa da postura animal utilizando Ultralytics YOLO11 Fonte)

Principais conclusões

A estimativa de pose ajuda os computadores a compreender os movimentos humanos, detetando pontos-chave do corpo em imagens e vídeos. Modelos como YOLO11 o YOLO26 facilitam a criação de aplicações em tempo real para áreas como desporto, saúde, segurança no local de trabalho e experiências interativas. À medida que os modelos se tornam cada vez mais rápidos e precisos, é provável que a estimativa de pose se torne uma funcionalidade comum em muitos sistemas de IA de visão.

Quer saber mais sobre IA? Confira a nossa comunidade e o repositório GitHub. Explore as nossas páginas de soluções para saber mais sobre IA em robótica e visão computacional na indústria. Descubra as nossas opções de licenciamento e comece a construir com visão computacional hoje mesmo!

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente