Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
Guias

O guia definitivo para ferramentas de estimativa de pose

Aprende como as ferramentas de estimativa de pose podem ser usadas para detectar pontos-chave do corpo em imagens e vídeos, estimar poses 2D e 3D e alimentar várias aplicações de Vision AI.

ABAbirami Vina
6 min read
Usando Ultralytics YOLO11 para estimativa de pose

Como humanos, lemos o movimento instintivamente. Quando alguém se inclina para a frente, vira a cabeça ou levanta um braço, você consegue inferir imediatamente o que a pessoa está fazendo. É uma habilidade silenciosa, quase subconsciente, que molda a forma como interagimos com as pessoas e exploramos o mundo.

À medida que a tecnologia se torna uma parte maior do cotidiano, é natural querer que nossos dispositivos entendam o movimento com a mesma fluidez que nós. Avanços recentes em inteligência artificial, especialmente os baseados em aprendizagem profunda (deep learning), estão tornando isso possível. Em particular, a visão computacional ajuda as máquinas a extrair significado de imagens e vídeos, impulsionando esse progresso.

Por exemplo, a estimativa de pose é uma tarefa comum de visão computacional que prevê as localizações de pontos-chave corporais predefinidos (como ombros, cotovelos, quadris e joelhos) em uma imagem ou quadro de vídeo. Esses pontos-chave podem ser conectados usando uma definição de esqueleto fixa para formar uma representação simplificada da pose.

Modelos de visão computacional como Ultralytics YOLO11 e o futuro Ultralytics YOLO26 suportam tarefas como estimativa de pose e podem ser usados para potencializar aplicações em tempo real, incluindo feedback de postura em fitness e esportes, monitoramento de segurança e experiências interativas de realidade aumentada.

Uma análise sobre como usar o Ultralytics YOLO11 para estimativa de pose

Fig 1. Uma visão sobre o uso de Ultralytics YOLO11 para estimativa de pose (Fonte)

Neste artigo, faremos uma análise profunda das ferramentas de estimativa de pose e veremos como a estimativa de pose funciona, onde é utilizada e alguns dos principais modelos e bibliotecas disponíveis hoje. Vamos começar!

Link to this sectionO que é estimativa de pose?#

A estimativa de pose é uma técnica de visão computacional que ajuda um sistema a entender como uma pessoa ou objeto está posicionado em uma imagem ou vídeo. Em vez de analisar cada pixel igualmente, ela prevê um conjunto de marcos consistentes, como cabeça, ombros, cotovelos, quadris, joelhos e tornozelos.

A maioria dos modelos gera as coordenadas desses pontos-chave e uma pontuação que reflete a probabilidade de cada previsão estar correta. Esses pontos-chave podem ser conectados usando um layout de esqueleto predefinido para formar uma representação simples da pose.

Quando aplicados quadro a quadro em vídeos, os pontos-chave resultantes podem ser associados ao longo do tempo para estimar o movimento. Isso permite aplicações como verificação de forma, análise de movimento e interação baseada em gestos.

Um exemplo de estimativa de pose

Fig 2. Um exemplo de estimativa de pose (Fonte)

Link to this sectionA necessidade de ferramentas de estimativa de pose#

O movimento humano carrega muita informação. A forma como alguém se abaixa, alcança algo ou desloca seu peso pode revelar intenção, esforço, fadiga ou até risco de lesão. Até recentemente, capturar esse nível de detalhe geralmente exigia sensores especializados, trajes de captura de movimento ou ambientes de laboratório controlados.

A estimativa de pose muda isso. Extrair marcos corporais de imagens e vídeos comuns permite que computadores analisem o movimento usando câmeras padrão. Isso torna a análise de movimento mais acessível, escalável e prática para uso em ambientes do mundo real.

Aqui estão algumas maneiras pelas quais a estimativa de pose pode gerar um impacto:

  • Locais de trabalho mais seguros: sistemas baseados em visão podem ser usados para detectar posturas de risco, esforço repetitivo ou técnicas de levantamento de peso inseguras antes que ocorram lesões.
  • Melhor treinamento esportivo e de fitness: soluções de visão AI podem avaliar a forma, o equilíbrio e a técnica em tempo real, fornecendo aos usuários feedback imediato sem necessidade de dispositivos vestíveis.
  • Saúde e reabilitação: Clínicos podem acompanhar o progresso da recuperação, postura e amplitude de movimento remotamente usando gravações de vídeo simples.
  • Experiências interativas: A estimativa de pose torna mais fácil para avatares digitais e ambientes imersivos acompanhar e refletir o movimento humano com precisão.

Link to this sectionA evolução dos algoritmos de estimativa de pose#

A ideia de estimar poses existe há muitos anos. As primeiras abordagens usavam modelos geométricos simples e regras criadas manualmente, e normalmente funcionavam apenas em condições controladas.

Por exemplo, um sistema poderia ter um bom desempenho quando uma pessoa fica parada em uma posição fixa, mas falhar quando ela começa a andar, virar ou interagir com objetos em cenas do mundo real. Esses métodos frequentemente tinham dificuldades com movimentos naturais, mudanças nos ângulos das câmeras, fundos poluídos e oclusão parcial.

A estimativa de pose moderna baseia-se em aprendizagem profunda para lidar com esses desafios. Ao treinar redes neurais convolucionais em grandes conjuntos de dados rotulados, os modelos aprendem padrões visuais que os ajudam a detectar pontos-chave de forma mais confiável em diferentes poses, pessoas e ambientes.

Com mais exemplos, o modelo melhora suas previsões e torna-se melhor em generalizar para novas cenas. Devido a esse progresso, a estimativa de pose agora suporta uma ampla gama de casos de uso práticos, incluindo monitoramento e ergonomia no local de trabalho, e análise esportiva, onde treinadores e analistas estudam como os atletas se movem.

Link to this sectionTipos de técnicas de estimativa de pose#

A estimativa de pose vem em algumas formas diferentes, dependendo do cenário e do que você precisa medir. Aqui estão os principais tipos com os quais você se deparará:

  • Estimativa de pose 2D: Esta abordagem detecta pontos-chave corporais em uma imagem ou quadro de vídeo bidimensional. Ela funciona bem com câmeras padrão e é computacionalmente eficiente, tornando-a adequada para tarefas como rastreamento básico de movimento, análise de postura e feedback de forma em tempo real.
  • Estimativa de pose 3D: Ao estimar a profundidade além das coordenadas da imagem, a estimativa de pose 3D fornece uma compreensão espacial do movimento corporal. Isso é especialmente útil quando o movimento para frente e para trás é importante, como em análise esportiva, reabilitação, biomecânica e animação. Especificamente, a estimativa de pose humana 3D captura posições articulares e movimento no espaço 3D, reduzindo a ambiguidade que pode ocorrer com projeções 2D.
  • Estimativa de pose de uma única pessoa: Estes sistemas são projetados para rastrear um indivíduo de cada vez. Eles tendem a ter melhor desempenho em ambientes controlados ou semicontrolados onde o sujeito está claramente visível, como aplicações de exercícios guiados, videochamadas ou configurações de análise de movimento.
  • Estimativa de pose multi-pessoa: Construída para cenas com várias pessoas, esta abordagem detecta e rastreia poses de vários indivíduos simultaneamente. É particularmente útil em ambientes movimentados como locais de trabalho, academias, espaços públicos e atividades em grupo, onde os sujeitos podem se sobrepor ou ocultar uns aos outros.

Entendendo o movimento humano no espaço 3D versus o espaço de imagem 2D

Fig 3. Compreendendo o movimento humano no espaço 3D vs. espaço de imagem 2D (Fonte)

Link to this sectionEntendendo como funcionam os modelos de estimativa de pose humana#

A estimativa de pose pode ser aplicada a muitos tipos de objetos, mas para simplificar, vamos focar na estimativa de pose humana.

A maioria dos sistemas de estimativa de pose humana é treinada em conjuntos de dados anotados onde partes-chave do corpo são rotuladas em grandes coleções de imagens e quadros de vídeo. Usando esses exemplos, o modelo aprende padrões visuais ligados a marcos do corpo humano como ombros, cotovelos, quadris, joelhos e tornozelos, para que possa prever pontos-chave com precisão em novas cenas.

Outro aspecto fundamental é a arquitetura de inferência do modelo, que determina como ele detecta pontos-chave e os monta em poses completas. Alguns sistemas detectam cada pessoa primeiro e depois estimam os pontos-chave dentro da região de cada pessoa, enquanto outros detectam pontos-chave em toda a imagem e depois os agrupam em indivíduos. Novos designs de etapa única podem prever poses de uma só vez, equilibrando velocidade e precisão para uso em tempo real.

A seguir, vamos explorar as diferentes abordagens de estimativa de pose em detalhes.

Link to this sectionEstimativa de pose bottom-up (de baixo para cima)#

Em uma abordagem bottom-up, o modelo olha para a imagem inteira e encontra os pontos-chave corporais primeiro, como cabeça, ombros, cotovelos, quadris, joelhos e tornozelos. Nesta fase, ele não está tentando separar as pessoas. Ele está simplesmente detectando todos os pontos-chave ou articulações corporais definidos pelo esqueleto da pose em toda a cena.

Depois disso, o sistema faz um segundo passo para conectar os pontos. Ele vincula pontos-chave que pertencem um ao outro e os agrupa em esqueletos completos, um por pessoa. Como não precisa detectar cada pessoa primeiro, os métodos bottom-up geralmente funcionam bem em cenas lotadas onde as pessoas se sobrepõem, aparecem em tamanhos diferentes ou estão parcialmente escondidas.

Link to this sectionDetecção de pose top-down (de cima para baixo)#

Em contraste, sistemas top-down começam detectando cada pessoa na imagem primeiro. Eles colocam uma caixa delimitadora (bounding box) ao redor de cada indivíduo e tratam cada caixa como sua própria região a ser analisada.

Uma vez que uma pessoa é isolada, o modelo prevê os pontos-chave do corpo dentro daquela região. Essa configuração passo a passo geralmente produz resultados muito precisos, especialmente quando há poucas pessoas na cena e cada uma está claramente visível.

Link to this sectionEstimativa de pose de etapa única ou híbrida#

Modelos de etapa única, às vezes chamados de híbridos, preveem poses em uma única passagem. Em vez de executar a detecção de pessoa primeiro e a estimativa de pontos-chave depois, eles geram a localização da pessoa e os pontos-chave do corpo simultaneamente.

Como tudo acontece em um único módulo, esses modelos geralmente são mais rápidos e eficientes, o que os torna uma ótima opção para usos em tempo real, como rastreamento de movimento ao vivo e captura de movimento. Modelos como o Ultralytics YOLO11 são construídos em torno dessa ideia, visando equilibrar velocidade com previsões confiáveis de pontos-chave.

Link to this sectionTreinando e avaliando modelos de estimativa de pose#

Independentemente da abordagem usada, um modelo de estimativa de pose ainda precisa ser treinado e testado cuidadosamente antes de ser confiável no mundo real. Ele normalmente aprende a partir de grandes conjuntos de imagens (e às vezes vídeos) onde os pontos-chave do corpo são rotulados, ajudando-o a lidar com diferentes poses, ângulos de câmera e ambientes.

Alguns conjuntos de dados de estimativa de pose bem conhecidos incluem COCO Keypoints, MPII Human Pose, CrowdPose e OCHuman. Quando esses conjuntos de dados não refletem as condições que o modelo enfrentará na implantação, engenheiros frequentemente coletam e rotulam imagens adicionais do ambiente alvo, como o chão de fábrica, academia ou clínica.

Várias poses sendo estimadas usando visão computacional

Fig 4. Várias poses sendo estimadas usando visão computacional (Fonte)

Após o treinamento, o desempenho do modelo é avaliado em benchmarks padrão para medir a precisão e a robustez e para orientar ajustes adicionais para uso no mundo real. Os resultados são frequentemente relatados usando a precisão média média, comumente referida como mAP, que resume o desempenho em diferentes limites de confiança comparando poses previstas com o ground truth rotulado.

Em muitos benchmarks de pose, uma pose prevista é comparada a uma pose ground-truth usando a OKS (Object Keypoint Similarity). O OKS mede o quão próximos os pontos-chave previstos estão dos pontos-chave anotados, levando em conta fatores como a escala da pessoa e a dificuldade típica de localização de cada ponto-chave.

Os modelos de pose também geram pontuações de confiança para pessoas detectadas e para pontos-chave individuais. Essas pontuações refletem a confiança do modelo e são usadas para classificar e filtrar previsões, o que é especialmente importante em condições desafiadoras, como oclusão, desfoque de movimento ou ângulos de câmera incomuns.

Link to this sectionFerramentas e bibliotecas populares de estimativa de pose#

Muitas ferramentas de estimativa de pose estão disponíveis hoje, cada uma equilibrando velocidade, precisão e facilidade de uso. Aqui estão algumas das ferramentas e bibliotecas mais utilizadas:

  • Ultralytics YOLO11: Desenvolvido como um modelo de visão AI de código aberto de última geração, o YOLO11 baseia-se em modelos anteriores como Ultralytics YOLOv8. Ele melhora a velocidade, a precisão e a eficiência geral enquanto suporta várias tarefas de visão computacional, incluindo a estimativa de pose. Com um forte desempenho em várias plataformas, de laptops a dispositivos de borda, o YOLO11 é uma ótima opção para muitas implantações no mundo real.
  • Ultralytics YOLO26: Este próximo modelo de nova geração foi projetado para ser mais leve, menor e mais rápido, mantendo uma alta precisão. Ele é construído para uso em tempo real e implantação facilitada, suportando tarefas como detecção de objetos, segmentação de instâncias e estimativa de pose em tamanhos de modelo adequados para tudo, desde dispositivos de borda até sistemas maiores.
  • MediaPipe: É uma estrutura multiplataforma para construir pipelines de visão e aprendizado de máquina. É leve e roda eficientemente em dispositivos móveis, tablets e aplicativos web, e inclui soluções prontas para uso e modelos para pose de corpo inteiro, marcos faciais e rastreamento de mãos.
  • OpenPose:** Este sistema de estimativa de pose de código aberto ponta a ponta é amplamente conhecido pela detecção de pontos-chave para múltiplas pessoas. Ele pode estimar pontos-chave do corpo, mãos e rosto juntos, sendo comumente usado em pesquisa, animação e análise de movimento.
  • MMPose: O MMPose é um kit de ferramentas de estimativa de pose baseado em PyTorch do ecossistema OpenMMLab. Ele fornece muitas implementações de modelos, utilitários de treinamento e opções de configuração, o que o torna útil para experimentação e personalização profunda.
  • HRNet e AlphaPose: Estes são modelos de estimativa de pose mais antigos que ainda são usados em pesquisas hoje. O HRNet é uma arquitetura de modelo de pose que mantém características de imagem de alta resolução em toda a rede, o que o ajuda a localizar pontos-chave com precisão. O AlphaPose é um sistema de estimativa de pose multi-pessoa amplamente utilizado, comumente empregado quando é necessária uma alta precisão em cenas lotadas ou complexas.

Link to this sectionAplicações do mundo real de análise e estimativa de pose#

A estimativa de pose está sendo cada vez mais usada para transformar vídeos comuns em insights de movimento úteis. Ao rastrear pontos-chave corporais quadro a quadro, esses sistemas podem inferir postura, movimento e comportamento físico a partir de feeds de câmera, tornando essa tecnologia prática em muitos cenários do mundo real.

Por exemplo, na saúde e reabilitação, o rastreamento de pose pode ajudar clínicos a ver e medir como um paciente se move durante a terapia e a recuperação. Ao extrair marcos corporais de gravações de vídeo comuns, pode ser usado para avaliar postura, amplitude de movimento e padrões gerais de movimento ao longo do tempo. Essas medidas podem apoiar e otimizar avaliações clínicas tradicionais e, em alguns casos, facilitar o acompanhamento do progresso sem a necessidade de sensores vestíveis ou equipamentos especializados.

Da mesma forma, no esporte e na transmissão, a estimativa de pose pode analisar como os atletas se movem diretamente a partir de feeds de vídeo. Um exemplo interessante é o Hawk-Eye, um sistema de rastreamento baseado em câmera usado em esportes profissionais para arbitragem e gráficos de transmissão. Ele também fornece rastreamento esquelético ao estimar os pontos-chave do corpo do atleta a partir de vistas de câmera.

Link to this sectionEscolhendo a ferramenta de estimativa de pose certa#

Escolher a ferramenta certa começa por entender as necessidades do seu projeto de visão computacional. Algumas aplicações priorizam a velocidade em tempo real, enquanto outras exigem maior precisão e detalhamento.

O dispositivo de implantação alvo também faz diferença. Aplicativos móveis e dispositivos de borda geralmente exigem modelos leves e eficientes, enquanto modelos maiores costumam ser mais adequados para servidores ou ambientes de nuvem.

Além disso, a facilidade de uso pode desempenhar um papel importante. Uma boa documentação, implantação suave e suporte para treinamento personalizado podem otimizar seu projeto.

Em suma, diferentes ferramentas se destacam em diferentes áreas. Por exemplo, os modelos Ultralytics YOLO oferecem um equilíbrio prático de velocidade, precisão e facilidade de implantação para muitas aplicações de estimativa de pose no mundo real.

Estimativa de pose de animais usando o Ultralytics YOLO11

Fig 5. Estimativa de pose animal usando Ultralytics YOLO11 (Fonte)

Link to this sectionPrincipais pontos#

A estimativa de pose ajuda computadores a entender o movimento humano detectando pontos-chave do corpo em imagens e vídeos. Modelos como YOLO11 e YOLO26 facilitam a construção de aplicações em tempo real para áreas como esportes, saúde, segurança no trabalho e experiências interativas. À medida que os modelos continuam ficando mais rápidos e precisos, a estimativa de pose provavelmente se tornará um recurso comum em muitos sistemas de visão AI.

Quer saber mais sobre AI? Confira nossa comunidade e repositório GitHub. Explore nossas páginas de soluções para aprender sobre AI em robótica e visão computacional na fabricação. Descubra nossas opções de licenciamento e comece a construir com visão computacional hoje!

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática