O que é a estimativa de pose e onde pode ser utilizada?

Abirami Vina

5 min. de leitura

7 de maio de 2025

Saiba como funciona a estimativa de pose, as suas aplicações no mundo real e como modelos como o Ultralytics YOLO11 permitem às máquinas interpretar o movimento e a postura do corpo.

Quando vemos uma pessoa desleixada ou de pé, com os ombros para trás, é imediatamente claro se ela tem uma postura pobre ou confiante. Ninguém precisa de o explicar. Isso acontece porque, ao longo do tempo, aprendemos naturalmente a interpretar a linguagem corporal. 

Através da experiência e da observação, os nossos cérebros tornaram-se muito bons a reconhecer a postura de vários objectos, incluindo os humanos. Graças aos recentes avanços na inteligência artificial (IA) e na visão computacional, um campo que permite às máquinas interpretar a informação visual do mundo, as máquinas estão agora a começar a aprender e a replicar esta capacidade também.

A estimativa de pose é uma tarefa de visão por computador que ajuda as máquinas a descobrir a posição e a orientação de uma pessoa ou objeto através da observação de imagens ou vídeos. Para tal, identifica pontos-chave do corpo, como articulações e membros, para compreender como alguém, ou mesmo algo, se está a mover. 

Esta tecnologia está a ser amplamente utilizada em áreas como o fitness, os cuidados de saúde e a animação. Em ambientes de trabalho, por exemplo, pode ser utilizada para monitorizar a postura dos funcionários e apoiar iniciativas de segurança e bem-estar. Os modelos de visão por computador, como o Ultralytics YOLO11, tornam isto possível ao estimar as posturas humanas em tempo real.

__wf_reserved_inherit
Fig. 1. Um exemplo de utilização do YOLO11 para monitorizar a postura dos trabalhadores.

Neste artigo, vamos analisar mais detalhadamente a estimativa de pose e o seu funcionamento, juntamente com casos de utilização reais em que está a fazer a diferença. Vamos começar!

A evolução da estimativa de pose

A investigação sobre a estimativa de pose começou no final dos anos 60 e 70. Ao longo dos anos, as abordagens a esta tarefa de visão por computador passaram da matemática e geometria básicas para métodos mais avançados impulsionados pela inteligência artificial.

Inicialmente, as técnicas dependiam de ângulos de câmara fixos e de pontos de referência conhecidos. Mais tarde, evoluíram para incluir modelos 3D e correspondência de caraterísticas. Atualmente, modelos de aprendizagem profunda como o YOLO11 podem detetar posições corporais em tempo real a partir de imagens ou vídeos, tornando a estimativa de pose mais rápida e precisa do que nunca.

À medida que a tecnologia foi melhorando, os investigadores aperceberam-se das potenciais aplicações da capacidade de monitorizar e seguir as poses de vários objectos, especialmente de seres humanos e animais. A estimativa da pose é especialmente importante porque permite que as ferramentas de IA compreendam e meçam a postura e o movimento de formas que antes não eram possíveis. 

Por exemplo, permite que os computadores reconheçam gestos para uma interação mãos-livres, analisa os movimentos dos atletas para melhorar o seu desempenho, permite animações realistas em jogos de vídeo e até apoia os cuidados de saúde, acompanhando o progresso da recuperação dos doentes.

Em que é que é diferente de outras tarefas de visão computacional?

A estimativa da pose é diferente de outras tarefas de visão por computador, como a deteção de objectos e a segmentação de instâncias. Estas tarefas centram-se principalmente na identificação e localização de objectos numa imagem. 

A deteção de objectos, por exemplo, desenha caixas delimitadoras à volta de objectos como pessoas, veículos ou animais para indicar a sua presença e posição. A segmentação de instâncias vai um passo mais além, delineando a forma precisa de cada objeto ao nível do pixel.

No entanto, ambos os métodos estão principalmente preocupados com o que o objeto é e onde está - não fornecem qualquer informação sobre como o objeto está posicionado ou o que pode estar a fazer. É aqui que a estimativa da pose se torna crucial. 

Ao identificar pontos-chave no corpo, como cotovelos, joelhos ou mesmo uma cauda, a estimativa de pose pode interpretar a postura e o movimento. Isto permite uma compreensão mais profunda das acções, gestos e dinâmica corporal, incluindo o movimento no espaço 3D.

Compreender como funciona a estimativa de pose

Os modelos de estimativa de pose seguem geralmente duas abordagens principais: bottom-up e top-down. Na abordagem ascendente, o modelo detecta primeiro pontos-chave individuais, como cotovelos, joelhos ou ombros, e depois agrupa-os para descobrir a que pessoa ou objeto pertencem. Em contrapartida, a abordagem descendente começa por detetar primeiro cada objeto (como uma pessoa na imagem) e depois localiza os pontos-chave desse objeto específico.

__wf_reserved_inherit
Fig. 2. Métodos de estimação de pose bottom-up vs. top-down.

Alguns modelos mais recentes, como o YOLO11, combinam as vantagens de ambas as abordagens. Mantém a eficiência do método ascendente ao saltar o passo de agrupamento manual, ao mesmo tempo que aproveita a precisão dos sistemas descendentes ao detetar pessoas e estimar as suas poses de uma só vez - num processo único e simplificado.

Treino personalizado YOLO11 para estimativa de pose

À medida que vamos explicando como funcionam os modelos de estimativa de pose, pode estar a perguntar-se: como é que estes modelos aprendem realmente a estimar a pose de diferentes objectos? É aqui que entra a ideia de formação personalizada.

A formação personalizada significa ensinar um modelo a reconhecer pontos-chave específicos utilizando os seus próprios dados. Uma vez que a construção de um modelo de raiz requer uma grande quantidade de imagens rotuladas e tempo significativo, muitas pessoas optam pela aprendizagem por transferência. Isto implica começar com um modelo que já tenha sido treinado num grande conjunto de dados, como o modelo de estimativa de pose YOLO11, que é pré-treinado no conjunto de dados COCO-Pose, e depois afiná-lo com os seus próprios dados para uma tarefa ou caso de utilização específico.

Digamos que está a trabalhar com poses de ioga - pode afinar o YOLO11 utilizando imagens em que cada pose é identificada com pontos-chave específicos dessa atividade. Para tal, é necessário um conjunto de dados personalizado de imagens anotadas com as quais o modelo pode aprender. 

Durante o treino, pode ajustar definições como o tamanho do lote (o número de imagens processadas de uma só vez), a taxa de aprendizagem (a rapidez com que o modelo actualiza a sua aprendizagem) e as épocas (o número de vezes que o modelo percorre o conjunto de dados) para melhorar a precisão. Isso facilita muito a criação de modelos de estimativa de pose adaptados às suas necessidades específicas.

Aplicações do mundo real da estimativa de pose

Agora que já falámos sobre o que é a estimativa de pose e como funciona, vamos analisar mais detalhadamente alguns dos seus casos de utilização no mundo real.

Utilização da estimativa de pose para fisioterapia 

A estimativa da postura está a tornar-se gradualmente uma ferramenta fiável no sector da saúde, especialmente na fisioterapia. Utilizando a IA e a visão por computador, estes sistemas podem seguir a postura e os movimentos em tempo real e fornecer feedback, semelhante ao que um fisioterapeuta ofereceria. 

Por exemplo, um doente a recuperar de uma cirurgia ao joelho pode utilizar um sistema de estimativa de pose para se certificar de que está a fazer corretamente os seus exercícios de reabilitação. O sistema pode detetar quaisquer movimentos incorrectos e oferecer sugestões de melhoria, ajudando o doente a manter-se no caminho certo e a evitar lesões.

__wf_reserved_inherit
Fig. 3. Um exemplo de utilização do YOLO11 em fisioterapia.

Para além da reabilitação, a estimativa da postura está também a ser introduzida nas aplicações de fitness. Por exemplo, uma pessoa que faça exercício em casa pode utilizar a aplicação para verificar a sua forma durante os exercícios. A aplicação pode dar feedback em tempo real, como ajustar o ângulo de um agachamento ou certificar-se de que as costas estão direitas durante um levantamento terra. Isto ajuda os utilizadores a melhorar a sua forma e a evitar lesões sem necessitarem de um treinador.

Captura de movimentos para entretenimento através de estimativa de pose

A estimativa de pose mudou a forma como a captura de movimentos funciona no entretenimento, tornando-a mais simples e acessível. No passado, a captura de movimentos exigia a colocação de marcadores no corpo de uma pessoa e o seu seguimento com câmaras especiais, o que podia ser complicado e dispendioso. 

Agora, com os avanços na IA e na visão por computador, podemos utilizar câmaras normais e algoritmos para seguir os movimentos do corpo sem precisar de marcadores, tornando o processo mais eficiente e preciso, mesmo em tempo real.

Um ótimo exemplo disto é o Poser AR (Realidade Aumentada) da Disney. Esta ferramenta divertida permite-lhe tirar uma fotografia com o seu telemóvel e fazer com que uma personagem digital copie a sua pose em realidade aumentada. Funciona analisando a sua pose na fotografia e fazendo-a corresponder a uma personagem 3D, criando uma selfie de RA divertida e personalizada. 

__wf_reserved_inherit
Fig. 4. Uma personagem de RA imita a pose de uma pessoa utilizando a estimativa de pose.

Investigação do comportamento social impulsionada pela estimativa da pose dos animais

O estudo do comportamento animal ajuda os cientistas a compreender como os animais comunicam, encontram parceiros, cuidam das suas crias e vivem em grupos. Este conhecimento é vital para a proteção da vida selvagem e para uma compreensão mais profunda do mundo natural.

A estimativa da pose simplifica este processo, acompanhando os movimentos e a postura dos animais através de imagens e vídeos, sem fixar sensores ou etiquetas nos animais. Estes sistemas podem monitorizar automaticamente as suas posturas, fornecendo informações sobre comportamentos como cuidar dos animais, brincar ou lutar. 

Um exemplo interessante desta situação é o facto de os cientistas utilizarem a estimativa de pose para estudar o comportamento dos macacos. De facto, os investigadores compilaram conjuntos de dados como o OpenApePose, que contém mais de 71.000 imagens marcadas de seis espécies de macacos. 

__wf_reserved_inherit
Fig. 5. Estimativa da pose do macaco.

Prós e contras da estimativa de pose

Eis alguns dos principais benefícios que a estimativa de pose pode trazer a vários sectores:

  • Escalabilidade: Os sistemas de estimativa de pose podem ser implementados numa vasta gama de dispositivos, desde smartphones a configurações avançadas de câmaras, o que os torna altamente escaláveis e acessíveis para diferentes casos de utilização e ambientes.

  • Económica: Uma vez que a estimativa de pose se baseia em câmaras normais e não requer sensores ou etiquetas dispendiosos, pode ser uma solução mais económica para o rastreio de movimentos em aplicações comerciais e de investigação.

  • Monitorização contínua: Os sistemas de estimativa de pose podem fornecer um acompanhamento contínuo e em tempo real, permitindo a monitorização de alterações ao longo do tempo, quer se trate do progresso de um doente em reabilitação ou do acompanhamento do comportamento de animais na natureza.

Embora as vantagens da estimativa de pose sejam claras em vários domínios, há também alguns desafios a considerar. Eis algumas das principais limitações a ter em conta:

  • Generalização limitada: Muitos modelos treinados em conjuntos de dados humanos não se generalizam bem a animais ou a estruturas corporais invulgares sem serem treinados novamente em conjuntos de dados específicos.

  • Limitações ambientais: O desempenho pode degradar-se em condições de fraca iluminação, desfocagem rápida do movimento ou fundos desordenados.
  • Elevada sensibilidade à oclusão: A precisão pode diminuir quando as partes do corpo estão bloqueadas ou fora do enquadramento, especialmente em cenas com muita gente ou no seguimento de várias pessoas.

Principais conclusões

A estimativa de pose percorreu um longo caminho desde os seus primórdios, evoluindo de sistemas que utilizavam marcadores para ferramentas impactantes impulsionadas por modelos de aprendizagem profunda como o YOLO11. Quer esteja a melhorar a fisioterapia, a alimentar experiências interactivas de RA ou a ajudar na investigação da vida selvagem, a estimativa de pose está a mudar a forma como as máquinas compreendem o movimento e a postura. À medida que a tecnologia continua a avançar, abordar as suas limitações será fundamental para desbloquear ainda mais utilizações práticas e tornar as máquinas mais capazes de compreender como nós e outros seres vivos nos movemos.

Curioso sobre IA? Explore o nosso repositório GitHub, ligue-se à nossa comunidade e verifique as nossas opções de licenciamento para iniciar o seu projeto de visão computacional. Saiba mais sobre inovações como IA no varejo e visão computacional no setor de logística em nossas páginas de soluções.

Vamos construir juntos o futuro
da IA!

Comece a sua viagem com o futuro da aprendizagem automática

Comece gratuitamente
Ligação copiada para a área de transferência