Verificação verde
Link copiado para a área de transferência

O que é a estimativa de pose e onde pode ser utilizada?

Aprende como funciona a estimativa de pose, as suas aplicações no mundo real e como modelos como o Ultralytics YOLO11 permitem às máquinas interpretar o movimento e a postura do corpo.

Quando vês uma pessoa desleixada ou de pé, com os ombros para trás, fica imediatamente claro se ela tem uma postura pobre ou confiante. Ninguém precisa de te explicar. Isso acontece porque, ao longo do tempo, aprendemos naturalmente a interpretar a linguagem corporal. 

Através da experiência e da observação, os nossos cérebros tornaram-se muito bons a reconhecer a postura de vários objectos, incluindo os humanos. Graças aos recentes avanços na inteligência artificial (IA) e na visão computacional, um campo que permite às máquinas interpretar a informação visual do mundo, as máquinas estão agora a começar a aprender e a replicar esta capacidade também.

A estimativa de pose é uma tarefa de visão por computador que ajuda as máquinas a descobrir a posição e a orientação de uma pessoa ou objeto através da observação de imagens ou vídeos. Fá-lo identificando pontos-chave no corpo, como articulações e membros, para compreender como alguém, ou mesmo algo, se está a mover. 

Esta tecnologia está a ser amplamente utilizada em áreas como o fitness, os cuidados de saúde e a animação. Em ambientes de trabalho, por exemplo, pode ser utilizada para monitorizar a postura dos funcionários e apoiar iniciativas de segurança e bem-estar. Modelos de visão por computador como o Ultralytics YOLO11 tornam isso possível ao estimar as posturas humanas em tempo real.

Fig. 1. Um exemplo de utilização do YOLO11 para monitorizar a postura dos trabalhadores.

Neste artigo, vamos analisar mais detalhadamente a estimativa de pose e como funciona, juntamente com casos de utilização reais em que está a fazer a diferença. Vamos começar!

A evolução da estimativa de pose

A investigação sobre a estimativa da pose começou no final da década de 1960 e na década de 70. Ao longo dos anos, as abordagens a esta tarefa de visão por computador passaram da matemática e da geometria básicas para métodos mais avançados impulsionados pela inteligência artificial.

Inicialmente, as técnicas dependiam de ângulos de câmara fixos e de pontos de referência conhecidos. Mais tarde, evoluíram para incluir modelos 3D e correspondência de caraterísticas. Atualmente, modelos de aprendizagem profunda como o YOLO11 podem detetar posições corporais em tempo real a partir de imagens ou vídeos, tornando a estimativa de pose mais rápida e precisa do que nunca.

À medida que a tecnologia foi melhorando, os investigadores aperceberam-se das potenciais aplicações da capacidade de monitorizar e seguir as poses de vários objectos, especialmente de seres humanos e animais. A estimativa da pose é especialmente importante porque permite que as ferramentas de IA compreendam e meçam a postura e o movimento de formas que antes não eram possíveis. 

Por exemplo, permite que os computadores reconheçam gestos para uma interação mãos-livres, analisa os movimentos dos atletas para melhorar o seu desempenho, cria animações realistas em jogos de vídeo e até apoia os cuidados de saúde, acompanhando o progresso da recuperação dos doentes.

Em que é que isto difere de outras tarefas de visão por computador?

A estimativa da pose é diferente de outras tarefas de visão por computador, como a deteção de objectos e a segmentação de instâncias. Estas tarefas centram-se principalmente na identificação e localização de objectos dentro de uma imagem. 

A deteção de objectos, por exemplo, desenha caixas delimitadoras à volta de objectos como pessoas, veículos ou animais para indicar a sua presença e posição. A segmentação de instâncias vai um passo mais além, delineando a forma precisa de cada objeto ao nível do pixel.

No entanto, ambos os métodos se preocupam principalmente com o que o objeto é e onde está - não fornecem qualquer informação sobre como o objeto está posicionado ou o que pode estar a fazer. É aí que a estimativa da pose se torna crucial. 

Ao identificar pontos-chave no corpo, como cotovelos, joelhos ou mesmo uma cauda, a estimativa de pose pode interpretar a postura e o movimento. Isto permite uma compreensão mais profunda das acções, gestos e dinâmica corporal, incluindo o movimento no espaço 3D.

Compreender como funciona a estimativa de pose

Os modelos de estimativa de pose seguem geralmente duas abordagens principais: bottom-up e top-down. Na abordagem de baixo para cima, o modelo detecta primeiro pontos-chave individuais, como cotovelos, joelhos ou ombros, e depois agrupa-os para descobrir a que pessoa ou objeto pertencem. Em contraste, a abordagem descendente começa por detetar primeiro cada objeto (como uma pessoa na imagem) e depois localiza os pontos-chave desse objeto específico.

Fig. 2. Métodos de estimação de pose bottom-up vs. top-down.

Alguns modelos mais recentes, como o YOLO11, combinam as vantagens de ambas as abordagens. Mantém a eficiência do método ascendente ao saltar o passo de agrupamento manual, ao mesmo tempo que aproveita a precisão dos sistemas descendentes ao detetar pessoas e estimar as suas poses de uma só vez - num processo único e simplificado.

Treino personalizado YOLO11 para estimativa de pose

À medida que vamos explicando como funcionam os modelos de estimativa de pose, podes estar a perguntar-te: como é que estes modelos aprendem realmente a estimar a pose de diferentes objectos? É aí que entra a ideia de treino personalizado.

A formação personalizada significa ensinar um modelo a reconhecer pontos-chave específicos utilizando os seus próprios dados. Uma vez que a construção de um modelo de raiz requer uma grande quantidade de imagens marcadas e muito tempo, muitas pessoas optam pela aprendizagem por transferência. Isso envolve começar com um modelo que já foi treinado em um grande conjunto de dados, como o modelo de estimativa de pose YOLO11 , que é pré-treinado no conjunto de dados COCO-Pose, e depois ajustá-lo com seus próprios dados para uma tarefa ou caso de uso específico.

Digamos que estás a trabalhar com poses de ioga - podes afinar YOLO11 utilizando imagens em que cada pose é identificada com pontos-chave específicos dessa atividade. Para isso, precisas de um conjunto de dados personalizado de imagens anotadas com as quais o modelo possa aprender. 

Durante o treino, pode ajustar definições como o tamanho do lote (o número de imagens processadas de uma só vez), a taxa de aprendizagem (a rapidez com que o modelo actualiza a sua aprendizagem) e as épocas (o número de vezes que o modelo percorre o conjunto de dados) para melhorar a precisão. Isso facilita muito a criação de modelos de estimativa de pose adaptados às tuas necessidades específicas.

Aplicações do mundo real da estimativa de pose

Agora que já falámos sobre o que é a estimativa de pose e como funciona, vamos analisar mais detalhadamente alguns dos seus casos de utilização no mundo real.

Utilizar a estimativa de pose para fisioterapia 

A estimativa da postura está a tornar-se gradualmente uma ferramenta fiável no sector da saúde, especialmente na fisioterapia. Utilizando a IA e a visão por computador, estes sistemas podem seguir a postura e os movimentos em tempo real e fornecer feedback, semelhante ao que um fisioterapeuta ofereceria. 

Por exemplo, um doente a recuperar de uma cirurgia ao joelho pode utilizar um sistema de estimativa de pose para se certificar de que está a fazer corretamente os seus exercícios de reabilitação. O sistema pode detetar quaisquer movimentos incorrectos e oferecer sugestões de melhoria, ajudando o doente a manter-se no caminho certo e a evitar lesões.

Fig. 3. Um exemplo de utilização do YOLO11 em fisioterapia.

Para além da reabilitação, a estimativa da postura está também a ser introduzida nas aplicações de fitness. Por exemplo, uma pessoa que faça exercício em casa pode utilizar a aplicação para verificar a sua forma durante os exercícios. A aplicação pode dar feedback em tempo real, como ajustar o ângulo de um agachamento ou certificar-se de que as tuas costas estão direitas durante um levantamento terra. Isto ajuda os utilizadores a melhorar a sua forma e a evitar lesões sem necessitarem de um treinador.

Captura de movimentos para entretenimento através da estimativa de pose

A estimativa de pose mudou a forma como a captura de movimentos funciona no entretenimento, tornando-a mais simples e acessível. No passado, a captura de movimentos exigia a colocação de marcadores no corpo de uma pessoa e o seu seguimento com câmaras especiais, o que podia ser complicado e dispendioso. 

Agora, com os avanços na IA e na visão por computador, podemos utilizar câmaras normais e algoritmos para seguir os movimentos do corpo sem precisar de marcadores, tornando o processo mais eficiente e preciso, mesmo em tempo real.

Um ótimo exemplo disto é o AR (Augmented Reality) Poser da Disney. Esta ferramenta divertida permite-te tirar uma fotografia com o teu telemóvel e fazer com que uma personagem digital copie a tua pose em realidade aumentada. Funciona analisando a tua pose na fotografia e fazendo-a corresponder a uma personagem 3D, criando uma selfie de RA divertida e personalizada. 

Figura 4. Uma personagem de RA imita a pose de uma pessoa utilizando a estimativa de pose.

Investigação do comportamento social orientada pela estimativa da pose dos animais

O estudo do comportamento animal ajuda os cientistas a compreender como os animais comunicam, encontram parceiros, cuidam das suas crias e vivem em grupos. Este conhecimento é vital para proteger a vida selvagem e obter uma compreensão mais profunda do mundo natural.

A estimativa da pose simplifica este processo, acompanhando os movimentos e a postura dos animais através de imagens e vídeos, sem colocar sensores ou etiquetas nos animais. Estes sistemas podem monitorizar automaticamente as suas posturas, fornecendo informações sobre comportamentos como cuidar dos animais, brincar ou lutar. 

Um exemplo interessante disto são os cientistas que utilizam a estimativa da pose para estudar o comportamento dos macacos. De facto, os investigadores compilaram conjuntos de dados como o OpenApePose, que contém mais de 71.000 imagens etiquetadas de seis espécies de macacos. 

Fig. 5. Estimativa da pose do macaco.

Prós e contras da estimativa de pose

Eis alguns dos principais benefícios que a estimativa de pose pode trazer a várias indústrias:

  • Escalabilidade: Os sistemas de estimativa de pose podem ser implementados numa vasta gama de dispositivos, desde smartphones a configurações avançadas de câmaras, o que os torna altamente escaláveis e acessíveis para diferentes casos de utilização e ambientes.

  • Económica: Uma vez que a estimativa de pose se baseia em câmaras normais e não requer sensores ou etiquetas dispendiosos, pode ser uma solução mais económica para o rastreio de movimentos em aplicações comerciais e de investigação.

  • Monitorização contínua: Os sistemas de estimativa de pose podem proporcionar um acompanhamento contínuo e em tempo real, permitindo a monitorização de alterações ao longo do tempo, quer se trate do progresso de um doente em reabilitação ou do acompanhamento do comportamento de animais na natureza.

Embora as vantagens da estimativa de pose sejam claras em vários domínios, existem também alguns desafios a considerar. Eis algumas das principais limitações a ter em conta:

  • Generalização limitada: Muitos modelos treinados em conjuntos de dados humanos não se generalizam bem para animais ou estruturas corporais invulgares sem serem treinados novamente em conjuntos de dados específicos.

  • Limitações ambientais: O desempenho pode degradar-se em condições de fraca iluminação, desfocagem rápida de movimentos ou fundos desordenados.
  • Elevada sensibilidade à oclusão: A precisão pode diminuir quando as partes do corpo estão bloqueadas ou fora do enquadramento, especialmente em cenas com muita gente ou no seguimento de várias pessoas.

Principais conclusões

A estimativa de pose percorreu um longo caminho desde os seus primórdios, evoluindo de sistemas que utilizavam marcadores para ferramentas impactantes impulsionadas por modelos de aprendizagem profunda como o YOLO11. Quer esteja a melhorar a fisioterapia, a alimentar experiências interactivas de RA ou a ajudar na investigação da vida selvagem, a estimativa da pose está a mudar a forma como as máquinas compreendem o movimento e a postura. À medida que a tecnologia continua a avançar, a resolução das suas limitações será fundamental para desbloquear ainda mais utilizações práticas e tornar as máquinas mais capazes de compreender como nós e outros seres vivos nos movemos.

Tens curiosidade sobre IA? Explora o nosso repositório GitHub, liga-te à nossa comunidade e verifica as nossas opções de licenciamento para iniciares o teu projeto de visão por computador. Sabe mais sobre inovações como a IA no retalho e a visão computacional na indústria logística nas nossas páginas de soluções.

Logótipo do LinkedInLogótipo do TwitterLogótipo do FacebookSímbolo de ligação de cópia

Ler mais nesta categoria

Vamos construir juntos o futuro
da IA!

Começa a tua viagem com o futuro da aprendizagem automática