Aprende como funciona a estimativa de pose, as suas aplicações no mundo real e como modelos como o Ultralytics YOLO11 permitem às máquinas interpretar o movimento e a postura do corpo.
Quando vês uma pessoa desleixada ou de pé, com os ombros para trás, fica imediatamente claro se ela tem uma postura pobre ou confiante. Ninguém precisa de te explicar. Isso acontece porque, ao longo do tempo, aprendemos naturalmente a interpretar a linguagem corporal.
Através da experiência e da observação, os nossos cérebros tornaram-se muito bons a reconhecer a postura de vários objectos, incluindo os humanos. Graças aos recentes avanços na inteligência artificial (IA) e na visão computacional, um campo que permite às máquinas interpretar a informação visual do mundo, as máquinas estão agora a começar a aprender e a replicar esta capacidade também.
A estimativa de pose é uma tarefa de visão por computador que ajuda as máquinas a descobrir a posição e a orientação de uma pessoa ou objeto através da observação de imagens ou vídeos. Fá-lo identificando pontos-chave no corpo, como articulações e membros, para compreender como alguém, ou mesmo algo, se está a mover.
Esta tecnologia está a ser amplamente utilizada em áreas como o fitness, os cuidados de saúde e a animação. Em ambientes de trabalho, por exemplo, pode ser utilizada para monitorizar a postura dos funcionários e apoiar iniciativas de segurança e bem-estar. Modelos de visão por computador como o Ultralytics YOLO11 tornam isso possível ao estimar as posturas humanas em tempo real.
Neste artigo, vamos analisar mais detalhadamente a estimativa de pose e como funciona, juntamente com casos de utilização reais em que está a fazer a diferença. Vamos começar!
A investigação sobre a estimativa da pose começou no final da década de 1960 e na década de 70. Ao longo dos anos, as abordagens a esta tarefa de visão por computador passaram da matemática e da geometria básicas para métodos mais avançados impulsionados pela inteligência artificial.
Inicialmente, as técnicas dependiam de ângulos de câmara fixos e de pontos de referência conhecidos. Mais tarde, evoluíram para incluir modelos 3D e correspondência de caraterísticas. Atualmente, modelos de aprendizagem profunda como o YOLO11 podem detetar posições corporais em tempo real a partir de imagens ou vídeos, tornando a estimativa de pose mais rápida e precisa do que nunca.
À medida que a tecnologia foi melhorando, os investigadores aperceberam-se das potenciais aplicações da capacidade de monitorizar e seguir as poses de vários objectos, especialmente de seres humanos e animais. A estimativa da pose é especialmente importante porque permite que as ferramentas de IA compreendam e meçam a postura e o movimento de formas que antes não eram possíveis.
Por exemplo, permite que os computadores reconheçam gestos para uma interação mãos-livres, analisa os movimentos dos atletas para melhorar o seu desempenho, cria animações realistas em jogos de vídeo e até apoia os cuidados de saúde, acompanhando o progresso da recuperação dos doentes.
A estimativa da pose é diferente de outras tarefas de visão por computador, como a deteção de objectos e a segmentação de instâncias. Estas tarefas centram-se principalmente na identificação e localização de objectos dentro de uma imagem.
A deteção de objectos, por exemplo, desenha caixas delimitadoras à volta de objectos como pessoas, veículos ou animais para indicar a sua presença e posição. A segmentação de instâncias vai um passo mais além, delineando a forma precisa de cada objeto ao nível do pixel.
No entanto, ambos os métodos se preocupam principalmente com o que o objeto é e onde está - não fornecem qualquer informação sobre como o objeto está posicionado ou o que pode estar a fazer. É aí que a estimativa da pose se torna crucial.
Ao identificar pontos-chave no corpo, como cotovelos, joelhos ou mesmo uma cauda, a estimativa de pose pode interpretar a postura e o movimento. Isto permite uma compreensão mais profunda das acções, gestos e dinâmica corporal, incluindo o movimento no espaço 3D.
Os modelos de estimativa de pose seguem geralmente duas abordagens principais: bottom-up e top-down. Na abordagem de baixo para cima, o modelo detecta primeiro pontos-chave individuais, como cotovelos, joelhos ou ombros, e depois agrupa-os para descobrir a que pessoa ou objeto pertencem. Em contraste, a abordagem descendente começa por detetar primeiro cada objeto (como uma pessoa na imagem) e depois localiza os pontos-chave desse objeto específico.
Alguns modelos mais recentes, como o YOLO11, combinam as vantagens de ambas as abordagens. Mantém a eficiência do método ascendente ao saltar o passo de agrupamento manual, ao mesmo tempo que aproveita a precisão dos sistemas descendentes ao detetar pessoas e estimar as suas poses de uma só vez - num processo único e simplificado.
À medida que vamos explicando como funcionam os modelos de estimativa de pose, podes estar a perguntar-te: como é que estes modelos aprendem realmente a estimar a pose de diferentes objectos? É aí que entra a ideia de treino personalizado.
A formação personalizada significa ensinar um modelo a reconhecer pontos-chave específicos utilizando os seus próprios dados. Uma vez que a construção de um modelo de raiz requer uma grande quantidade de imagens marcadas e muito tempo, muitas pessoas optam pela aprendizagem por transferência. Isso envolve começar com um modelo que já foi treinado em um grande conjunto de dados, como o modelo de estimativa de pose YOLO11 , que é pré-treinado no conjunto de dados COCO-Pose, e depois ajustá-lo com seus próprios dados para uma tarefa ou caso de uso específico.
Digamos que estás a trabalhar com poses de ioga - podes afinar YOLO11 utilizando imagens em que cada pose é identificada com pontos-chave específicos dessa atividade. Para isso, precisas de um conjunto de dados personalizado de imagens anotadas com as quais o modelo possa aprender.
Durante o treino, pode ajustar definições como o tamanho do lote (o número de imagens processadas de uma só vez), a taxa de aprendizagem (a rapidez com que o modelo actualiza a sua aprendizagem) e as épocas (o número de vezes que o modelo percorre o conjunto de dados) para melhorar a precisão. Isso facilita muito a criação de modelos de estimativa de pose adaptados às tuas necessidades específicas.
Agora que já falámos sobre o que é a estimativa de pose e como funciona, vamos analisar mais detalhadamente alguns dos seus casos de utilização no mundo real.
A estimativa da postura está a tornar-se gradualmente uma ferramenta fiável no sector da saúde, especialmente na fisioterapia. Utilizando a IA e a visão por computador, estes sistemas podem seguir a postura e os movimentos em tempo real e fornecer feedback, semelhante ao que um fisioterapeuta ofereceria.
Por exemplo, um doente a recuperar de uma cirurgia ao joelho pode utilizar um sistema de estimativa de pose para se certificar de que está a fazer corretamente os seus exercícios de reabilitação. O sistema pode detetar quaisquer movimentos incorrectos e oferecer sugestões de melhoria, ajudando o doente a manter-se no caminho certo e a evitar lesões.
Para além da reabilitação, a estimativa da postura está também a ser introduzida nas aplicações de fitness. Por exemplo, uma pessoa que faça exercício em casa pode utilizar a aplicação para verificar a sua forma durante os exercícios. A aplicação pode dar feedback em tempo real, como ajustar o ângulo de um agachamento ou certificar-se de que as tuas costas estão direitas durante um levantamento terra. Isto ajuda os utilizadores a melhorar a sua forma e a evitar lesões sem necessitarem de um treinador.
A estimativa de pose mudou a forma como a captura de movimentos funciona no entretenimento, tornando-a mais simples e acessível. No passado, a captura de movimentos exigia a colocação de marcadores no corpo de uma pessoa e o seu seguimento com câmaras especiais, o que podia ser complicado e dispendioso.
Agora, com os avanços na IA e na visão por computador, podemos utilizar câmaras normais e algoritmos para seguir os movimentos do corpo sem precisar de marcadores, tornando o processo mais eficiente e preciso, mesmo em tempo real.
Um ótimo exemplo disto é o AR (Augmented Reality) Poser da Disney. Esta ferramenta divertida permite-te tirar uma fotografia com o teu telemóvel e fazer com que uma personagem digital copie a tua pose em realidade aumentada. Funciona analisando a tua pose na fotografia e fazendo-a corresponder a uma personagem 3D, criando uma selfie de RA divertida e personalizada.
Eis alguns dos principais benefícios que a estimativa de pose pode trazer a várias indústrias:
Embora as vantagens da estimativa de pose sejam claras em vários domínios, existem também alguns desafios a considerar. Eis algumas das principais limitações a ter em conta:
A estimativa de pose percorreu um longo caminho desde os seus primórdios, evoluindo de sistemas que utilizavam marcadores para ferramentas impactantes impulsionadas por modelos de aprendizagem profunda como o YOLO11. Quer esteja a melhorar a fisioterapia, a alimentar experiências interactivas de RA ou a ajudar na investigação da vida selvagem, a estimativa da pose está a mudar a forma como as máquinas compreendem o movimento e a postura. À medida que a tecnologia continua a avançar, a resolução das suas limitações será fundamental para desbloquear ainda mais utilizações práticas e tornar as máquinas mais capazes de compreender como nós e outros seres vivos nos movemos.
Tens curiosidade sobre IA? Explora o nosso repositório GitHub, liga-te à nossa comunidade e verifica as nossas opções de licenciamento para iniciares o teu projeto de visão por computador. Sabe mais sobre inovações como a IA no retalho e a visão computacional na indústria logística nas nossas páginas de soluções.
Começa a tua viagem com o futuro da aprendizagem automática