Descubra como funciona a estimativa de pose, suas aplicações no mundo real e como modelos como o Ultralytics YOLO11 permitem que as máquinas interpretem o movimento e a postura do corpo.

Descubra como funciona a estimativa de pose, suas aplicações no mundo real e como modelos como o Ultralytics YOLO11 permitem que as máquinas interpretem o movimento e a postura do corpo.
Quando vê alguém curvado ou de pé com os ombros para trás, fica imediatamente claro se tem uma postura má ou confiante. Ninguém precisa de explicar isso. Isso acontece porque, ao longo do tempo, aprendemos naturalmente a interpretar a linguagem corporal.
Através da experiência e observação, nossos cérebros se tornaram muito bons em reconhecer a postura de vários objetos, incluindo humanos. Graças aos recentes avanços na inteligência artificial (IA) e na visão computacional, um campo que permite às máquinas interpretar informações visuais do mundo, as máquinas agora estão começando a aprender e replicar essa habilidade também.
A estimação de pose é uma tarefa de visão computacional que ajuda as máquinas a descobrir a posição e a orientação de uma pessoa ou objeto, analisando imagens ou vídeos. Ela faz isso identificando pontos-chave no corpo, como articulações e membros, para entender como alguém, ou mesmo algo, está se movendo.
Esta tecnologia está sendo amplamente utilizada em áreas como fitness, saúde e animação. Em ambientes de trabalho, por exemplo, pode ser usada para monitorar a postura dos funcionários e apoiar iniciativas de segurança e bem-estar. Modelos de visão computacional como o Ultralytics YOLO11 tornam isso possível, estimando poses humanas em tempo real.
Neste artigo, vamos analisar mais de perto a estimativa de pose e como ela funciona, juntamente com casos de uso no mundo real onde ela está fazendo a diferença. Vamos começar!
A pesquisa sobre estimativa de pose começou no final dos anos 1960 e 70. Ao longo dos anos, as abordagens para esta tarefa de visão computacional mudaram da matemática básica e geometria para métodos mais avançados impulsionados pela inteligência artificial.
Inicialmente, as técnicas dependiam de ângulos de câmera fixos e pontos de referência conhecidos. Mais tarde, evoluíram para incluir modelos 3D e correspondência de características. Hoje, modelos de deep learning como o YOLO11 podem detectar posições corporais em tempo real a partir de imagens ou vídeo, tornando a estimativa de pose mais rápida e precisa do que nunca.
À medida que a tecnologia melhorava, os pesquisadores viram as aplicações potenciais de poder monitorar e rastrear as poses de vários objetos, especialmente humanos e animais. A estimativa de pose é especialmente importante porque permite que as ferramentas de IA entendam e meçam a postura e o movimento de maneiras que não eram possíveis antes.
Por exemplo, permite que os computadores reconheçam gestos para interação sem as mãos, analisa os movimentos dos atletas para melhorar o desempenho, impulsiona animações realistas em videogames e até mesmo apoia a área da saúde, rastreando o progresso da recuperação dos pacientes.
A estimativa de pose é diferente de outras tarefas de visão computacional, como detecção de objetos e segmentação de instâncias. Essas tarefas se concentram principalmente em identificar e localizar objetos dentro de uma imagem.
A detecção de objetos, por exemplo, desenha bounding boxes ao redor de itens como pessoas, veículos ou animais para indicar sua presença e posição. A segmentação de instâncias leva isso um passo adiante, delineando a forma precisa de cada objeto no nível do pixel.
No entanto, ambos os métodos se preocupam principalmente com o que o objeto é e onde ele está - eles não fornecem nenhuma informação sobre como o objeto está posicionado ou o que ele pode estar fazendo. É aí que a estimativa de pose se torna crucial.
Ao identificar pontos-chave no corpo, como cotovelos, joelhos ou até mesmo uma cauda, a estimativa de pose pode interpretar a postura e o movimento. Isto permite uma compreensão mais profunda das ações, gestos e dinâmica corporal, incluindo o movimento no espaço 3D.
Os modelos de estimativa de pose geralmente seguem duas abordagens principais: bottom-up e top-down. Na abordagem bottom-up, o modelo primeiro detecta pontos-chave individuais, como cotovelos, joelhos ou ombros, e então os agrupa para descobrir a qual pessoa ou objeto eles pertencem. Em contraste, a abordagem top-down começa detectando cada objeto primeiro (como uma pessoa na imagem) e então localiza os pontos-chave para aquele objeto específico.
Alguns modelos mais recentes, como o YOLO11, combinam os benefícios de ambas as abordagens. Ele mantém a eficiência do método bottom-up, ignorando a etapa de agrupamento manual, ao mesmo tempo em que aproveita a precisão dos sistemas top-down, detectando pessoas e estimando suas poses de uma só vez - em um único processo simplificado.
Enquanto explicamos como os modelos de estimativa de pose funcionam, você pode estar se perguntando: como esses modelos realmente aprendem a estimar a pose de diferentes objetos? É aí que entra a ideia de treino personalizado.
O treinamento personalizado significa ensinar um modelo a reconhecer pontos-chave específicos usando seus próprios dados. Como construir um modelo do zero requer uma grande quantidade de imagens rotuladas e um tempo significativo, muitas pessoas optam pela transferência de aprendizado. Isso envolve começar com um modelo que já foi treinado em um grande conjunto de dados, como o modelo de estimativa de pose YOLO11, que é pré-treinado no conjunto de dados COCO-Pose, e então ajustá-lo com seus próprios dados para uma tarefa ou caso de uso específico.
Digamos que você esteja trabalhando com poses de ioga - você pode ajustar o YOLO11 usando imagens onde cada pose é rotulada com pontos-chave específicos para essa atividade. Para fazer isso, você precisará de um conjunto de dados personalizado de imagens anotadas para que o modelo possa aprender.
Durante o treinamento, você pode ajustar configurações como tamanho do lote (o número de imagens processadas de uma vez), taxa de aprendizado (a rapidez com que o modelo atualiza seu aprendizado) e épocas (quantas vezes o modelo percorre o conjunto de dados) para melhorar a precisão. Isso torna muito mais fácil construir modelos de estimativa de pose adaptados às suas necessidades específicas.
Agora que discutimos o que é a estimativa de pose e como ela funciona, vamos analisar mais de perto alguns de seus casos de uso no mundo real.
A estimativa de pose está se tornando gradualmente uma ferramenta confiável na área da saúde, especialmente na fisioterapia. Usando IA e visão computacional, esses sistemas podem rastrear a postura e os movimentos em tempo real e fornecer feedback, semelhante ao que um fisioterapeuta ofereceria.
Por exemplo, um paciente se recuperando de uma cirurgia no joelho pode usar um sistema de estimativa de pose para garantir que está fazendo seus exercícios de reabilitação corretamente. O sistema pode identificar quaisquer movimentos incorretos e oferecer sugestões de melhoria, ajudando o paciente a permanecer no caminho certo e evitar lesões.
Além da reabilitação, a estimativa de pose também está chegando aos aplicativos de fitness. Por exemplo, alguém que se exercita em casa pode usar o aplicativo para verificar sua forma durante os exercícios. O aplicativo pode fornecer feedback em tempo real, como ajustar o ângulo de um agachamento ou garantir que suas costas estejam retas durante um levantamento terra. Isso ajuda os usuários a melhorar sua forma e prevenir lesões sem precisar de um treinador.
A estimativa de pose mudou a forma como a captura de movimento funciona no entretenimento, tornando-a mais simples e acessível. No passado, a captura de movimento exigia a colocação de marcadores no corpo de uma pessoa e o rastreamento com câmeras especiais, o que poderia ser complicado e caro.
Agora, com os avanços da IA e da visão computacional, podemos usar câmeras e algoritmos regulares para rastrear os movimentos do corpo sem a necessidade de marcadores, tornando o processo mais eficiente e preciso, mesmo em tempo real.
Um ótimo exemplo disso é o AR (Realidade Aumentada) Poser da Disney. Esta ferramenta divertida permite que você tire uma foto com seu telefone e faça com que um personagem digital copie sua pose em realidade aumentada. Ele funciona analisando sua pose na foto e combinando-a com um personagem 3D, criando uma selfie AR divertida e personalizada.
Estudar o comportamento animal ajuda os cientistas a entender como os animais se comunicam, encontram parceiros, cuidam de seus filhotes e vivem em grupos. Esse conhecimento é vital para proteger a vida selvagem e obter uma compreensão mais profunda do mundo natural.
A estimativa de pose simplifica esse processo, rastreando os movimentos dos animais e a postura usando imagens e vídeos, sem anexar sensores ou etiquetas aos animais. Esses sistemas podem monitorar automaticamente suas poses, fornecendo insights sobre comportamentos como higiene, brincadeira ou luta.
Um exemplo interessante desta situação é o facto de os cientistas utilizarem a estimativa de pose para estudar o comportamento dos macacos. De facto, os investigadores compilaram conjuntos de dados como o OpenApePose, que contém mais de 71.000 imagens marcadas de seis espécies de macacos.
Aqui estão alguns dos principais benefícios que a estimativa de pose pode trazer para vários setores:
Embora as vantagens da estimativa de pose sejam claras em vários campos, também existem alguns desafios a serem considerados. Aqui estão algumas limitações importantes a serem lembradas:
A estimativa de pose percorreu um longo caminho desde seus primeiros dias, evoluindo de sistemas que usavam marcadores para ferramentas impactantes impulsionadas por modelos de deep learning como o YOLO11. Seja para melhorar a fisioterapia, impulsionar experiências de RA interativas ou ajudar na pesquisa da vida selvagem, a estimativa de pose está mudando a forma como as máquinas entendem o movimento e a postura. À medida que a tecnologia continua avançando, abordar suas limitações será fundamental para desbloquear ainda mais usos práticos e tornar as máquinas melhores em entender como nós e outros seres vivos nos movemos.
Tem curiosidade sobre IA? Explore nosso repositório no GitHub, conecte-se com nossa comunidade e confira nossas opções de licenciamento para dar o pontapé inicial no seu projeto de visão computacional. Saiba mais sobre inovações como IA no varejo e visão computacional na indústria de logística em nossas páginas de soluções.