O que é o OpenPose? Os fundamentos da estimativa de pose

Atualmente, imagens e câmeras estão por toda parte - integradas em nossos telefones, casas e até mesmo em espaços públicos. Contamos com elas não apenas para capturar momentos, mas para nos ajudar a entender e interagir com o mundo ao nosso redor.

Nos bastidores, a visão computacional, um subcampo da inteligência artificial (IA), torna isto possível ao permitir que as máquinas interpretem dados visuais. Permite aos sistemas detect objectos, reconhecer rostos e track movimentos, desempenhando um papel fundamental em muitas das tecnologias que utilizamos todos os dias.

Graças aos recentes avanços na IA, os modelos de visão computacional agora podem analisar e extrair dados e insights mais complexos. Um exemplo disso é a estimativa de pose, uma tarefa de visão computacional focada na compreensão do movimento humano.

Funciona identificando pontos-chave no corpo, como ombros, cotovelos e joelhos, em imagens ou vídeos. Isso torna possível analisar como as pessoas se movem, permitindo aplicações em rastreamento de condicionamento físico, animação, saúde e muito mais.

Entre as muitas ferramentas desenvolvidas para estimativa de pose, o OpenPose se destaca como um grande avanço. Criado por pesquisadores do Laboratório de Computação Perceptual da Carnegie Mellon University, foi um dos primeiros sistemas de código aberto capazes de detectar poses de corpo inteiro, incluindo mãos, pés e pontos-chave faciais, para várias pessoas em tempo real usando apenas uma câmera (com até 135 pontos-chave por pessoa).

Neste artigo, exploraremos o OpenPose, como ele funciona e sua importância como um marco na visão computacional.

Fig 1. Estimativa de pose multi-pessoa usando OpenPose.

‍

Um olhar sobre a história da estimativa de pose

Antes que a IA fosse amplamente adotada, o rastreamento do movimento humano em vídeos envolvia o uso de equipamentos especializados. Em indústrias como cinema e animação, os atores geralmente usavam roupas com marcadores reflexivos para que as câmeras pudessem capturar seus movimentos em um ambiente de estúdio controlado.

Embora estas técnicas de captura de movimento baseadas em marcadores fossem exactas, eram também dispendiosas e limitadas a configurações específicas. Com o avanço da visão por computador, os investigadores procuraram formas de track o movimento do corpo sem utilizar marcadores. Utilizaram arestas, contornos e modelos para encontrar formas humanas nas imagens.

Esses primeiros sistemas funcionavam em instâncias simples e diretas, mas tinham dificuldades com cenários do mundo real. Eles frequentemente davam resultados ruins quando as pessoas se moviam de maneiras inesperadas ou quando mais de uma pessoa aparecia em um quadro.

No final da década de 2010, o aprendizado profundo trouxe uma grande mudança para a estimativa de pose. Os modelos de IA de visão puderam ser treinados em grandes conjuntos de dados de poses humanas. Em vez de depender de bordas e modelos, os modelos aprenderam a reconhecer as articulações e a estrutura do corpo, estudando milhares de imagens rotuladas. Isso tornou a estimativa de pose mais precisa, flexível e impactante em uma gama mais ampla de configurações.

Fig 2. A evolução dos modelos de estimativa de pose humana de 2017 a 2023.

‍

OpenPose: Onde a estimativa de pose moderna decolou

O OpenPose foi lançado pela primeira vez em 2017 e é capaz de estimar as poses de várias pessoas simultaneamente em uma única imagem. Ao contrário dos sistemas mais antigos, o OpenPose não requer trajes ou marcadores especiais. Ele funciona com câmeras padrão e pode processar imagens e vídeos em tempo real. Esses recursos tornaram a estimativa de pose mais acessível a desenvolvedores e pesquisadores.

Os alicerces que o OpenPose lançou para a visão computacional ajudaram outros a construir arquitecturas mais recentes para uma variedade de outras aplicações. Atualmente, os modelos de IA de visão, como o Ultralytics YOLO8 e o Ultralytics YOLO11 que suportam tarefas de estimativa de pose oferecem resultados mais rápidos e menor latência.

Fig. 3. Utilização do YOLO11 para a estimativa da pose.

‍

No entanto, o OpenPose é um ótimo lugar para começar se você estiver curioso sobre como a estimativa de pose evoluiu. Ele introduziu ideias-chave nas quais muitos sistemas mais recentes ainda se baseiam hoje.

Principais capacidades do OpenPose

Agora que temos uma melhor compreensão de por que o OpenPose é importante, vamos dar uma olhada mais de perto no que ele realmente pode fazer.

No centro das capacidades do OpenPose está algo chamado de deteção de pontos-chave. Os pontos-chave são pontos de referência específicos no corpo humano, como a ponta do nariz, o centro dos ombros, os cotovelos, os pulsos, as ancas, os joelhos e os tornozelos. O OpenPose pode detect até 135 destes pontos por pessoa, incluindo áreas detalhadas como os dedos e as caraterísticas faciais.

Quando esses pontos são conectados, eles formam uma representação simplificada do corpo humano - você pode pensar nisso como um esqueleto digital. Este esboço esquelético mostra não apenas onde uma pessoa está, mas como ela está posicionada: se está sentada, em pé, acenando, sorrindo ou andando. Os computadores podem interpretar o movimento humano visualmente usando esses esqueletos, da mesma forma que instintivamente entendemos a linguagem corporal de alguém.

O rastreamento esquelético é especialmente útil porque elimina o ruído de fundo e as distrações, permitindo que o sistema se concentre puramente na postura e no movimento humano. Em vez de analisar cada pixel, o OpenPose concentra-se em pontos significativos que contam a história de como uma pessoa está se movendo ou interagindo.

Ao extrair esta informação estruturada de imagens ou vídeos do dia-a-dia, o OpenPose torna possível construir aplicações que respondem a gestos, monitorizam a atividade física, avaliam pistas emocionais ou até animam personagens digitais.

Como funciona o OpenPose?

Aqui está uma visão geral de como o OpenPose detecta e conecta pontos-chave no corpo humano a partir de entrada visual:

Começa com uma imagem: O OpenPose recebe uma única imagem de uma foto, vídeo ou feed de câmera ao vivo.
‍
Identifica partes importantes do corpo: O sistema procura pontos-chave no corpo, como nariz, cotovelos, pulsos, joelhos e tornozelos. Eles são marcados onde quer que o sistema tenha confiança de que uma parte do corpo está localizada.
‍
Descobre quais partes se encaixam: Em seguida, o OpenPose verifica como os pontos-chave estão conectados. Ele usa cálculos matemáticos para decidir quais articulações pertencem à mesma pessoa - por exemplo, combinando um pulso com o cotovelo e o ombro direitos.
‍
Desenha um esqueleto para cada pessoa: Após agrupar os keypoints, o OpenPose os conecta em uma "figura de palito" que mostra a pose de cada pessoa. Isso funciona mesmo quando várias pessoas aparecem no mesmo quadro.
‍
Retorna os dados de pose: Finalmente, fornece as posições exatas de todos os pontos-chave detetados. Estes podem ser usados para rastrear movimentos, reconhecer gestos ou construir ferramentas interativas - tudo em tempo real.

Fig 4. Detecção e rastreamento de pontos-chave humanos usando OpenPose.

‍

Aplicações de estimativa de pose em vários setores usando OpenPose

O OpenPose foi uma das primeiras ferramentas avançadas que tornou a estimativa de pose prática para uma variedade de casos de uso no mundo real. Embora não seja comumente usado em soluções de visão computacional em tempo real hoje, desempenhou um papel importante na formação do trabalho inicial em áreas como esportes, entretenimento, educação e segurança.

Vejamos mais de perto como ajudou a abrir caminho nestas áreas.

Estimativa de pose com OpenPose para fitness e esportes

Quando você assiste a um jogo de beisebol, é fácil entender o que está acontecendo - você pode reconhecer instantaneamente um arremesso, um swing ou uma base roubada. Como humanos, lemos intuitivamente os movimentos do corpo e os entendemos sem muito esforço. Mas, para as máquinas, reconhecer essas ações é muito mais complexo. Elas precisam de informações precisas sobre como cada parte do corpo se move no espaço.

O OpenPose foi um avanço substancial nesta área de visão computacional. Foi uma ferramenta prática para analisar a forma atlética em uma variedade de configurações.

Muitos projetos de pesquisa usaram o OpenPose para detalhar movimentos como balanços e saltos, até mesmo classificando ações específicas de beisebol com base em como os jogadores se moviam. Como funcionava em ambientes abertos com vídeo padrão, permitiu que os pesquisadores testassem como tais sistemas poderiam funcionar em cenários de treinamento ou coaching no mundo real.

Esses primeiros estudos ajudaram a lançar as bases para as ferramentas de rastreamento de desempenho agora usadas em tecnologia esportiva avançada.

Fig 5. Uma olhada em um pipeline de classificação de ação de beisebol usando OpenPose.

‍

Usando OpenPose em sistemas de segurança

Da mesma forma, pesquisadores também usaram o OpenPose para explorar como o rastreamento de pose baseado em vídeo poderia apoiar o monitoramento de segurança. Ele foi testado na detecção de comportamentos, como quedas, gestos inesperados ou padrões de movimento em áreas públicas.

Como funcionava com câmeras padrão, o OpenPose tornou a experimentação inicial mais acessível em ambientes como hospitais e centros de transporte. Esses estudos ajudaram a impulsionar o desenvolvimento de modelos mais novos agora usados em sistemas de vigilância, detecção de quedas e resposta a emergências.

Fig 6. Detecção de quedas habilitada por OpenPose.

‍

Prós e contras do OpenPose

Aqui está um vislumbre de algumas das vantagens que o OpenPose oferece:

Útil para pesquisa e prototipagem: Tem sido amplamente utilizado em pesquisa académica, especialmente em áreas como interação homem-computador, biomecânica e análise comportamental.
‍
Suporte multiplataforma: Pode ser executado em Windows, Linux e macOS, com suporte para unidades centrais de processamento (CPUs) e unidades de processamento gráfico (GPUs).
‍
Capacidade de processamento offline: Ele pode ser executado em ambientes sem acesso à internet, tornando-o ideal para configurações sensíveis à privacidade, como saúde ou educação.

Embora o OpenPose tenha sido um grande avanço, ele também tem limitações técnicas que são importantes de ter em mente. Aqui estão alguns dos principais desafios associados ao OpenPose:

Elevados requisitos de processamento: A execução do OpenPose em tempo real requer uma GPU potente e recursos de computação significativos.
‍
Sensível ao ambiente: O desempenho pode diminuir em condições de pouca luz, espaços lotados ou quando os ângulos da câmera não são ideais.
‍
Pesado em comparação com modelos mais recentes: Comparado com modelos de estimativa de pose mais recentes, o OpenPose é relativamente grande e mais lento. Não é adequado para implantação em dispositivos com recursos limitados, como smartphones, tablets ou sistemas embarcados.

Principais conclusões

O OpenPose desempenhou um papel importante em tornar a estimativa de pose mais acessível. Ele mostrou que o rastreamento dos movimentos do corpo podia ser feito com uma câmera simples, sem depender de trajes ou equipamentos especializados.

Estabeleceu as bases para muitas aplicações práticas em saúde, educação, entretenimento e pesquisa. Embora modelos mais recentes agora ofereçam velocidades mais rápidas e desempenho mais leve, o OpenPose continua sendo um ponto de referência fundamental para entender como a estimativa de pose evoluiu.

Junte-se à nossa comunidade e visite nosso repositório GitHub para saber mais sobre IA. Se você deseja construir suas próprias soluções de visão computacional, explore nossas opções de licenciamento. Além disso, confira como a visão computacional na área da saúde e a IA na logística estão causando impacto!

O que é OpenPose? Explorando um marco na estimativa de pose

Um olhar sobre a história da estimativa de pose

OpenPose: Onde a estimativa de pose moderna decolou

Principais capacidades do OpenPose

Como funciona o OpenPose?

Aplicações de estimativa de pose em vários setores usando OpenPose

Estimativa de pose com OpenPose para fitness e esportes

Usando OpenPose em sistemas de segurança

Prós e contras do OpenPose

Principais conclusões

Leia mais nesta categoria

Aprendizagem auto-supervisionada para redução de ruído: uma análise passo a passo

O que é a correspondência de imagens na IA de visão? Uma breve introdução

Uma introdução ao domínio emergente da IA neuro-simbólica

Vamos construir o futuro
da IA juntos!

O que é OpenPose? Explorando um marco na estimativa de pose

Um olhar sobre a história da estimativa de pose

OpenPose: Onde a estimativa de pose moderna decolou

Principais capacidades do OpenPose

Como funciona o OpenPose?

Aplicações de estimativa de pose em vários setores usando OpenPose

Estimativa de pose com OpenPose para fitness e esportes

Usando OpenPose em sistemas de segurança

Prós e contras do OpenPose

Principais conclusões

Leia mais nesta categoria

Aprendizagem auto-supervisionada para redução de ruído: uma análise passo a passo

O que é a correspondência de imagens na IA de visão? Uma breve introdução

Uma introdução ao domínio emergente da IA neuro-simbólica

Vamos construir o futuro da IA juntos!

Vamos construir o futuro
da IA juntos!