Ultralytics YOLO

Ultralytics YOLO26 vs. outros modelos Ultralytics YOLO para estimativa de pose

Descobre como o Ultralytics YOLO26 melhora a estimativa de pose com melhor suporte para keypoints não humanos, convergência mais rápida, melhor gestão de oclusão e implementação eficiente em tempo real.

ABAbirami Vina4 min readMarch 9, 2026

Comparando o Ultralytics YOLO26 com outros modelos YOLO para estimativa de pose

Quando observas a postura de alguém, é fácil notar se a pessoa está curvada, inclinada para a frente ou de pé. Os humanos conseguem perceber rapidamente como as diferentes partes do corpo se relacionam entre si.

É uma parte inerente da forma como interpretamos o movimento e a linguagem corporal no nosso dia a dia. Para as máquinas, no entanto, este tipo de compreensão visual não é automático. Ensinar um sistema a reconhecer movimentos e estruturas requer técnicas avançadas de aprendizagem profunda e visão computacional que lhe permitam interpretar imagens de forma significativa.

Em particular, a estimativa de pose é uma técnica de IA de visão que torna possível a um modelo de visão computacional construir uma compreensão semelhante. Em vez de simplesmente detetar um objeto numa imagem, o modelo prevê pontos-chave que representam marcos estruturais importantes.

Estes pontos-chave podem corresponder a articulações do corpo, membros de animais, componentes de maquinaria ou até mesmo pontos fixos, como os cantos de um campo. Ao identificar e seguir estes pontos, o sistema consegue compreender a posição, o alinhamento e o movimento de forma estruturada e mensurável.

À medida que a estimativa de pose é aplicada a mais cenários do mundo real, os modelos precisam de lidar com pontos-chave não humanos, cenas complexas e conjuntos de dados personalizados de forma mais eficaz. Por exemplo, modelos de última geração como o Ultralytics YOLO26 suportam tarefas de visão computacional como a estimativa de pose e baseiam-se em modelos de pose YOLO anteriores, com melhorias arquiteturais e de treino concebidas para aumentar a flexibilidade e o desempenho geral.

Um exemplo de estimativa de pose habilitada pelo YOLO

Fig 1. Um exemplo de estimativa de pose ativada pelo YOLO (Fonte)

Neste artigo, vamos comparar o YOLO26-pose com modelos de pose Ultralytics YOLO anteriores e explorar como ele melhora a flexibilidade, a velocidade de convergência e o desempenho em cenas complexas. Vamos começar!

Link to this sectionO que é estimativa de pose?#

Antes de mergulharmos na comparação dos modelos de pose Ultralytics YOLO, vamos analisar mais de perto o que a estimativa de pose significa realmente no contexto da visão computacional.

A estimativa de pose é uma técnica utilizada para detetar e seguir pontos-chave específicos numa imagem ou frame de vídeo. Estes pontos-chave podem representar marcos estruturais importantes, como articulações num corpo humano, membros de um animal, componentes de uma máquina ou pontos de referência fixos numa cena.

Estimando a pose de trabalhadores usando estimativa de pose humana

Fig 2. Estimativa da pose de trabalhadores utilizando estimativa de pose humana (Fonte)

Ao identificar as coordenadas destes pontos, um modelo consegue compreender como um objeto está posicionado e como se move ao longo do tempo. Ao contrário da classificação de imagens, que atribui uma única etiqueta a uma imagem inteira, ou de modelos de deteção de objetos, que se focam em desenhar caixas delimitadoras à volta dos objetos, a estimativa de pose fornece informações espaciais mais detalhadas sobre a estrutura e o movimento.

Link to this sectionUma visão geral do YOLO26-pose#

O YOLO26-pose está disponível em várias variantes ou tamanhos de modelo, incluindo opções leves como o YOLO26n-pose e modelos maiores como o YOLO26m-pose, YOLO26l-pose e YOLO26x-pose. Isto permite que as equipas escolham o equilíbrio certo entre velocidade e precisão, dependendo do seu hardware e das suas necessidades de desempenho.

A Ultralytics também fornece modelos de pose pré-treinados em grandes conjuntos de dados gerais, como o conjunto de dados COCO, especificamente as anotações COCO-Pose (pontos-chave COCO) para estimativa de pose humana, para que não tenhas de começar do zero. Na maioria dos casos, as equipas ajustam estes modelos com o seu próprio conjunto de dados para os adaptar a pontos-chave, esquemas ou ambientes específicos.

Isto envolve, normalmente, a preparação de ficheiros de anotação personalizados que definem as coordenadas dos pontos-chave e as etiquetas das classes num formato estruturado. Estas anotações mapeiam os pontos-chave para coordenadas de píxeis específicas dentro de cada imagem, permitindo ao modelo aprender relações espaciais precisas durante o treino.

Utilizar modelos pré-treinados torna o treino mais rápido, reduz os requisitos de dados e ajuda a colocar projetos em produção de forma mais eficiente.

Link to this sectionAplicações reais da estimativa de pose humana#

Aqui tens um vislumbre de alguns casos de uso reais onde a estimativa de pose desempenha um papel importante:

Cuidados de saúde e reabilitação: Os clínicos podem utilizar modelos de pose para avaliar a postura, monitorizar o progresso da recuperação e analisar padrões de movimento durante a fisioterapia.
Sistemas autónomos: Drones e câmaras inteligentes podem utilizar informações de pose para compreender melhor a orientação e o movimento de objetos em cenas dinâmicas.
Segurança no local de trabalho: As organizações podem monitorizar o posicionamento corporal e movimentos repetitivos para ajudar a identificar potenciais riscos de segurança.
Fitness e treino pessoal: Aplicações de fitness utilizam a estimativa de pose para seguir a forma física dos exercícios, contar repetições e fornecer feedback em tempo real sobre a postura e o movimento mantidos durante os tutoriais de fitness.

Estimativa de pose rastreando pontos-chave do corpo durante movimento atlético

Fig 3. A estimativa de pose pode ajudar a seguir pontos-chave do corpo durante um movimento atlético. (Fonte)

Link to this sectionExplorar o suporte do Ultralytics YOLO26 para a estimativa de pose#

O Ultralytics YOLO26 baseia-se em modelos Ultralytics YOLO anteriores com atualizações concebidas para tornar o treino e a implementação mais práticos.

Tal como as versões anteriores, suporta a estimativa de pose como parte de uma estrutura unificada. A principal diferença é que o YOLO26 foi concebido para ser mais flexível e estável numa gama mais ampla de casos de uso do mundo real.

Benchmarking do desempenho do Ultralytics YOLO26

Fig 4. Benchmarking do YOLO26 (Fonte)

Os modelos de pose Ultralytics YOLO anteriores eram fortemente influenciados por conjuntos de dados de pose humanos, o que significava que partes dos métodos mais antigos estavam otimizadas em torno de estruturas articulares humanas. O YOLO26 remove esses pressupostos específicos dos humanos.

Como resultado, é mais adequado para pontos-chave não humanos, como a deteção dos cantos de um campo de ténis ou outros marcos estruturais personalizados. Isto é significativo porque, de imediato, os modelos YOLO26-pose pré-treinados são treinados em conjuntos de dados como o COCO-pose e preveem pontos-chave humanos definidos nas anotações do conjunto de dados.

No entanto, quando as equipas pretendem detetar diferentes tipos de marcos, como componentes de maquinaria, marcadores de campos desportivos ou pontos de infraestrutura, o modelo precisa normalmente de ser ajustado num conjunto de dados personalizado onde esses pontos-chave específicos estejam anotados.

Como o YOLO26 não está preso a pressupostos sobre estruturas articulares humanas, consegue adaptar-se de forma mais eficaz durante o ajuste. Esta flexibilidade permite que o modelo aprenda esquemas de pontos-chave personalizados de forma mais fiável, o que leva a melhores métricas de avaliação ao validar em conjuntos de dados com configurações de pontos-chave únicas.

O YOLO26-pose também foi concebido para melhorar a localização de pontos-chave quando partes de um objeto estão parcialmente ocultas ou aparecem a uma escala muito pequena. Em cenas do mundo real que envolvam sujeitos distantes, filmagens de drones ou cenários de pequenos objetos, isto pode levar a previsões de pontos-chave mais precisas em comparação com modelos de pose anteriores.

Outra atualização importante é a formulação de perda melhorada utilizada durante o treino. A função de perda determina como o modelo corrige os seus erros enquanto aprende.

No que diz respeito ao YOLO26-pose, este processo é mais eficaz, o que ajuda o modelo a aprender mais rapidamente e a atingir uma forte precisão em menos épocas, sendo que uma época refere-se a uma passagem completa pelo conjunto de dados de treino.

No geral, o YOLO26-pose baseia-se nos modelos de pose Ultralytics YOLO anteriores com melhorias mais claras no suporte a pontos-chave não humanos e na convergência do treino, mantendo o mesmo fluxo de trabalho familiar.

Link to this sectionComparação do YOLO26-pose com o Ultralytics YOLOv5#

A primeira versão dos modelos Ultralytics YOLO, o Ultralytics YOLOv5, foi construída principalmente para deteção de objetos. Embora o YOLOv5 tenha expandido posteriormente para suportar a segmentação de instâncias, não inclui uma cabeça de estimativa de pose nativa e especializada dentro da estrutura oficial da Ultralytics.

As equipas que precisavam de deteção de pontos-chave dependiam normalmente de implementações separadas ou modificações personalizadas. O Ultralytics YOLO26 inclui a estimativa de pose como uma tarefa integrada, com uma cabeça arquitetural dedicada, concebida especificamente para prever pontos-chave.

Isto significa que os modelos YOLO26-pose podem ser treinados, validados e implementados dentro do mesmo fluxo de trabalho unificado que a deteção e a segmentação. Para projetos focados na deteção estruturada de pontos-chave, o YOLO26 fornece suporte nativo a pose e uma arquitetura específica para a tarefa que o YOLOv5 não oferece de imediato.

Link to this sectionPrincipais diferenças: YOLO26-pose vs Ultralytics YOLOv8-pose#

O Ultralytics YOLOv8 introduziu a estimativa de pose nativa dentro da estrutura unificada da Ultralytics, tornando fácil treinar e implementar modelos de pontos-chave utilizando o mesmo fluxo de trabalho que a deteção e a segmentação. Baseia-se num pipeline de pós-processamento tradicional com supressão de não-máximos (NMS) e utiliza formulações de perda anteriores para regressão de caixas delimitadoras e treino.

O YOLO26 baseia-se nesta base com atualizações arquiteturais e de treino que impactam diretamente a estimativa de pose. Uma grande diferença é o design de ponta a ponta. O YOLO26 elimina a necessidade de NMS externo durante a inferência, o que simplifica a implementação e melhora a consistência da latência, especialmente em CPUs e dispositivos de ponta.

Outra melhoria fundamental reside na metodologia de treino. O YOLO26 introduz o otimizador MuSGD juntamente com estratégias de perda atualizadas. Para tarefas de pose, integra a Estimativa de Verosimilhança Residual Logarítmica, que melhora a forma como a incerteza dos pontos-chave é modelada. Juntas, estas alterações podem levar a uma convergência mais rápida e a previsões de pontos-chave mais estáveis, particularmente em cenas complexas ou parcialmente ocluídas.

Em suma, o YOLOv8-pose estabeleceu uma base sólida e versátil. O YOLO26-pose refina essa base com uma eficiência de treino melhorada, um melhor tratamento da oclusão e maior flexibilidade para aplicações de pose não humanas no mundo real.

Link to this sectionYOLO26-pose vs Ultralytics YOLO11-pose: O que melhorou?#

O Ultralytics YOLO11 baseia-se no Ultralytics YOLOv8 refinando o backbone e as camadas de extração de funcionalidades. Reduziu FLOPs, melhorou a eficiência de parâmetros e proporcionou um mAP mais elevado, mantendo um forte desempenho em tempo real. Para tarefas de pose, isto significou uma melhor precisão dos pontos-chave com uma arquitetura mais leve.

O YOLO26-pose continua essa progressão com uma mudança arquitetural mais fundamental. Simplificando, o YOLO11 refinou a eficiência e a precisão do YOLOv8, e o YOLO26 baseia-se nessa fundação com atualizações arquiteturais e de treino destinadas a uma convergência mais rápida, uma inferência mais estável e uma precisão de pose melhorada em cenários complexos.

Link to this sectionPor que deverias começar a usar o modelo YOLO26 para estimativa de pose?#

À medida que exploras as diferenças entre os modelos Ultralytics YOLO, podes estar a perguntar-te se deves mudar para o YOLO26-pose.

A resposta curta é que se trata de uma atualização fácil. Se já estás a utilizar o Ultralytics YOLOv8-pose ou o Ultralytics YOLO11-pose, mudar para o YOLO26-pose significa normalmente apenas alterar a versão do modelo, e não reconstruir o teu pipeline.

Podes beneficiar de um melhor suporte para pontos-chave não humanos, uma convergência mais rápida durante o treino e um melhor manuseamento de pontos ocluídos, tudo isto mantendo-te na mesma estrutura da Ultralytics. Para a maioria dos projetos de pose novos e existentes, mudar para o YOLO26-pose é uma forma direta de obter essas melhorias com o mínimo de fricção.

Além disso, o YOLO26-pose é totalmente suportado dentro do pacote Python da Ultralytics, que é construído sobre o PyTorch e torna o treino, a validação e a implementação simples. Os modelos podem ser exportados para formatos como ONNX, TensorRT, OpenVINO, CoreML e TFLite, tornando mais fácil a implementação em GPUs, CPUs e dispositivos de ponta sem alterares o teu fluxo de trabalho geral.

Link to this sectionPrincipais pontos#

O Ultralytics YOLO26-pose torna a estimativa de pose mais flexível e fiável, especialmente quando trabalhas com pontos-chave não humanos ou cenas complexas. Treina mais rapidamente, lida melhor com a oclusão e proporciona resultados mais consistentes em diferentes conjuntos de dados. Para equipas que já utilizam modelos de pose Ultralytics YOLO, o YOLO26 oferece melhorias claras sem alterar os fluxos de trabalho existentes.

Queres saber mais sobre IA? Consulta a nossa community e o nosso GitHub repository. Explora as nossas páginas de soluções para aprender sobre AI in robotics e computer vision in agriculture. Descobre as nossas opções de our licensing e começa hoje mesmo a construir com visão computacional!