Yolo Vision Shenzhen
Shenzhen
Junte-se agora

Ultralytics vs. outrosYOLO Ultralytics YOLO para estimativa de pose

Descubra como Ultralytics melhora a estimativa de pose com melhor suporte a pontos-chave não humanos, convergência mais rápida, melhor tratamento de oclusão e implementação eficiente em tempo real.

Expanda os seus projetos de visão computacional com Ultralytics

Entre em contato

Quando você observa a postura de alguém, é fácil perceber se a pessoa está encurvada, inclinada para a frente ou em pé, com as costas retas. Os seres humanos conseguem compreender rapidamente como as diferentes partes do corpo se relacionam entre si. 

É uma parte inerente à forma como interpretamos o movimento e a linguagem corporal na vida quotidiana. Para as máquinas, no entanto, esse tipo de compreensão visual não é automático. Ensinar um sistema a reconhecer movimentos e estruturas requer técnicas avançadas de aprendizagem profunda e visão computacional que lhe permitam interpretar imagens de forma significativa.

Em particular, a estimativa de pose é uma técnica de IA visual que permite que um modelo de visão computacional construa um entendimento semelhante. Em vez de simplesmente detectar um objeto numa imagem, o modelo prevê pontos-chave que representam marcos estruturais importantes. 

Esses pontos-chave podem corresponder a articulações do corpo, membros de animais, componentes de máquinas ou até mesmo pontos fixos, como os cantos de uma quadra. Ao identificar e rastrear esses pontos, o sistema pode compreender a posição, o alinhamento e o movimento de maneira estruturada e mensurável.

À medida que a estimativa de pose é aplicada a mais cenários do mundo real, os modelos precisam lidar com pontos-chave não humanos, cenas complexas e conjuntos de dados personalizados de forma mais eficaz. Por exemplo, modelos de última geração, como Ultralytics , suportam tarefas de visão computacional, como estimativa de pose, e se baseiam em modelos YOLO anteriores, com melhorias arquitetónicas e de treinamento projetadas para aumentar a flexibilidade e o desempenho geral.

Fig. 1. Um exemplo de estimativa de pose possibilitada pelo YOLO Fonte)

Neste artigo, compararemos o YOLO26-pose com os modelos anteriores Ultralytics YOLO e exploraremos como ele melhora a flexibilidade, a velocidade de convergência e o desempenho em cenas complexas. Vamos começar!

O que é estimativa de pose?

Antes de nos aprofundarmos na comparação entre Ultralytics YOLO , vamos examinar mais de perto o que a estimativa de pose realmente significa no contexto da visão computacional.

A estimativa de pose é uma técnica utilizada para detect track pontos-chave track numa imagem ou fotograma de vídeo. Esses pontos-chave podem representar marcos estruturais importantes, como articulações do corpo humano, membros de um animal, componentes de uma máquina ou pontos de referência fixos numa cena. 

Fig. 2. Estimativa da postura dos trabalhadores utilizando estimativa da postura humana (Fonte)

Ao identificar as coordenadas desses pontos, um modelo pode compreender como um objeto está posicionado e como se move ao longo do tempo. Ao contrário da classificação de imagens, que atribui um único rótulo a uma imagem inteira, ou dos modelos de deteção de objetos, que se concentram em desenhar caixas delimitadoras em torno dos objetos, a estimativa de pose fornece informações espaciais mais detalhadas sobre a estrutura e o movimento.

Uma visão geral do YOLO26-pose

O YOLO26-pose está disponível em várias variantes ou tamanhos de modelo, incluindo opções leves como o YOLO26n-pose e modelos maiores, como o YOLO26m-pose, o YOLO26l-pose e o YOLO26x-pose. Isso permite que as equipas escolham o equilíbrio certo entre velocidade e precisão, dependendo das suas necessidades de hardware e desempenho.

Ultralytics fornece modelos de pose pré-treinados em grandes conjuntos de dados gerais, como o COCO , especificamente as anotações COCO(COCO ) para estimativa de pose humana, para que não tenha de começar do zero. Na maioria dos casos, as equipas ajustam esses modelos em seus próprios conjuntos de dados para adaptá-los a pontos-chave, layouts ou ambientes específicos. 

Isso normalmente envolve a preparação de ficheiros de anotação personalizados que definem coordenadas de pontos-chave e rótulos de classe num formato estruturado. Essas anotações mapeiam pontos-chave para coordenadas de pixels específicas dentro de cada imagem, permitindo que o modelo aprenda relações espaciais precisas durante o treino.

A utilização de modelos pré-treinados torna o treinamento mais rápido, reduz os requisitos de dados e ajuda a levar os projetos para a produção de forma mais eficiente. 

Aplicações reais da estimativa da postura humana

Aqui está um vislumbre de alguns casos de uso reais em que a estimativa de pose desempenha um papel importante:

  • Saúde e reabilitação: Os médicos podem usar modelos de poses para avaliar a postura, monitorar o progresso da recuperação e analisar padrões de movimento durante a fisioterapia.
  • Sistemas autónomos: Drones e câmaras inteligentes podem usar informações de pose para compreender melhor a orientação e o movimento de objetos em cenas dinâmicas.
  • Segurança no local de trabalho: as organizações podem monitorizar o posicionamento corporal e os movimentos repetitivos para ajudar a identificar potenciais riscos de segurança.
  • Fitness e treino pessoal: as aplicações de fitness utilizam a estimativa de poses para track a forma track , contar repetições e fornecer feedback em tempo real sobre a postura e os movimentos mantidos durante os tutoriais de fitness.
Fig. 3. A estimativa da postura pode ajudar track do corpo durante movimentos atléticos. (Fonte)

Explorando o suporte Ultralytics para estimativa de pose

Ultralytics baseia-se nosYOLO Ultralytics YOLO anteriores, com atualizações concebidas para tornar a formação e a implementação mais práticas. 

Tal como as versões anteriores, suporta a estimativa de poses como parte de uma estrutura unificada. A principal diferença é que o YOLO26 foi concebido para ser mais flexível e estável numa gama mais ampla de casos de utilização no mundo real.

Fig. 4. Benchmarking YOLO26 (Fonte)

Os modelos anteriores Ultralytics YOLO foram amplamente influenciados por conjuntos de dados de poses humanas, o que significava que partes dos métodos mais antigos foram otimizadas em torno das estruturas articulares humanas. O YOLO26 elimina essas suposições específicas do ser humano. 

Como resultado, é mais adequado para pontos-chave não humanos, como a deteção dos cantos de um campo de ténis ou outros pontos de referência estruturais personalizados. Isto é significativo porque os modelos YOLO26-pose pré-treinados e prontos a usar são treinados em conjuntos de dados como COCO e prevêem pontos-chave humanos definidos nas anotações do conjunto de dados. 

No entanto, quando as equipas pretendem detect tipos de pontos de referência, tais como componentes de máquinas, marcadores de campos desportivos ou pontos de infraestrutura, o modelo normalmente precisa de ser ajustado num conjunto de dados personalizado onde esses pontos-chave específicos são anotados.

Como o YOLO26 não está vinculado a suposições sobre as estruturas articulares humanas, ele pode se adaptar de forma mais eficaz durante o ajuste fino. Essa flexibilidade permite que o modelo aprenda layouts de pontos-chave personalizados de forma mais confiável, o que leva a métricas de avaliação aprimoradas ao validar conjuntos de dados com configurações de pontos-chave exclusivas.

O YOLO26-pose também foi projetado para melhorar a localização de pontos-chave quando partes de um objeto estão parcialmente ocultas ou aparecem em uma escala muito pequena. Em cenas do mundo real envolvendo objetos distantes, imagens de drones ou cenários com objetos pequenos, isso pode levar a previsões de pontos-chave mais precisas em comparação com modelos de pose anteriores.

Outra atualização importante é a formulação aprimorada de perda usada durante o treinamento. A função de perda determina como o modelo corrige os seus erros durante o aprendizado. 

Quando se trata do YOLO26-pose, esse processo é mais eficaz, o que ajuda o modelo a aprender mais rapidamente e alcançar uma precisão elevada em menos épocas, sendo que uma época se refere a uma passagem completa pelo conjunto de dados de treino.

No geral, o YOLO26-pose baseia-se nos modelos anteriores Ultralytics YOLO , com melhorias mais evidentes no suporte a pontos-chave não humanos e na convergência do treino, mantendo o mesmo fluxo de trabalho familiar.

Comparando o YOLO26-pose com Ultralytics YOLOv5

A versão mais antigaYOLO da Ultralytics , Ultralytics YOLOv5, foi criada principalmente para a deteção de objetos. Embora YOLOv5 tenha sido YOLOv5 expandido para suportar a segmentação de instâncias, ele não inclui um cabeçote de estimativa de pose nativo e especializado dentro da Ultralytics oficial Ultralytics . 

As equipas que precisavam de deteção de pontos-chave normalmente dependiam de implementações separadas ou modificações personalizadas. Ultralytics inclui a estimativa de pose como uma tarefa integrada, com uma cabeça arquitetural dedicada projetada especificamente para prever pontos-chave. 

Isso significa que os modelos YOLO26-pose podem ser treinados, validados e implementados dentro do mesmo fluxo de trabalho unificado que a deteção e a segmentação. Para projetos focados na deteção estruturada de pontos-chave, o YOLO26 oferece suporte nativo à pose e uma arquitetura específica para tarefas que YOLOv5 oferece de fábrica.

Principais diferenças: YOLO26-pose vs Ultralytics YOLOv8

Ultralytics YOLOv8 introduziu a estimativa de pose nativa na Ultralytics unificada Ultralytics , facilitando o treino e a implementação de modelos de pontos-chave usando o mesmo fluxo de trabalho da deteção e segmentação. Baseia-se num pipeline de pós-processamento tradicional com supressão não máxima (NMS) e usa formulações de perda anteriores para regressão e treino de caixas delimitadoras.

O YOLO26 baseia-se nesta fundação com atualizações arquitetónicas e de treino que afetam diretamente a estimativa de poses. Uma grande diferença é o design de ponta a ponta. O YOLO26 elimina a necessidade de NMS externo NMS a inferência, o que simplifica a implementação e melhora a consistência da latência, especialmente em CPUs e dispositivos de ponta.

Outra melhoria importante está na metodologia de treino. O YOLO26 introduz o otimizador MuSGD, juntamente com estratégias de perda atualizadas. Para tarefas de pose, ele integra a Estimativa Residual de Log-Verossimilhança, que melhora a forma como a incerteza dos pontos-chave é modelada. Juntas, essas mudanças podem levar a uma convergência mais rápida e previsões de pontos-chave mais estáveis, especialmente em cenas complexas ou parcialmente ocultas.

Em suma, YOLOv8 estabeleceu uma base forte e versátil. O YOLO26-pose refina essa base com maior eficiência de treino, melhor tratamento de oclusão e maior flexibilidade para aplicações de poses não humanas no mundo real.

YOLO26-Pose vs Ultralytics YOLO11: O que melhorou?

Ultralytics YOLO11 baseia-se no Ultralytics YOLOv8 as camadas de backbone e extração de características. Reduziu os FLOPs, melhorou a eficiência dos parâmetros e proporcionou mAP mais elevado mAP um forte desempenho em tempo real. Para tarefas de pose, isto significou uma melhor precisão dos pontos-chave com uma arquitetura mais leve.

O YOLO26-pose dá continuidade a essa evolução com uma mudança arquitetónica mais fundamental. Em termos simples, YOLO11 a eficiência e a precisão do YOLOv8, e o YOLO26 se baseia nessa fundação com atualizações arquitetónicas e de treino destinadas a uma convergência mais rápida, inferência mais estável e maior precisão de pose em cenários complexos.

Por que deve começar a usar o modelo YOLO26 para estimativa de pose?

Ao explorar as diferenças entreYOLO Ultralytics , você pode estar a pensar se deve mudar para o YOLO26-pose.

A resposta curta é que é uma atualização fácil. Se já estiver a utilizar Ultralytics YOLOv8 ou Ultralytics YOLO11, mudar para o YOLO26-pose normalmente significa apenas alterar a versão do modelo, sem precisar reconstruir o seu pipeline.

Pode beneficiar de um melhor suporte para pontos-chave não humanos, convergência mais rápida durante o treino e melhor tratamento de pontos ocultos, tudo isso mantendo-se na mesma Ultralytics . Para a maioria dos projetos de pose novos e existentes, mudar para o YOLO26-pose é uma maneira simples de obter essas melhorias com o mínimo de atrito.

Além disso, o YOLO26-pose é totalmente compatível com o Python Ultralytics Python , que é construído sobre PyTorch simplifica o treinamento, a validação e a implementação. Os modelos podem ser exportados para formatos como ONNX, TensorRT, OpenVINO, CoreML e TFLite, facilitando a implementação em GPUs, CPUs e dispositivos de ponta sem alterar o fluxo de trabalho geral.

Principais conclusões

Ultralytics torna a estimativa de poses mais flexível e confiável, especialmente ao trabalhar com pontos-chave não humanos ou cenas complexas. Ele treina mais rapidamente, lida melhor com oclusões e oferece resultados mais consistentes em diferentes conjuntos de dados. Para equipas que já utilizam modelosYOLO Ultralytics YOLO , o YOLO26 oferece melhorias claras sem alterar os fluxos de trabalho existentes.

Quer saber mais sobre IA? Confira nossa comunidade e o repositório GitHub. Explore nossas páginas de soluções para saber mais sobre IA em robótica e visão computacional na agricultura. Descubra nossas opções de licenciamento e comece a construir com visão computacional hoje mesmo!

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente