Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Estimativa de pose

Descubra a estimativa da pose: como funcionam os modelos de pontos-chave (de cima para baixo ou de baixo para cima), utilizações reais desde os cuidados de saúde ao desporto, bem como as principais vantagens e desafios.

A estimativa de pose é uma tarefa especializada especializada de visão computacional (CV) que vai além da deteção de objectos para identificar a sua geometria e orientação específicas. Ao identificar coordenadas para pontos de referência estruturais pontos dereferência estruturais - conhecidos como pontos-chave - estatecnologia cria uma representação esquelética de um objeto. Nos seres humanos, estes pontos-chave são normalmente mapeados para as principais articulações, como ombros, cotovelos, ancas e joelhos, ancas e joelhos. Esta capacidade permite aos modelos de modelos de aprendizagem automática (ML) para interpretar a linguagem corporal, atividade e postura, colmatando a lacuna entre a simples deteção de pixéis e a compreensão de comportamentos físicos complexos. comportamentos físicos complexos.

Mecanismos e abordagens fundamentais

A estimativa de pose moderna baseia-se fortemente em arquitecturas de aprendizagem profunda (DL), especificamente Redes Neuronais Convolucionais (CNNs) e, cada vez mais, Transformers. O processo geralmente se divide em duas metodologias principais:

  • Abordagem de cima para baixo: Este método utiliza primeiro um modelo de modelo de deteção de objectos para localizar individuais (por exemplo, humanos) dentro de uma caixa delimitadora. Uma vez recortada, o sistema estima os pontos-chave para essa pessoa individual. Isto é frequentemente mais exato, mas computacionalmente computacionalmente dispendioso à medida que o número de pessoas aumenta.
  • Abordagem de baixo para cima: Em alternativa, o modelo detecta todos os potenciais pontos-chave em toda a imagem (por exemplo, cada cotovelo esquerdo) e depois associa-os para formar esqueletos distintos. Isto é frequentemente preferido para inferência em tempo real em cenas com muita gente, uma vez que tempo de processamento é menos dependente do número de objectos.

Para aplicações de elevado desempenho, modelos como Ultralytics YOLO11 integram estes conceitos para fornecer uma estimativa de pose adequada para dispositivos de ponta.

Distinguir conceitos relacionados

É crucial diferenciar a estimativa de pose de tarefas de visão semelhantes:

  • Versus Deteção de Objectos: Enquanto a a deteção de objectos identifica onde está um objeto e o que é (etiqueta de classe), trata o objeto como uma caixa rígida. A estimativa de pose revela a estrutura interna estrutura interna e a articulação dentro dessa caixa.
  • Versus Segmentação de Instância: A segmentação de instâncias fornece uma máscara perfeita de pixels da forma de um objeto. Apesar de delinear os limites, não identifica explicitamente as articulações ou articulações ou ligações esqueléticas, o que é necessário para analisar a dinâmica do movimento ou cinemática.

Aplicações no Mundo Real

A utilidade da estimativa de pose estende-se a vários sectores onde a análise do movimento é fundamental.

Cuidados de saúde e reabilitação

No domínio da IA nos cuidados de saúde, a estimativa da pose auxilia a fisioterapia ao seguir automaticamente os movimentos do doente. Os sistemas podem medir o ângulo das articulações durante os exercícios de reabilitação para garantir que os doentes mantêm a forma correta, reduzindo o risco de novas lesões. Isto permite monitorização remota e avanços na tele-saúde, tornando os cuidados de qualidade mais acessíveis.

Análise e biomecânica do desporto

Os treinadores e os atletas utilizam análise desportiva para dissecar o desempenho. Ao extrair dados biomecânicos de vídeos de vídeo, a IA pode analisar o plano de balanço de um golfista ou a eficiência da marcha de um corredor sem a necessidade de intrusivos utilizados na captura tradicional de movimentos.

Exemplo de código: Estimativa de pose com YOLO11

O seguinte Python demonstra como carregar um modelo YOLO11 pré-treinado pré-treinado e realizar a estimativa de pose numa imagem. Isso requer o ultralytics e visualiza o resultado saída esquelética.

from ultralytics import YOLO

# Load the official YOLO11 nano pose model
model = YOLO("yolo11n-pose.pt")

# Run inference on an image source
results = model("https://docs.ultralytics.com/usage/python/")

# Visualize the detected keypoints and skeleton
results[0].show()

Desafios e dados

O treino de modelos de pose robustos requer conjuntos de dados anotados em massa. As referências padrão, como o conjunto de dadosCOCO Pose, fornecem milhares de figuras humanas identificadas. No entanto, persistem desafios, como a oclusão (quando partes do corpo corpo estão escondidas) e a auto-oclusão (quando uma pessoa bloqueia os seus próprios membros). Para os resolver, são necessárias técnicas avançadas de aumento de dados e diversos dados de treino que abrangem vários ângulos e condições de condições de iluminação.

Além disso, a implementação destes modelos em dispositivos de IA de ponta requer uma otimização cuidadosa, como a quantização do modelo, para manter uma elevada precisão sem sacrificar a velocidade.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora