Sintonize na YOLO Vision 2025!
25 de setembro de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024

Aprimorando a estimativa de pontos-chave da mão com Ultralytics YOLO11

Abirami Vina

Leitura de 6 min

5 de março de 2025

Explore a estimativa de pontos-chave da mão orientada por IA com o suporte do Ultralytics YOLO11 para estimativa de pose em aplicações como reconhecimento de gestos em tempo real.

Recentemente, os intérpretes de linguagem de sinais no Super Bowl ganharam muita atenção. Quando você os assiste cantando a música do seu artista favorito na TV, você pode entendê-los se souber a linguagem de sinais porque seu cérebro processa os movimentos de suas mãos. Mas e se um computador pudesse fazer o mesmo? Graças às soluções de rastreamento de mãos orientadas por IA, é possível para as máquinas rastrear e interpretar os movimentos das mãos com uma precisão impressionante.

No centro dessas soluções está a visão computacional, um subcampo da IA que permite que as máquinas processem e compreendam informações visuais. Ao analisar imagens e vídeos, a Vision AI os ajuda a detectar objetos, rastrear movimentos e reconhecer gestos complexos com notável precisão.

Por exemplo, modelos de visão computacional como o Ultralytics YOLO11 podem ser treinados para detectar e analisar os pontos-chave da mão em tempo real usando a estimativa de pose. Ao fazer isso, esses modelos podem ser usados para aplicações como reconhecimento de gestos, tradução de linguagem de sinais e interações AR/VR. 

Neste artigo, exploraremos como o YOLO11 permite o rastreamento de mãos baseado em IA, os conjuntos de dados usados para treinamento e como treinar de forma personalizada um modelo para estimativa de pose da mão. Também veremos aplicações do mundo real. Vamos começar!

Compreendendo a detecção de pontos-chave da mão baseada em IA

A IA pode ser usada para reconhecer e rastrear os movimentos das mãos em dados visuais, identificando pontos-chave como o pulso, as pontas dos dedos e as articulações dos dedos. Uma abordagem, conhecida como estimativa de pose, ajuda os computadores a entender o movimento humano, mapeando os pontos-chave e analisando como eles mudam ao longo do tempo. Isso permite que os sistemas de IA interpretem a postura corporal, os gestos e os padrões de movimento com alta precisão.

Os modelos de visão computacional tornam isso possível, analisando imagens ou vídeos para identificar os pontos-chave na mão e rastrear seu movimento. Uma vez que esses pontos são mapeados, a IA pode reconhecer gestos, analisando as relações espaciais entre os pontos-chave e como eles mudam ao longo do tempo. 

Por exemplo, se a distância entre um polegar e um dedo indicador diminui, a IA pode interpretá-lo como um movimento de pinça. Da mesma forma, rastrear como os pontos-chave se movem em sequências ajuda a identificar gestos complexos das mãos e até mesmo prever movimentos futuros.

__wf_reserved_inherit
Fig 1. Um exemplo de reconhecimento dos pontos-chave em uma mão usando visão computacional.

Curiosamente, a estimativa de pose para rastreamento de mãos abriu possibilidades empolgantes, desde o controle de dispositivos inteligentes sem as mãos até a melhoria da precisão robótica e assistência em aplicações de saúde. À medida que a IA e a visão computacional continuam a evoluir, o rastreamento de mãos provavelmente desempenhará um papel maior em tornar a tecnologia mais interativa, acessível e intuitiva na vida cotidiana.

Explorando o YOLO11 para estimativa de pose

Antes de nos aprofundarmos em como criar uma solução para rastreamento de mãos baseado em IA, vamos analisar mais de perto a estimativa de pose e como o YOLO11 suporta esta tarefa de visão computacional. Ao contrário da detecção de objetos padrão, que identifica objetos inteiros, a estimativa de pose se concentra na detecção de pontos de referência principais - como articulações, membros ou bordas - para analisar o movimento e a postura. 

Especificamente, o Ultralytics YOLO11 foi projetado para estimativa de pose em tempo real. Ao aproveitar os métodos top-down e bottom-up, ele detecta pessoas e estima pontos-chave de forma eficiente em uma única etapa, superando os modelos anteriores em velocidade e precisão.

Imediatamente, o YOLO11 vem pré-treinado no conjunto de dados COCO-Pose e pode reconhecer pontos-chave no corpo humano, incluindo cabeça, ombros, cotovelos, pulsos, quadris, joelhos e tornozelos. 

__wf_reserved_inherit
Fig 2. Usando YOLO11 para estimativa de pose humana.

Além da estimativa de pose humana, o YOLO11 pode ser treinado sob medida para detectar pontos-chave em uma variedade de objetos, animados e inanimados. Essa flexibilidade torna o YOLO11 uma ótima opção para uma ampla gama de aplicações.

Uma visão geral do conjunto de dados Hand Keypoints

O primeiro passo no treinamento personalizado de um modelo é coletar dados e anotá-los ou encontrar um conjunto de dados existente que se adapte às necessidades do projeto. Por exemplo, o conjunto de dados Hand Keypoints é um bom ponto de partida para treinar modelos de Visão de IA para rastreamento de mãos e estimativa de pose. Com 26.768 imagens anotadas, ele elimina a necessidade de rotulagem manual. 

Ele pode ser usado para treinar modelos como o Ultralytics YOLO11 para aprender rapidamente como detectar e rastrear movimentos das mãos. O conjunto de dados inclui 21 pontos-chave por mão, cobrindo o pulso, dedos e articulações. Além disso, as anotações do conjunto de dados foram geradas com o Google MediaPipe, uma ferramenta para desenvolver soluções alimentadas por IA para processamento de mídia em tempo real, garantindo detecção de pontos-chave precisa e confiável. 

__wf_reserved_inherit
Fig 3. Os 21 pontos-chave incluídos no conjunto de dados Hand Keypoints.

Usar um conjunto de dados estruturado como este economiza tempo e permite que os desenvolvedores se concentrem no treinamento e ajuste fino de seus modelos, em vez de coletar e rotular dados. Na verdade, o conjunto de dados já está dividido em subconjuntos de treinamento (18.776 imagens) e validação (7.992 imagens), facilitando a avaliação do desempenho do modelo. 

Como treinar o YOLO11 para estimativa de pose da mão

Treinar o YOLO11 para estimativa de pose da mão é um processo direto, especialmente com o pacote Ultralytics Python, que facilita a configuração e o treinamento do modelo. Como o conjunto de dados Hand Keypoints já é suportado no pipeline de treinamento, ele pode ser usado imediatamente, sem formatação extra, economizando tempo e esforço.

Veja como funciona o processo de treinamento:

  • Configure o ambiente: O primeiro passo é instalar o pacote Ultralytics Python.
  • Carregue o conjunto de dados Hand Keypoints: O YOLO11 suporta este conjunto de dados nativamente, então ele pode ser baixado e preparado automaticamente.
  • Use um modelo pré-treinado: Você pode começar com um modelo de estimativa de pose YOLO11 pré-treinado, o que ajuda a melhorar a precisão e acelera o processo de treinamento.
  • Treine o modelo: O modelo aprende a detectar e rastrear pontos-chave da mão passando por vários ciclos de treinamento.
  • Monitore o desempenho: O pacote Ultralytics também fornece ferramentas integradas para rastrear métricas-chave como precisão e perda, ajudando a garantir que o modelo melhore com o tempo.
  • Salve e implante: Uma vez treinado, o modelo pode ser exportado e usado para aplicações de rastreamento de mãos em tempo real.

Avaliando seu modelo treinado sob medida

Ao seguir os passos de criação de um modelo personalizado, você notará que monitorar o desempenho é essencial. Além de rastrear o progresso durante o treinamento, avaliar o modelo posteriormente é crucial para garantir que ele detecte e rastreie com precisão os pontos-chave da mão. 

As principais métricas de desempenho, como precisão, valores de perda e precisão média (mAP), ajudam a avaliar o desempenho do modelo. O pacote Ultralytics Python fornece ferramentas integradas para visualizar os resultados e comparar as previsões com as anotações reais, facilitando a identificação de áreas para melhoria.

Para entender melhor o desempenho do modelo, você pode verificar gráficos de avaliação, como curvas de perda, gráficos de precisão-recall e matrizes de confusão, que são gerados automaticamente nos logs de treinamento. 

Esses gráficos ajudam a identificar problemas como overfitting (quando o modelo memoriza os dados de treinamento, mas tem dificuldades com novos dados) ou underfitting (quando o modelo não consegue aprender padrões bem o suficiente para ter um desempenho preciso) e orientam os ajustes para melhorar a precisão. Além disso, testar o modelo em novas imagens ou vídeos é importante para ver o quão bem ele funciona em cenários do mundo real.

Aplicações de soluções de rastreamento de mãos orientadas por IA

Em seguida, vamos analisar algumas das aplicações mais impactantes da estimativa de pontos-chave da mão com Ultralytics YOLO11.

Reconhecimento de gestos em tempo real com YOLO11

Imagine poder ajustar o volume da sua TV simplesmente acenando com a mão ou navegar em um sistema de casa inteligente com um simples deslizar no ar. O reconhecimento de gestos em tempo real, alimentado por YOLO11, torna essas interações sem toque possíveis, detectando com precisão os movimentos das mãos em tempo real. 

Isso funciona usando câmeras de IA para rastrear pontos-chave em sua mão e interpretar gestos como comandos. Câmeras com sensor de profundidade, sensores infravermelhos ou até webcams comuns capturam os movimentos da mão, enquanto o YOLO11 pode processar os dados para reconhecer diferentes gestos. Por exemplo, um sistema como este pode diferenciar um deslize para mudar uma música, um beliscão para ampliar ou um movimento circular para ajustar o volume.

Detecção de pontos-chave da mão baseada em IA para reconhecimento de linguagem de sinais

As soluções de IA para rastreamento de mãos podem oferecer suporte à comunicação contínua entre uma pessoa surda e alguém que não conhece a linguagem de sinais. Por exemplo, dispositivos inteligentes integrados com câmeras e YOLO11 podem ser usados para traduzir instantaneamente a linguagem de sinais em texto ou fala. 

Graças a avanços como o YOLO11, as ferramentas de tradução de linguagem de sinais estão se tornando mais precisas e acessíveis. Isso impacta aplicações como tecnologia assistiva, serviços de tradução ao vivo e plataformas educacionais. A IA pode ajudar a superar as lacunas de comunicação e promover a inclusão em locais de trabalho, escolas e espaços públicos.

Visão computacional para rastreamento de mãos: Melhorando as experiências de AR e VR

Você já jogou um jogo de realidade virtual (VR) onde podia pegar objetos sem usar um controle? O rastreamento de mãos alimentado por visão computacional torna isso possível, permitindo que os usuários interajam naturalmente em ambientes de realidade aumentada (AR) e VR. 

__wf_reserved_inherit
Fig 4. O rastreamento de mãos é uma parte fundamental das aplicações de AR e VR.

Com a estimativa de pontos-chave da mão usando modelos como o Ultralytics YOLO11, a IA rastreia os movimentos em tempo real, permitindo gestos como pinçar, agarrar e deslizar. Isso aprimora jogos, treinamento virtual e colaboração remota, tornando as interações mais intuitivas. À medida que a tecnologia de rastreamento de mãos melhora, AR e VR parecerão ainda mais imersivas e realistas. 

Principais conclusões

A estimativa de pontos-chave da mão com Ultralytics YOLO11 está tornando as soluções de rastreamento de mãos orientadas por IA mais acessíveis e confiáveis. Do reconhecimento de gestos em tempo real à interpretação da linguagem de sinais e aplicações de AR/VR, a visão computacional está abrindo novas possibilidades na interação homem-computador.

Além disso, processos simplificados de treinamento personalizado e ajuste fino estão ajudando os desenvolvedores a construir modelos eficientes para vários usos no mundo real. À medida que a tecnologia de visão computacional evolui, podemos esperar ainda mais inovações em áreas como saúde, robótica, jogos e segurança.

Interaja com nossa comunidade e explore os avanços da IA em nosso repositório GitHub. Descubra o impacto da IA na manufatura e da visão computacional na área da saúde por meio de nossas páginas de soluções. Explore nossos planos de licenciamento e comece sua jornada de IA hoje mesmo!

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente
Link copiado para a área de transferência