Ao clicar em “Aceitar todos os cookies”, concorda com o armazenamento de cookies no seu dispositivo para melhorar a navegação no site, analisar a utilização do site e ajudar nos nossos esforços de marketing. Mais informações
Definições de cookies
Ao clicar em “Aceitar todos os cookies”, concorda com o armazenamento de cookies no seu dispositivo para melhorar a navegação no site, analisar a utilização do site e ajudar nos nossos esforços de marketing. Mais informações
Explore a estimativa de pontos-chave da mão baseada em IA com o suporte do Ultralytics YOLO11 para estimativa de pose em aplicações como o reconhecimento de gestos em tempo real.
Recentemente, os intérpretes de língua gestual na Super Bowl ganharam muita atenção. Quando os vemos a cantar a canção do nosso artista preferido na televisão, conseguimos compreendê-los se soubermos linguagem gestual, porque o nosso cérebro processa os movimentos das mãos. Mas e se um computador pudesse fazer o mesmo? Graças às soluções de rastreio de mãos baseadas em IA, é possível às máquinas track e interpretar os movimentos das mãos com uma precisão impressionante.
No centro destas soluções está a visão computacional, um subcampo da IA que permite às máquinas processar e compreender informações visuais. Ao analisar imagens e vídeos, a IA de visão ajuda-os a detect objectos, a track movimentos e a reconhecer gestos complexos com uma precisão notável.
Por exemplo, modelos de visão por computador como o Ultralytics YOLO11 podem ser treinados para detect e analisar pontos-chave da mão em tempo real utilizando a estimativa de pose. Ao fazê-lo, estes modelos podem ser utilizados para aplicações como o reconhecimento de gestos, a tradução de linguagem gestual e as interações AR/VR.
Neste artigo, vamos explorar a forma como YOLO11 permite o seguimento de mãos baseado em IA, os conjuntos de dados utilizados para treino e como treinar um modelo personalizado para a estimativa da pose da mão. Também analisaremos as aplicações do mundo real. Vamos começar!
Compreendendo a detecção de pontos-chave da mão baseada em IA
A IA pode ser utilizada para reconhecer e track os movimentos das mãos em dados visuais, identificando pontos-chave como o pulso, as pontas dos dedos e as articulações dos dedos. Uma abordagem, conhecida como estimativa de pose, ajuda os computadores a compreender o movimento humano mapeando os pontos-chave e analisando a forma como estes mudam ao longo do tempo. Isto permite que os sistemas de IA interpretem a postura corporal, os gestos e os padrões de movimento com elevada precisão.
Os modelos de visão por computador tornam isto possível através da análise de imagens ou vídeos para identificar pontos-chave na mão e track seu movimento. Uma vez mapeados estes pontos, a IA pode reconhecer os gestos analisando as relações espaciais entre os pontos-chave e a forma como mudam ao longo do tempo.
Por exemplo, se a distância entre um polegar e um dedo indicador diminui, a IA pode interpretá-lo como um movimento de pinça. Da mesma forma, rastrear como os pontos-chave se movem em sequências ajuda a identificar gestos complexos das mãos e até mesmo prever movimentos futuros.
Fig 1. Um exemplo de reconhecimento dos pontos-chave em uma mão usando visão computacional.
Curiosamente, a estimativa de pose para rastreamento de mãos abriu possibilidades empolgantes, desde o controle de dispositivos inteligentes sem as mãos até a melhoria da precisão robótica e assistência em aplicações de saúde. À medida que a IA e a visão computacional continuam a evoluir, o rastreamento de mãos provavelmente desempenhará um papel maior em tornar a tecnologia mais interativa, acessível e intuitiva na vida cotidiana.
Explorar YOLO11 para estimativa de pose
Antes de nos debruçarmos sobre a forma de criar uma solução para o rastreio de mãos baseado em IA, vamos analisar mais detalhadamente a estimativa de pose e a forma como YOLO11 suporta esta tarefa de visão computacional. Ao contrário da deteção de objectos padrão, que identifica objectos inteiros, a estimativa de pose foca-se na deteção de pontos de referência chave - tais como articulações, membros ou arestas - para analisar o movimento e a postura.
Especificamente, o Ultralytics YOLO11 foi concebido para a estimativa de pose em tempo real. Ao aproveitar os métodos de cima para baixo e de baixo para cima, detecta eficazmente as pessoas e estima os pontos-chave num único passo, superando os modelos anteriores em termos de velocidade e precisão.
YOLO11 vem pré-treinado no conjunto de dadosCOCO e pode reconhecer pontos-chave do corpo humano, incluindo a cabeça, ombros, cotovelos, pulsos, ancas, joelhos e tornozelos.
Fig. 2. Utilização do YOLO11 para estimar a pose humana.
Para além da estimativa da pose humana, YOLO11 pode ser treinado à medida para detect pontos-chave numa variedade de objectos, tanto animados como inanimados. Esta flexibilidade faz do YOLO11 uma óptima opção para uma vasta gama de aplicações.
Uma visão geral do conjunto de dados Hand Keypoints
O primeiro passo no treinamento personalizado de um modelo é coletar dados e anotá-los ou encontrar um conjunto de dados existente que se adapte às necessidades do projeto. Por exemplo, o conjunto de dados Hand Keypoints é um bom ponto de partida para treinar modelos de Visão de IA para rastreamento de mãos e estimativa de pose. Com 26.768 imagens anotadas, ele elimina a necessidade de rotulagem manual.
Pode ser utilizado para treinar modelos como o Ultralytics YOLO11 para aprender rapidamente a detect e track os movimentos da mão. O conjunto de dados inclui 21 pontos-chave por mão, abrangendo o pulso, os dedos e as articulações. Além disso, as anotações do conjunto de dados foram geradas com o Google MediaPipe, uma ferramenta para o desenvolvimento de soluções baseadas em IA para o processamento de média em tempo real, garantindo uma deteção precisa e fiável dos pontos-chave.
Fig 3. Os 21 pontos-chave incluídos no conjunto de dados Hand Keypoints.
Usar um conjunto de dados estruturado como este economiza tempo e permite que os desenvolvedores se concentrem no treinamento e ajuste fino de seus modelos, em vez de coletar e rotular dados. Na verdade, o conjunto de dados já está dividido em subconjuntos de treinamento (18.776 imagens) e validação (7.992 imagens), facilitando a avaliação do desempenho do modelo.
Como treinar YOLO11 para estimar a pose da mão
O treino YOLO11 para a estimativa da pose da mão é um processo simples, especialmente com o pacoteUltralytics Python , que facilita a configuração e o treino do modelo. Uma vez que o conjunto de dados Hand Keypoints já é suportado no pipeline de treino, pode ser utilizado de imediato sem formatação adicional, poupando tempo e esforço.
Veja como funciona o processo de treinamento:
Configurar o ambiente: O primeiro passo é instalar o pacote Ultralytics Python .
Carregar o conjunto de dados de pontos-chave da mão: YOLO11 suporta este conjunto de dados nativamente, pelo que pode ser descarregado e preparado automaticamente.
Use um modelo pré-treinado: Pode começar com um modelo de estimativa de pose YOLO11 pré-treinado, o que ajuda a melhorar a precisão e acelera o processo de treino.
Treinar o modelo: O modelo aprende a detect e a track os pontos-chave da mão passando por vários ciclos de treino.
Monitorizar o desempenho: O pacote Ultralytics também fornece ferramentas integradas para track métricas importantes, como precisão e perda, ajudando a garantir que o modelo melhore ao longo do tempo.
Salve e implante: Uma vez treinado, o modelo pode ser exportado e usado para aplicações de rastreamento de mãos em tempo real.
Avaliando seu modelo treinado sob medida
Ao seguir os passos de criação de um modelo personalizado, você notará que monitorar o desempenho é essencial. Além de rastrear o progresso durante o treinamento, avaliar o modelo posteriormente é crucial para garantir que ele detecte e rastreie com precisão os pontos-chave da mão.
As principais métricas de desempenho, como a exatidão, os valores de perda e a precisão médiamAP), ajudam a avaliar o desempenho do modelo. O pacote Ultralytics Python fornece ferramentas integradas para visualizar resultados e comparar previsões com anotações reais, facilitando a identificação de áreas a melhorar.
Para entender melhor o desempenho do modelo, você pode verificar gráficos de avaliação, como curvas de perda, gráficos de precisão-recall e matrizes de confusão, que são gerados automaticamente nos logs de treinamento.
Esses gráficos ajudam a identificar problemas como overfitting (quando o modelo memoriza os dados de treinamento, mas tem dificuldades com novos dados) ou underfitting (quando o modelo não consegue aprender padrões bem o suficiente para ter um desempenho preciso) e orientam os ajustes para melhorar a precisão. Além disso, testar o modelo em novas imagens ou vídeos é importante para ver o quão bem ele funciona em cenários do mundo real.
Aplicações de soluções de rastreamento de mãos orientadas por IA
Imaginemos que podia ajustar o volume do seu televisor acenando simplesmente com a mão ou navegar num sistema doméstico inteligente com um simples toque no ar. O reconhecimento de gestos em tempo real com a tecnologia YOLO11 torna possíveis estas interações sem toque, detectando com precisão os movimentos das mãos em tempo real.
Isto funciona através da utilização de câmaras de IA para track pontos-chave na sua mão e interpretar os gestos como comandos. As câmaras sensíveis à profundidade, os sensores de infravermelhos ou mesmo as webcams normais captam os movimentos da mão, enquanto YOLO11 pode processar os dados para reconhecer diferentes gestos. Por exemplo, este sistema consegue distinguir entre um deslizar de dedo para mudar de música, um beliscão para aumentar o zoom ou um movimento circular para ajustar o volume.
Detecção de pontos-chave da mão baseada em IA para reconhecimento de linguagem de sinais
As soluções de IA para o rastreio das mãos podem apoiar uma comunicação sem falhas entre uma pessoa surda e alguém que não saiba linguagem gestual. Por exemplo, os dispositivos inteligentes integrados com câmaras e YOLO11 podem ser utilizados para traduzir instantaneamente a linguagem gestual em texto ou voz.
Graças a avanços como o YOLO11, as ferramentas de tradução de língua gestual estão a tornar-se mais precisas e acessíveis. Isto tem impacto em aplicações como a tecnologia de assistência, serviços de tradução em direto e plataformas educativas. A IA pode ajudar a colmatar as lacunas de comunicação e a promover a inclusão nos locais de trabalho, nas escolas e nos espaços públicos.
Visão computacional para rastreamento de mãos: Melhorando as experiências de AR e VR
Você já jogou um jogo de realidade virtual (VR) onde podia pegar objetos sem usar um controle? O rastreamento de mãos alimentado por visão computacional torna isso possível, permitindo que os usuários interajam naturalmente em ambientes de realidade aumentada (AR) e VR.
Fig 4. O rastreamento de mãos é uma parte fundamental das aplicações de AR e VR.
Com a estimativa de pontos-chave da mão utilizando modelos como o Ultralytics YOLO11, a IA monitoriza os movimentos em tempo real, permitindo gestos como beliscar, agarrar e deslizar. Isto melhora os jogos, a formação virtual e a colaboração remota, tornando as interações mais intuitivas. À medida que a tecnologia de rastreio de mãos melhora, a RA e a RV tornar-se-ão ainda mais imersivas e realistas.
Principais conclusões
A estimativa de pontos-chave da mão com o Ultralytics YOLO11 está a tornar as soluções de rastreio da mão baseadas em IA mais acessíveis e fiáveis. Desde o reconhecimento de gestos em tempo real à interpretação de linguagem gestual e aplicações AR/VR, a visão computacional está a abrir novas possibilidades na interação homem-computador.
Além disso, processos simplificados de treinamento personalizado e ajuste fino estão ajudando os desenvolvedores a construir modelos eficientes para vários usos no mundo real. À medida que a tecnologia de visão computacional evolui, podemos esperar ainda mais inovações em áreas como saúde, robótica, jogos e segurança.