A Vision AI permite a tecnologia de reconhecimento de gestos sem contacto
Explore como a visão computacional impulsiona a tecnologia de reconhecimento de gestos para detect, track e compreender gestos com as mãos em várias aplicações.

Explore como a visão computacional impulsiona a tecnologia de reconhecimento de gestos para detect, track e compreender gestos com as mãos em várias aplicações.

À medida que a tecnologia evolui, a forma como interagimos com ela também evolui. As máquinas antigas dependiam de esforço físico e controlos mecânicos, enquanto a ciência da computação moderna introduziu ecrãs táteis e entrada de voz.
Agora, o reconhecimento de gestos faz parte do próximo passo, usando movimentos naturais como interface de utilizador. Um simples aceno, um toque ou um sinal rápido com a mão já podem controlar aplicações, ecrãs e máquinas.
Essa interação sem toque pode ser alimentada pela visão computacional, um ramo da IA que ajuda as máquinas a ver e interpretar o que uma câmara captura. Os sistemas de IA de visão podem ser incorporados em smartphones, óculos de realidade virtual (VR) e realidade aumentada (AR), carros e dispositivos domésticos inteligentes, onde os gestos podem substituir toques, cliques e botões para uma experiência de utilizador mais suave.
O controlo sem contacto está a tornar-se cada vez mais comum no dia a dia. Nos locais de trabalho e espaços partilhados, evitar o contacto físico pode melhorar a higiene e a segurança. Muitos produtos digitais também estão a mudar para a interação sem contacto, e os gestos oferecem uma maneira fácil e intuitiva de controlar dispositivos sem tocá-los.
Neste artigo, exploraremos o que é o reconhecimento de gestos, como a visão computacional o torna mais preciso e onde ele é usado em aplicações do mundo real. Vamos começar!
O reconhecimento de gestos é uma tecnologia de deteção que permite que as máquinas compreendam gestos humanos, como sinais com as mãos ou movimentos corporais, e os convertam em ações digitais. Em vez de tocar num ecrã ou pressionar botões, os utilizadores podem controlar dispositivos através de movimentos simples e naturais.
Isso torna as interações mais intuitivas e é por isso que a entrada baseada em gestos está a ser adotada em muitos sistemas de controlo baseados em aprendizagem automática e inteligência artificial. Em particular, o reconhecimento de gestos com as mãos é uma das formas mais utilizadas de reconhecimento de gestos e, muitas vezes, depende da visão computacional.
Em termos simples, uma solução de IA Vision pode identificar mãos numa imagem de câmara, track elas se movem ou mudam de forma e comparar esses padrões com um gesto conhecido para acionar uma ação no ecrã.
Uma parte fundamental dessas soluções é um modelo de visão computacional, treinado com conjuntos de dados de imagens ou vídeos rotulados que mostram diferentes gestos com as mãos. Com dados de treino diversificados e uma avaliação cuidadosa, o modelo consegue generalizar melhor entre diferentes utilizadores, condições de iluminação e fundos, ajudando-o a reconhecer gestos de forma mais fiável em ambientes reais.
.webp)
Antes de analisarmos mais detalhadamente o papel que a visão computacional desempenha no reconhecimento de gestos, vamos dar um passo atrás e examinar os tipos de gestos que esses sistemas normalmente reconhecem.
Na maioria dos casos, os gestos dividem-se em duas categorias: estáticos e dinâmicos. Os gestos estáticos são poses fixas das mãos, como o sinal de positivo, o sinal de parar ou o sinal de paz. Como não envolvem movimento, muitas vezes podem ser reconhecidos a partir de um único quadro de imagem.
Por outro lado, os gestos dinâmicos envolvem movimento ao longo do tempo, como acenar ou deslizar no ar. Para reconhecê-los, um sistema de IA de visão precisa analisar vários quadros para poder track a mão se move e compreender a direção e o tempo do gesto.
Os sistemas de reconhecimento de gestos podem ser construídos de diferentes maneiras. Alguns sistemas de método de entrada utilizam sensores vestíveis, como luvas ou rastreadores montados no pulso, para capturar o movimento das mãos.
Essas configurações podem ser precisas, mas nem sempre são práticas. Os dispositivos vestíveis precisam ser usados, configurados, carregados e mantidos, e podem parecer limitantes em espaços compartilhados ou quando usados todos os dias.
É por isso que muitos sistemas de ponta dependem da visão computacional. Com câmaras RGB padrão e sensores de profundidade ou tempo de voo, os dispositivos podem capturar movimentos das mãos e do corpo em tempo real, sem que os utilizadores precisem usar dispositivos adicionais. Isso torna o reconhecimento de gestos baseado em visão uma ótima opção para smartphones, carros, smart TVs e óculos de RA e RV.
Por exemplo, modelos de visão computacional como Ultralytics YOLO11 e o próximo Ultralytics suportam tarefas como detecção de objetos, rastreamento de objetos e estimativa de pose. Esses recursos podem ser usados para detect em cada quadro, track movimentos ao longo do tempo e mapear pontos-chave como pontas dos dedos e articulações. Isso torna possível reconhecer gestos como palma da mão levantada para pausar, pinçar para ampliar, deslizar para navegar pelos menus ou apontar para selecionar um item em RA e RV.
Aqui está uma visão geral de algumas das principais tarefas de visão computacional utilizadas no reconhecimento de gestos:
Muitas soluções de IA de visão utilizam essas tarefas em conjunto como parte de um único pipeline. Por exemplo, um sistema pode começar com a deteção de objetos para localizar as mãos e, em seguida, utilizar o rastreamento para acompanhá-las ao longo dos quadros para gestos dinâmicos.
Se o gesto depender da posição dos dedos, a estimativa da pose pode adicionar pontos-chave para obter detalhes mais precisos, enquanto a segmentação de instâncias pode ajudar a isolar cada mão com mais precisão em cenas confusas ou quando várias mãos se sobrepõem. Trabalhando em conjunto, essas etapas fornecem informações de localização e movimento, tornando o reconhecimento de gestos mais preciso e confiável.
Agora que compreendemos melhor as tarefas de visão computacional por trás do reconhecimento de gestos, vamos examinar passo a passo como funciona um sistema baseado em visão.
Um sistema típico começa capturando vídeo de uma câmara, às vezes juntamente com dados de profundidade, se o dispositivo suportar. Os fotogramas são então pré-processados usando processamento de imagem para torná-los mais fáceis de serem tratados de forma consistente pelo modelo, como redimensionamento, estabilização ou redução de ruído e desfoque de movimento.
Em seguida, o sistema identifica as mãos no quadro usando detecção ou segmentação e as acompanha ao longo do tempo usando rastreamento. Se a aplicação precisar de detalhes mais precisos, também pode executar a estimativa de pose para extrair pontos-chave, como pontas dos dedos e articulações. Usando essas informações, o modelo classifica o gesto, seja ele uma pose de quadro único, como o polegar para cima, ou um padrão de movimento, como um deslizar.
Por fim, o gesto reconhecido é mapeado para uma ação na interface, como rolagem, zoom, seleção de um item, ajuste de volume ou controlo de interações de RA e RV. O pipeline exato pode variar, com aplicações mais simples usando menos etapas e outras mais complexas combinando deteção, rastreamento e estimativa de pose para maior precisão.
A seguir, vamos ver como o reconhecimento de gestos está a ser usado em aplicações do mundo real para compreender as posições das mãos.
O reconhecimento de gestos está a começar a aparecer nas interfaces dos veículos inteligentes, especialmente nos sistemas de infoentretenimento. É uma forma conveniente de controlar certas funcionalidades com movimentos simples das mãos, o que pode reduzir a frequência com que os condutores precisam de tocar nos ecrãs táteis ou nos botões físicos. Por exemplo, um gesto rápido pode ser usado para ajustar o volume, gerir chamadas ou navegar pelos menus no ecrã.
.webp)
Nos jogos e nas experiências imersivas, o controlo baseado em gestos está a mudar a forma como as pessoas interagem com os mundos virtuais. Em vez de depender apenas de controladores ou joysticks, os jogadores podem usar movimentos naturais das mãos para navegar nos menus, pegar objetos virtuais, controlar personagens ou acionar ações num jogo.
.webp)
Esse tipo de interação sem toque pode parecer mais fluida, especialmente em RA e RV. Como resultado, o rastreamento das mãos e o controlo por gestos estão a tornar-se recursos comuns em óculos de RV e realidade mista.
Dispositivos domésticos inteligentes, como televisores inteligentes, altifalantes e luzes conectadas, estão a começar a suportar o controlo baseado em gestos para ações rápidas e sem toque. Com um simples movimento da mão, os utilizadores podem acender luzes, ajustar o volume ou acionar comandos básicos sem precisar de tocar em interruptores ou controles remotos.
Por exemplo, em configurações de entretenimento doméstico, câmaras de profundidade integradas ou conectadas podem reconhecer gestos como deslizar, apontar ou levantar a mão. Isso pode facilitar a navegação pelos menus, a alteração de configurações ou a confirmação de seleções do outro lado da sala. Nos bastidores, modelos de visão computacional processam as imagens da câmara em tempo real para detect interpretar esses gestos.
Considere uma situação numa fábrica em que um trabalhador precisa de orientar um robô enquanto transporta peças, usa luvas ou permanece a uma distância segura do equipamento em movimento. Nestas configurações, alcançar botões ou um painel de controlo pode ser lento ou mesmo inseguro.
Em contrapartida, os sistemas de controlo baseados em gestos podem ser uma forma mais prática e sem uso das mãos de interagir com essas máquinas. Isso é especialmente útil para robôs colaborativos, ou cobots, que são projetados para trabalhar ao lado das pessoas.
Em vez de se deslocarem até um painel de controlo, os operadores podem usar sinais manuais simples para iniciar, parar ou orientar um robô à distância. Isso reduz a dependência de controlos físicos e pode contribuir para fluxos de trabalho mais seguros no chão de fábrica.
Os sistemas avançados de controlo baseados em visão, possibilitados por modelos de aprendizagem profunda ou algoritmos de aprendizagem, também podem ir além dos comandos básicos. Eles podem interpretar movimentos mais precisos das mãos e responder suavemente a pequenas mudanças de direção, além de oferecer orientação e automação mais precisas.
.webp)
Aqui estão alguns dos principais benefícios da utilização da tecnologia de reconhecimento de gestos:
Ao mesmo tempo, existem alguns desafios do mundo real que podem afetar a precisão e a consistência. Aqui estão alguns fatores a serem considerados:
A tecnologia de reconhecimento de gestos saiu dos laboratórios de pesquisa e agora faz parte dos dispositivos e inovações do dia a dia. Especificamente, a visão computacional permite o controlo sem toque em jogos, robótica, casas inteligentes e sistemas automotivos. À medida que os modelos de visão melhoram, essas interfaces sem toque provavelmente se tornarão mais fáceis de construir e mais amplamente utilizadas.
Descubra a nossa comunidade e o repositório GitHub para saber mais sobre modelos de visão computacional. Explore as nossas páginas de soluções para ler sobre aplicações como IA na agricultura e visão computacional na logística. Verifique as nossas opções de licenciamento e comece a construir o seu próprio modelo de IA de visão.