A Vision AI permite a tecnologia de reconhecimento de gestos sem contacto

À medida que a tecnologia evolui, a forma como interagimos com ela também evolui. As máquinas antigas dependiam de esforço físico e controlos mecânicos, enquanto a ciência da computação moderna introduziu ecrãs táteis e entrada de voz.

Agora, o reconhecimento de gestos faz parte do próximo passo, usando movimentos naturais como interface de utilizador. Um simples aceno, um toque ou um sinal rápido com a mão já podem controlar aplicações, ecrãs e máquinas.

Essa interação sem toque pode ser alimentada pela visão computacional, um ramo da IA que ajuda as máquinas a ver e interpretar o que uma câmara captura. Os sistemas de IA de visão podem ser incorporados em smartphones, óculos de realidade virtual (VR) e realidade aumentada (AR), carros e dispositivos domésticos inteligentes, onde os gestos podem substituir toques, cliques e botões para uma experiência de utilizador mais suave.

O controlo sem contacto está a tornar-se cada vez mais comum no dia a dia. Nos locais de trabalho e espaços partilhados, evitar o contacto físico pode melhorar a higiene e a segurança. Muitos produtos digitais também estão a mudar para a interação sem contacto, e os gestos oferecem uma maneira fácil e intuitiva de controlar dispositivos sem tocá-los.

Neste artigo, exploraremos o que é o reconhecimento de gestos, como a visão computacional o torna mais preciso e onde ele é usado em aplicações do mundo real. Vamos começar!

O que é reconhecimento de gestos?

O reconhecimento de gestos é uma tecnologia de deteção que permite que as máquinas compreendam gestos humanos, como sinais com as mãos ou movimentos corporais, e os convertam em ações digitais. Em vez de tocar num ecrã ou pressionar botões, os utilizadores podem controlar dispositivos através de movimentos simples e naturais.

Isso torna as interações mais intuitivas e é por isso que a entrada baseada em gestos está a ser adotada em muitos sistemas de controlo baseados em aprendizagem automática e inteligência artificial. Em particular, o reconhecimento de gestos com as mãos é uma das formas mais utilizadas de reconhecimento de gestos e, muitas vezes, depende da visão computacional.

Em termos simples, uma solução de IA Vision pode identificar mãos numa imagem de câmara, track elas se movem ou mudam de forma e comparar esses padrões com um gesto conhecido para acionar uma ação no ecrã.

Uma parte fundamental dessas soluções é um modelo de visão computacional, treinado com conjuntos de dados de imagens ou vídeos rotulados que mostram diferentes gestos com as mãos. Com dados de treino diversificados e uma avaliação cuidadosa, o modelo consegue generalizar melhor entre diferentes utilizadores, condições de iluminação e fundos, ajudando-o a reconhecer gestos de forma mais fiável em ambientes reais.

Fig. 1. Dados utilizados para treinar um modelo de visão computacional para detect pontos-chave detect (Fonte)

‍

Explorando diferentes tipos de gestos e interação humano-computador

Antes de analisarmos mais detalhadamente o papel que a visão computacional desempenha no reconhecimento de gestos, vamos dar um passo atrás e examinar os tipos de gestos que esses sistemas normalmente reconhecem.

Na maioria dos casos, os gestos dividem-se em duas categorias: estáticos e dinâmicos. Os gestos estáticos são poses fixas das mãos, como o sinal de positivo, o sinal de parar ou o sinal de paz. Como não envolvem movimento, muitas vezes podem ser reconhecidos a partir de um único quadro de imagem.

Por outro lado, os gestos dinâmicos envolvem movimento ao longo do tempo, como acenar ou deslizar no ar. Para reconhecê-los, um sistema de IA de visão precisa analisar vários quadros para poder track a mão se move e compreender a direção e o tempo do gesto.

O papel dos algoritmos de visão computacional no reconhecimento de gestos

Os sistemas de reconhecimento de gestos podem ser construídos de diferentes maneiras. Alguns sistemas de método de entrada utilizam sensores vestíveis, como luvas ou rastreadores montados no pulso, para capturar o movimento das mãos.

Essas configurações podem ser precisas, mas nem sempre são práticas. Os dispositivos vestíveis precisam ser usados, configurados, carregados e mantidos, e podem parecer limitantes em espaços compartilhados ou quando usados todos os dias.

É por isso que muitos sistemas de ponta dependem da visão computacional. Com câmaras RGB padrão e sensores de profundidade ou tempo de voo, os dispositivos podem capturar movimentos das mãos e do corpo em tempo real, sem que os utilizadores precisem usar dispositivos adicionais. Isso torna o reconhecimento de gestos baseado em visão uma ótima opção para smartphones, carros, smart TVs e óculos de RA e RV.

Por exemplo, modelos de visão computacional como Ultralytics YOLO11 e o próximo Ultralytics suportam tarefas como detecção de objetos, rastreamento de objetos e estimativa de pose. Esses recursos podem ser usados para detect em cada quadro, track movimentos ao longo do tempo e mapear pontos-chave como pontas dos dedos e articulações. Isso torna possível reconhecer gestos como palma da mão levantada para pausar, pinçar para ampliar, deslizar para navegar pelos menus ou apontar para selecionar um item em RA e RV.

Tarefas de visão computacional utilizadas para o reconhecimento da interação homem-máquina

Aqui está uma visão geral de algumas das principais tarefas de visão computacional utilizadas no reconhecimento de gestos:

Detecção de objetos: esta tarefa é usada para localizar mãos numa imagem ou quadro de vídeo, geralmente desenhando caixas delimitadoras ao redor delas. Isso ajuda o sistema a focar na área de gestos e ignorar detalhes desnecessários do fundo.
Rastreamento de objetos: com base na deteção de objetos, esta tarefa rastreia as mãos detetadas em vários quadros e mantém a sua identidade ao longo do tempo. É especialmente útil para gestos dinâmicos, onde o movimento e a direção são cruciais.
Estimativa de pose: em vez de se concentrar em caixas delimitadoras, a estimativa de pose identifica pontos-chave na mão, como pontas dos dedos, articulações e pulso. Esses pontos de referência criam um esqueleto simples da mão que captura as posições dos dedos e movimentos sutis, permitindo uma classificação mais detalhada dos gestos.
Segmentação de instâncias: esta tarefa visa separar cada mão do fundo ao nível dos píxeis, gerando uma máscara para cada mão visível. É útil em cenas confusas, quando as mãos se sobrepõem ou quando várias mãos aparecem no enquadramento.

Muitas soluções de IA de visão utilizam essas tarefas em conjunto como parte de um único pipeline. Por exemplo, um sistema pode começar com a deteção de objetos para localizar as mãos e, em seguida, utilizar o rastreamento para acompanhá-las ao longo dos quadros para gestos dinâmicos.

Se o gesto depender da posição dos dedos, a estimativa da pose pode adicionar pontos-chave para obter detalhes mais precisos, enquanto a segmentação de instâncias pode ajudar a isolar cada mão com mais precisão em cenas confusas ou quando várias mãos se sobrepõem. Trabalhando em conjunto, essas etapas fornecem informações de localização e movimento, tornando o reconhecimento de gestos mais preciso e confiável.

Como funciona o reconhecimento de gestos baseado na visão

Agora que compreendemos melhor as tarefas de visão computacional por trás do reconhecimento de gestos, vamos examinar passo a passo como funciona um sistema baseado em visão.

Um sistema típico começa capturando vídeo de uma câmara, às vezes juntamente com dados de profundidade, se o dispositivo suportar. Os fotogramas são então pré-processados usando processamento de imagem para torná-los mais fáceis de serem tratados de forma consistente pelo modelo, como redimensionamento, estabilização ou redução de ruído e desfoque de movimento.

Em seguida, o sistema identifica as mãos no quadro usando detecção ou segmentação e as acompanha ao longo do tempo usando rastreamento. Se a aplicação precisar de detalhes mais precisos, também pode executar a estimativa de pose para extrair pontos-chave, como pontas dos dedos e articulações. Usando essas informações, o modelo classifica o gesto, seja ele uma pose de quadro único, como o polegar para cima, ou um padrão de movimento, como um deslizar.

Por fim, o gesto reconhecido é mapeado para uma ação na interface, como rolagem, zoom, seleção de um item, ajuste de volume ou controlo de interações de RA e RV. O pipeline exato pode variar, com aplicações mais simples usando menos etapas e outras mais complexas combinando deteção, rastreamento e estimativa de pose para maior precisão.

Aplicações do reconhecimento de gestos baseado em visão

A seguir, vamos ver como o reconhecimento de gestos está a ser usado em aplicações do mundo real para compreender as posições das mãos.

Interação baseada em gestos com sistemas de infoentretenimento automotivo

O reconhecimento de gestos está a começar a aparecer nas interfaces dos veículos inteligentes, especialmente nos sistemas de infoentretenimento. É uma forma conveniente de controlar certas funcionalidades com movimentos simples das mãos, o que pode reduzir a frequência com que os condutores precisam de tocar nos ecrãs táteis ou nos botões físicos. Por exemplo, um gesto rápido pode ser usado para ajustar o volume, gerir chamadas ou navegar pelos menus no ecrã.

Fig. 2. Um condutor a fazer gestos com as mãos no alcance de deteção de um sistema de infoentretenimento (Fonte)

‍

Interações baseadas em gestos nos jogos

Nos jogos e nas experiências imersivas, o controlo baseado em gestos está a mudar a forma como as pessoas interagem com os mundos virtuais. Em vez de depender apenas de controladores ou joysticks, os jogadores podem usar movimentos naturais das mãos para navegar nos menus, pegar objetos virtuais, controlar personagens ou acionar ações num jogo.

Fig. 3. Jogando jogos usando gestos com as mãos (Fonte).

‍

Esse tipo de interação sem toque pode parecer mais fluida, especialmente em RA e RV. Como resultado, o rastreamento das mãos e o controlo por gestos estão a tornar-se recursos comuns em óculos de RV e realidade mista.

Controlo gestual perfeito para dispositivos domésticos inteligentes

Dispositivos domésticos inteligentes, como televisores inteligentes, altifalantes e luzes conectadas, estão a começar a suportar o controlo baseado em gestos para ações rápidas e sem toque. Com um simples movimento da mão, os utilizadores podem acender luzes, ajustar o volume ou acionar comandos básicos sem precisar de tocar em interruptores ou controles remotos.

Por exemplo, em configurações de entretenimento doméstico, câmaras de profundidade integradas ou conectadas podem reconhecer gestos como deslizar, apontar ou levantar a mão. Isso pode facilitar a navegação pelos menus, a alteração de configurações ou a confirmação de seleções do outro lado da sala. Nos bastidores, modelos de visão computacional processam as imagens da câmara em tempo real para detect interpretar esses gestos.

Controlo por gestos com inteligência artificial em robótica

Considere uma situação numa fábrica em que um trabalhador precisa de orientar um robô enquanto transporta peças, usa luvas ou permanece a uma distância segura do equipamento em movimento. Nestas configurações, alcançar botões ou um painel de controlo pode ser lento ou mesmo inseguro.

Em contrapartida, os sistemas de controlo baseados em gestos podem ser uma forma mais prática e sem uso das mãos de interagir com essas máquinas. Isso é especialmente útil para robôs colaborativos, ou cobots, que são projetados para trabalhar ao lado das pessoas.

Em vez de se deslocarem até um painel de controlo, os operadores podem usar sinais manuais simples para iniciar, parar ou orientar um robô à distância. Isso reduz a dependência de controlos físicos e pode contribuir para fluxos de trabalho mais seguros no chão de fábrica.

Os sistemas avançados de controlo baseados em visão, possibilitados por modelos de aprendizagem profunda ou algoritmos de aprendizagem, também podem ir além dos comandos básicos. Eles podem interpretar movimentos mais precisos das mãos e responder suavemente a pequenas mudanças de direção, além de oferecer orientação e automação mais precisas.

Fig. 4. Uma mão robótica a analisar o gesto de um utilizador (Fonte)

Prós e contras da tecnologia de reconhecimento de gestos

Aqui estão alguns dos principais benefícios da utilização da tecnologia de reconhecimento de gestos:

Acessibilidade melhorada: os gestos podem oferecer uma alternativa para utilizadores que têm dificuldade em usar teclados, ecrãs táteis ou controladores.
Funciona à distância: os gestos podem ser reconhecidos do outro lado da sala, o que é útil para televisões inteligentes, quiosques e dispositivos domésticos.
Flexível em todos os dispositivos: conjuntos de gestos semelhantes podem funcionar em telemóveis, carros, ecrãs inteligentes e óculos de RA ou RV, tornando a interação consistente.

Ao mesmo tempo, existem alguns desafios do mundo real que podem afetar a precisão e a consistência. Aqui estão alguns fatores a serem considerados:

Problemas de iluminação e qualidade da câmara: pouca luz, brilho, sombras ou câmaras de baixa resolução podem reduzir o desempenho do reconhecimento. Isso, por sua vez, pode afetar o controlo de movimento.
Variação entre utilizadores: as pessoas naturalmente realizam gestos de forma diferente, e diferenças no tamanho das mãos, flexibilidade dos dedos ou acessórios podem afetar a precisão.
Limitações do movimento rápido: gestos rápidos podem introduzir desfocagem de movimento ou fazer com que o modelo perca fotogramas importantes, especialmente em câmaras com taxas de fotogramas mais baixas.

Principais conclusões

A tecnologia de reconhecimento de gestos saiu dos laboratórios de pesquisa e agora faz parte dos dispositivos e inovações do dia a dia. Especificamente, a visão computacional permite o controlo sem toque em jogos, robótica, casas inteligentes e sistemas automotivos. À medida que os modelos de visão melhoram, essas interfaces sem toque provavelmente se tornarão mais fáceis de construir e mais amplamente utilizadas.

Descubra a nossa comunidade e o repositório GitHub para saber mais sobre modelos de visão computacional. Explore as nossas páginas de soluções para ler sobre aplicações como IA na agricultura e visão computacional na logística. Verifique as nossas opções de licenciamento e comece a construir o seu próprio modelo de IA de visão.

A Vision AI permite a tecnologia de reconhecimento de gestos sem contacto

O que é reconhecimento de gestos?

Explorando diferentes tipos de gestos e interação humano-computador

O papel dos algoritmos de visão computacional no reconhecimento de gestos

Tarefas de visão computacional utilizadas para o reconhecimento da interação homem-máquina

Como funciona o reconhecimento de gestos baseado na visão

Aplicações do reconhecimento de gestos baseado em visão

Interação baseada em gestos com sistemas de infoentretenimento automotivo

Interações baseadas em gestos nos jogos

Controlo gestual perfeito para dispositivos domésticos inteligentes

Controlo por gestos com inteligência artificial em robótica

Prós e contras da tecnologia de reconhecimento de gestos

Principais conclusões

Leia mais nesta categoria

12 casos de uso de imagens aéreas com tecnologia de visão computacional

Ferramentas de IA de visão para diagnósticos na área da saúde

Dos dados às decisões: usando IA visual para a estratégia empresarial

Vamos construir o futuro
da IA juntos!

A Vision AI permite a tecnologia de reconhecimento de gestos sem contacto

O que é reconhecimento de gestos?

Explorando diferentes tipos de gestos e interação humano-computador

O papel dos algoritmos de visão computacional no reconhecimento de gestos

Tarefas de visão computacional utilizadas para o reconhecimento da interação homem-máquina

Como funciona o reconhecimento de gestos baseado na visão

Aplicações do reconhecimento de gestos baseado em visão

Interação baseada em gestos com sistemas de infoentretenimento automotivo

Interações baseadas em gestos nos jogos

Controlo gestual perfeito para dispositivos domésticos inteligentes

Controlo por gestos com inteligência artificial em robótica

Prós e contras da tecnologia de reconhecimento de gestos

Principais conclusões

Leia mais nesta categoria

12 casos de uso de imagens aéreas com tecnologia de visão computacional

Ferramentas de IA de visão para diagnósticos na área da saúde

Dos dados às decisões: usando IA visual para a estratégia empresarial

Vamos construir o futuro da IA juntos!

Vamos construir o futuro
da IA juntos!