Ao clicar em “Aceitar todos os cookies”, concorda com o armazenamento de cookies no seu dispositivo para melhorar a navegação no site, analisar a utilização do site e ajudar nos nossos esforços de marketing. Mais informações
Definições de cookies
Ao clicar em “Aceitar todos os cookies”, concorda com o armazenamento de cookies no seu dispositivo para melhorar a navegação no site, analisar a utilização do site e ajudar nos nossos esforços de marketing. Mais informações
De aplicativos de fitness ao monitoramento de pacientes, descubra como a visão computacional aborda a questão: a IA consegue detectar ações humanas em ambientes do mundo real?
A vida diária é repleta de pequenos movimentos nos quais raramente paramos para pensar. Caminhar por uma sala, sentar-se em uma mesa ou acenar para um amigo pode parecer fácil para nós, mas detectá-los com IA é muito mais complicado. O que é natural para os humanos se traduz em algo muito mais complexo quando uma máquina está tentando compreendê-lo.
Essa capacidade é conhecida como reconhecimento de atividade humana (RAH), e permite que os computadores detectem e interpretem padrões no comportamento humano. Um aplicativo de fitness é um ótimo exemplo de RAH em ação. Ao rastrear passos e rotinas de treino, ele mostra como a IA pode monitorar as atividades diárias.
Vendo o potencial do HAR, muitas indústrias começaram a adotar essa tecnologia. De fato, espera-se que o mercado de reconhecimento de ação humana atinja mais de US$ 12,56 bilhões até 2033.
Uma parte significativa desse progresso é impulsionada pela visão computacional, um ramo da IA que permite que as máquinas analisem dados visuais, como imagens e vídeos. Com a visão computacional e o reconhecimento de imagem, o HAR evoluiu de um conceito de pesquisa para uma parte prática e empolgante de aplicações de IA de ponta.
Neste artigo, exploraremos o que é HAR, os diferentes métodos usados para reconhecer ações humanas e como a visão computacional ajuda a responder à pergunta: a IA consegue detectar ações humanas em aplicações do mundo real? Vamos começar!
O que é reconhecimento de ação humana?
O reconhecimento de ações humanas possibilita que os sistemas de computador compreendam as atividades ou ações humanas, analisando os movimentos do corpo. Ao contrário de simplesmente detectar uma pessoa em uma imagem, o HAR pode ajudar a identificar o que a pessoa está fazendo. Por exemplo, distinguir entre caminhar e correr, reconhecer um aceno de mão ou notar quando alguém cai.
A base do HAR reside em padrões de movimento e postura. Uma ligeira mudança na forma como os braços ou pernas de um humano estão posicionados pode sinalizar uma variedade de ações. Ao capturar e interpretar esses detalhes sutis, os sistemas HAR podem obter insights significativos dos movimentos do corpo.
Para conseguir isso, o reconhecimento de ações humanas combina múltiplas tecnologias, como aprendizado de máquina, modelos de aprendizado profundo, visão computacional e processamento de imagem, que trabalham juntas para analisar movimentos corporais e interpretar ações humanas com maior precisão.
Fig 1. O reconhecimento de atividade humana envolve diferentes ramos da ciência da computação (Fonte)
Os sistemas HAR anteriores eram muito mais limitados. Eles podiam lidar apenas com algumas ações simples e repetitivas em ambientes controlados e frequentemente tinham dificuldades em situações do mundo real.
Hoje, graças à IA e a grandes quantidades de dados de vídeo, o HAR avançou significativamente em precisão e robustez. Os sistemas modernos podem reconhecer uma ampla gama de atividades com muito mais precisão, tornando a tecnologia prática para áreas como saúde, segurança e dispositivos interativos.
Diferentes métodos de detecção de ações humanas
Agora que temos uma melhor compreensão do que é reconhecimento de ação humana, vamos dar uma olhada nas diferentes maneiras pelas quais as máquinas podem detectar ações humanas.
Aqui estão alguns dos métodos comuns:
Métodos baseados em sensores: Dispositivos inteligentes, como acelerômetros, wearables e smartphones, podem capturar sinais diretamente do corpo humano. Eles podem mostrar padrões de movimento como caminhar, correr ou até mesmo ficar parado. Um contador de passos em um smartwatch é um ótimo exemplo deste método.
Métodos baseados em visão: Câmeras combinadas com visão computacional analisam imagens e vídeos para rastrear como o corpo se parece e se move quadro a quadro. Isso permite o reconhecimento de atividades mais complexas. TVs controladas por gestos ou sistemas de jogos dependem desse método.
Métodos multimodais: É uma combinação de sensores e câmeras que cria um sistema mais confiável, já que uma fonte pode confirmar o que a outra detecta. Por exemplo, um wearable pode registrar movimento enquanto uma câmera verifica a postura, uma configuração frequentemente usada na detecção de quedas para cuidados com idosos.
O papel dos conjuntos de dados no reconhecimento de atividade humana
Para qualquer modelo ou sistema HAR, os datasets são o ponto de partida. Um dataset HAR é uma coleção de exemplos, como videoclipes, imagens ou dados de sensores, que capturam ações como caminhar, sentar ou acenar. Esses exemplos são usados para treinar modelos de IA para reconhecer padrões no movimento humano, que podem ser aplicados em aplicações da vida real.
A qualidade dos dados de treinamento afeta diretamente o desempenho de um modelo. Dados limpos e consistentes facilitam o reconhecimento preciso de ações pelo sistema.
É por isso que os conjuntos de dados são frequentemente pré-processados antes do treinamento. Uma etapa comum é a normalização, que dimensiona os valores de forma consistente para reduzir erros e evitar o overfitting (quando um modelo tem um bom desempenho nos dados de treinamento, mas tem dificuldades com novos dados).
Para medir o desempenho dos modelos além do treino, os investigadores confiam em métricas de avaliação e conjuntos de dados de referência que permitem testes e comparações justas. Coleções populares como UCF101, HMDB51 e Kinetics incluem milhares de videoclipes rotulados para deteção de ação humana. No lado do sensor, os conjuntos de dados recolhidos de smartphones e wearables fornecem sinais de movimento valiosos que tornam os modelos de reconhecimento mais robustos em diferentes ambientes.
Fig. 2. Uma visão geral de um conjunto de dados de reconhecimento de atividade humana. (Fonte)
Como a visão computacional suporta o reconhecimento de atividade humana
Entre as diferentes formas de detetar ações humanas, a visão computacional tornou-se rapidamente uma das mais populares e amplamente pesquisadas. A sua principal vantagem é que consegue extrair detalhes ricos diretamente de imagens e vídeos. Ao analisar os píxeis frame a frame e ao analisar os padrões de movimento, consegue reconhecer atividades em tempo real sem que as pessoas necessitem de usar dispositivos adicionais.
O progresso recente em deep learning, especialmente nas redes neurais convolucionais (CNNs), projetadas para analisar imagens, tornou a visão computacional mais rápida, precisa e confiável.
Por exemplo, modelos de visão computacional de ponta amplamente utilizados, como o Ultralytics YOLO11, são construídos com base nesses avanços. O YOLO11 suporta tarefas como detecção de objetos, segmentação de instâncias, rastreamento de pessoas em frames de vídeo e estimativa de poses humanas, tornando-o uma ótima ferramenta para reconhecimento de atividades humanas.
Uma visão geral do Ultralytics YOLO11
O Ultralytics YOLO11 é um modelo de IA de Visão projetado para velocidade e precisão. Ele oferece suporte a tarefas essenciais de visão computacional, como detecção de objetos, rastreamento de objetos e estimativa de pose. Esses recursos são especialmente úteis para o reconhecimento de atividades humanas.
A deteção de objetos identifica e localiza pessoas numa cena, o rastreamento acompanha os seus movimentos através de frames de vídeo para reconhecer sequências de ações, e a estimativa de pose mapeia as principais articulações do corpo humano para distinguir entre atividades semelhantes ou detetar mudanças repentinas, como uma queda.
Por exemplo, insights do modelo podem ser usados para diferenciar alguém sentado em silêncio, que se levanta e, finalmente, levanta os braços para comemorar. Essas ações cotidianas simples podem parecer semelhantes à primeira vista, mas carregam significados muito diferentes quando analisadas em sequência.
Fig 3. Usando Ultralytics YOLO11 para estimativa de pose. (Fonte)
Aplicações no mundo real de visão computacional e HAR
Em seguida, vamos dar uma olhada mais de perto em como o reconhecimento de atividade humana, impulsionado pela visão computacional, é aplicado em casos de uso do mundo real que impactam nosso dia a dia.
Saúde e bem-estar
Na área da saúde, pequenas mudanças no movimento podem fornecer informações úteis sobre a condição de uma pessoa. Por exemplo, um tropeço de um paciente idoso ou o ângulo de um membro durante a reabilitação podem revelar riscos ou progresso. Esses sinais são frequentemente fáceis de perder por meios tradicionais, como exames.
O YOLO11 pode ajudar usando a estimativa de pose e a análise de imagem para monitorar pacientes em tempo real. Ele pode ser usado para detectar quedas, rastrear exercícios de recuperação e observar atividades diárias, como caminhar ou alongar. Como funciona através da análise visual, sem a necessidade de sensores ou dispositivos vestíveis, oferece uma maneira simples de coletar informações precisas que apoiam o cuidado ao paciente.
Fig 4. Rastreamento de movimentos corporais usando o suporte do YOLO11 para estimativa de pose. (Fonte)
Segurança e vigilância
Os sistemas de segurança dependem da detecção rápida de atividades humanas incomuns, como alguém que está vagando, correndo em uma área restrita ou mostrando agressão repentina. Esses sinais são frequentemente perdidos em ambientes movimentados, onde os guardas de segurança não podem observar manualmente tudo. É aí que entram a visão computacional e o YOLO11.
O YOLO11 facilita o monitoramento de segurança ao impulsionar a vigilância de vídeo em tempo real, que pode detectar movimentos suspeitos e enviar alertas instantâneos. Ele oferece suporte à segurança de multidões em espaços públicos e fortalece a detecção de intrusões em áreas privadas.
Com esta abordagem, os seguranças podem trabalhar em conjunto com os sistemas de visão computacional, criando uma interação e parceria homem-computador que permite respostas mais rápidas e oportunas a atividades suspeitas.
Prós e contras do uso de visão computacional para HAR
Aqui estão algumas das vantagens de usar a visão computacional para o reconhecimento de atividades humanas:
Escalabilidade: Uma vez configurado, o mesmo sistema de reconhecimento pode monitorizar automaticamente várias pessoas ao mesmo tempo, tornando-o útil para a automação em instalações de saúde, fábricas e espaços públicos.
Processamento em tempo real: As soluções de Visão de IA podem ser usadas para analisar fluxos de vídeo à medida que acontecem, permitindo respostas mais rápidas.
Rastreamento não invasivo: Ao contrário de wearables ou sensores, não exige que as pessoas carreguem dispositivos, permitindo uma análise de comportamento natural e sem esforço.
Embora existam muitos benefícios no uso da visão computacional para HAR, também existem limitações a serem consideradas. Aqui estão alguns fatores a serem lembrados:
Preocupações com a privacidade: O monitoramento baseado em vídeo pode levantar questões sobre proteção de dados e consentimento, especialmente em ambientes sensíveis como residências ou locais de trabalho.
Potencial viés: Se os conjuntos de dados de treinamento carecerem de diversidade, os algoritmos podem interpretar erroneamente as ações de certos grupos de pessoas, levando a resultados injustos ou imprecisos.
Sensibilidade ambiental: A precisão pode diminuir devido à iluminação inadequada, desordem de fundo ou pessoas parcialmente escondidas, o que significa que os sistemas precisam ser cuidadosamente projetados.
Principais conclusões
A inteligência artificial e a visão computacional estão permitindo que as máquinas reconheçam as ações humanas com mais precisão e em tempo real. Ao analisar quadros de vídeo e padrões de movimento, esses sistemas podem identificar gestos cotidianos e mudanças repentinas. À medida que a tecnologia continua a melhorar, o reconhecimento da atividade humana está saindo dos laboratórios de pesquisa e se tornando uma ferramenta prática para a área da saúde, segurança e aplicações cotidianas.