Sintonize a YOLO Vision 2025!
25 de setembro de 2025
10:00 - 18:00 BST
Evento híbrido
Yolo Vision 2024

Pode a IA detetar acções humanas? Explorar o reconhecimento de actividades

Abirami Vina

6 min. de leitura

22 de setembro de 2025

Desde aplicações de fitness à monitorização de pacientes, descubra como a visão computacional aborda a questão: pode a IA detetar acções humanas em ambientes reais?

A vida quotidiana está cheia de pequenos movimentos em que raramente paramos para pensar. Atravessar uma sala, sentar-se à secretária ou acenar a um amigo pode parecer-nos fácil, mas detectá-los com IA é muito mais complicado. O que é natural para os humanos traduz-se em algo muito mais complexo quando uma máquina está a tentar compreendê-lo.

Esta capacidade é conhecida como reconhecimento da atividade humana (HAR) e permite aos computadores detetar e interpretar padrões no comportamento humano. Uma aplicação de fitness é um excelente exemplo de HAR em ação. Ao seguir os passos e as rotinas de treino, mostra como a IA pode monitorizar as actividades diárias. 

Vendo o potencial do HAR, muitas indústrias começaram a adotar esta tecnologia. De facto, prevê-se que o mercado do reconhecimento da ação humana atinja mais de 12,56 mil milhões de dólares até 2033.

Uma parte significativa deste progresso é impulsionada pela visão por computador, um ramo da IA que permite às máquinas analisar dados visuais, como imagens e vídeos. Com a visão computacional e o reconhecimento de imagens, a HAR evoluiu de um conceito de investigação para uma parte prática e entusiasmante das aplicações de IA de ponta. 

Neste artigo, vamos explorar o que é a RA, os diferentes métodos utilizados para reconhecer acções humanas e como a visão por computador ajuda a responder à pergunta: Pode a IA detetar acções humanas em aplicações do mundo real? Vamos lá começar!

O que é o reconhecimento da ação humana?

O reconhecimento da ação humana permite que os sistemas informáticos compreendam as actividades ou acções humanas através da análise dos movimentos corporais. Ao contrário da simples deteção de uma pessoa numa imagem, o HAR pode ajudar a identificar o que a pessoa está a fazer. Por exemplo, distinguir entre andar e correr, reconhecer um aceno de mão ou reparar quando alguém cai.

A base da HAR reside nos padrões de movimento e postura. Uma ligeira mudança na forma como os braços ou as pernas de um ser humano estão posicionados pode sinalizar uma variedade de acções. Ao captar e interpretar estes detalhes subtis, os sistemas HAR podem obter informações significativas sobre os movimentos do corpo.

Para o conseguir, o reconhecimento de acções humanas combina várias tecnologias, como a aprendizagem automática, modelos de aprendizagem profunda, visão computacional e processamento de imagens, que trabalham em conjunto para analisar os movimentos corporais e interpretar as acções humanas com maior precisão. 

Fig. 1. O reconhecimento da atividade humana envolve diferentes ramos da ciência da computação(Fonte)

Os sistemas HAR anteriores eram muito mais limitados. Só conseguiam lidar com algumas acções simples e repetitivas em ambientes controlados e muitas vezes tinham dificuldades em situações do mundo real. 

Atualmente, graças à IA e a grandes quantidades de dados de vídeo, a HAR avançou significativamente em termos de precisão e robustez. Os sistemas modernos podem reconhecer uma vasta gama de actividades com uma precisão muito maior, tornando a tecnologia prática para áreas como os cuidados de saúde, a segurança e os dispositivos interactivos.

Diferentes métodos de deteção de acções humanas

Agora que compreendemos melhor o que é o reconhecimento de acções humanas, vamos analisar as diferentes formas como as máquinas podem detetar acções humanas. 

Eis alguns dos métodos mais comuns:

  • Métodos baseados em sensores: Dispositivos inteligentes, como acelerómetros, wearables e smartphones, podem captar sinais diretamente do corpo humano. Podem mostrar padrões de movimento como caminhar, correr ou mesmo estar parado. Um contador de passos num smartwatch é um ótimo exemplo deste método.
  • Métodos baseados na visão: As câmaras emparelhadas com visão por computador analisam imagens e vídeos para seguir o aspeto e o movimento do corpo, fotograma a fotograma. Isto permite o reconhecimento de actividades mais complexas. Os televisores ou sistemas de jogo controlados por gestos baseiam-se neste método.
  • Métodos multimodais: É uma combinação de sensores e câmaras que cria um sistema mais fiável, uma vez que uma fonte pode confirmar o que a outra detecta. Por exemplo, um wearable pode registar o movimento enquanto uma câmara verifica a postura, uma configuração frequentemente utilizada na deteção de quedas para cuidados a idosos.

O papel dos conjuntos de dados no reconhecimento da atividade humana

Para qualquer modelo ou sistema HAR, os conjuntos de dados são o ponto de partida. Um conjunto de dados HAR é uma coleção de exemplos, como clips de vídeo, imagens ou dados de sensores, que captam acções como andar, sentar-se ou acenar. Estes exemplos são utilizados para treinar modelos de IA para reconhecer padrões no movimento humano, que podem depois ser aplicados em aplicações da vida real. 

A qualidade dos dados de treino afecta diretamente o desempenho de um modelo. Dados limpos e consistentes tornam mais fácil para o sistema reconhecer acções com precisão. 

É por isso que os conjuntos de dados são frequentemente pré-processados antes do treino. Um passo comum é a normalização, que dimensiona os valores de forma consistente para reduzir os erros e evitar o sobreajuste (quando um modelo tem um bom desempenho nos dados de treino, mas tem dificuldades com novos dados).

Para medir o desempenho dos modelos para além do treino, os investigadores baseiam-se em métricas de avaliação e conjuntos de dados de referência que permitem testes e comparações justos. Colecções populares como UCF101, HMDB51 e Kinetics incluem milhares de clips de vídeo etiquetados para deteção de acções humanas. No que diz respeito aos sensores, os conjuntos de dados recolhidos a partir de smartphones e dispositivos portáteis fornecem sinais de movimento valiosos que tornam os modelos de reconhecimento mais robustos em diferentes ambientes.

Fig. 2. Um vislumbre de um conjunto de dados de reconhecimento de actividades humanas.(Fonte)

Como a visão computacional apoia o reconhecimento da atividade humana

Das diferentes formas de detetar acções humanas, a visão por computador tornou-se rapidamente uma das mais populares e amplamente investigadas. A sua principal vantagem é o facto de poder extrair detalhes ricos diretamente de imagens e vídeos. Ao olhar para os pixéis fotograma a fotograma e ao analisar os padrões de movimento, pode reconhecer actividades em tempo real sem a necessidade de as pessoas usarem dispositivos adicionais.

Os recentes progressos na aprendizagem profunda, especialmente as redes neuronais convolucionais (CNN), concebidas para analisar imagens, tornaram a visão computacional mais rápida, mais precisa e mais fiável. 

Por exemplo, os modelos de visão computacional de última geração amplamente utilizados, como o Ultralytics YOLO11, baseiam-se nestes avanços. O YOLO11 suporta tarefas como a deteção de objectos, a segmentação de instâncias, o seguimento de pessoas através de fotogramas de vídeo e a estimativa de poses humanas, o que o torna uma excelente ferramenta para o reconhecimento da atividade humana.

Uma visão geral do Ultralytics YOLO11

O Ultralytics YOLO11 é um modelo de IA de visão concebido para ser rápido e preciso. Suporta as principais tarefas de visão por computador, como a deteção de objectos, o seguimento de objectos e a estimativa de pose. Estas capacidades são especialmente úteis para o reconhecimento da atividade humana.

A deteção de objectos identifica e localiza as pessoas numa cena, o seguimento segue os seus movimentos através de fotogramas de vídeo para reconhecer sequências de ação e a estimativa de pose mapeia as principais articulações do corpo humano para distinguir actividades semelhantes ou detetar alterações súbitas como uma queda. 

Por exemplo, os conhecimentos do modelo podem ser utilizados para distinguir entre alguém que está sentado em silêncio, que se levanta e que, por fim, levanta os braços para aplaudir. Estas acções simples do dia a dia podem parecer semelhantes à primeira vista, mas têm significados muito diferentes quando analisadas numa sequência.

Fig. 3. Utilização do Ultralytics YOLO11 para estimativa da pose.(Fonte)

Aplicações do mundo real da visão computacional e HAR

Em seguida, vamos analisar mais detalhadamente a forma como o reconhecimento da atividade humana através da visão por computador é aplicado em casos de utilização reais que têm impacto na nossa vida quotidiana.

Cuidados de saúde e bem-estar

Nos cuidados de saúde, as pequenas alterações de movimento podem fornecer informações úteis sobre o estado de saúde de uma pessoa. Por exemplo, um tropeção de um doente idoso ou o ângulo de um membro durante a reabilitação podem revelar riscos ou progressos. Estes sinais são muitas vezes fáceis de ignorar pelos meios tradicionais, como os exames de controlo. 

O YOLO11 pode ajudar, utilizando a estimativa de pose e a análise de imagens para monitorizar os doentes em tempo real. Pode ser utilizado para detetar quedas, acompanhar exercícios de recuperação e observar actividades diárias, como caminhar ou fazer alongamentos. Uma vez que funciona através da análise visual sem necessidade de sensores ou dispositivos portáteis, oferece uma forma simples de recolher informações exactas que apoiam os cuidados dos doentes.

Fig. 4. Seguimento dos movimentos do corpo utilizando o suporte do YOLO11 para a estimativa de pose.(Fonte)

Segurança e vigilância

Os sistemas de segurança baseiam-se na deteção rápida de actividades humanas invulgares, como alguém a vaguear, a correr numa área restrita ou a mostrar uma agressividade súbita. Estes sinais passam muitas vezes despercebidos em ambientes movimentados, onde os guardas de segurança não podem observar tudo manualmente. É aí que entram a visão computacional e o YOLO11. 

O YOLO11 facilita a monitorização da segurança, alimentando a videovigilância em tempo real que pode detetar movimentos suspeitos e enviar alertas instantâneos. Apoia a segurança de multidões em espaços públicos e reforça a deteção de intrusões em áreas privadas. 

Com esta abordagem, os guardas de segurança podem trabalhar em conjunto com sistemas de visão por computador, criando uma parceria e interação homem-computador que permite respostas mais rápidas e atempadas a actividades suspeitas.

Prós e contras da utilização da visão por computador para HAR

Eis algumas das vantagens da utilização da visão computacional para o reconhecimento da atividade humana:

  • Escalabilidade: Uma vez configurado, o mesmo sistema de reconhecimento pode monitorizar automaticamente várias pessoas ao mesmo tempo, tornando-o útil para a automatização em instalações de cuidados de saúde, fábricas e espaços públicos.
  • Processamento em tempo real: As soluções de IA de visão podem ser utilizadas para analisar fluxos de vídeo à medida que estes ocorrem, permitindo respostas mais rápidas.
  • Rastreio não invasivo: Ao contrário dos wearables ou sensores, não exige que as pessoas transportem dispositivos, permitindo uma análise natural e sem esforço do comportamento. 

Embora existam muitos benefícios na utilização da visão por computador para HAR, existem também limitações a considerar. Aqui estão alguns factores a ter em conta:  

  • Preocupações com a privacidade: A monitorização baseada em vídeo pode levantar questões relacionadas com a proteção de dados e o consentimento, especialmente em ambientes sensíveis como casas ou locais de trabalho.
  • Potencial enviesamento: Se os conjuntos de dados de formação não forem diversificados, os algoritmos podem interpretar mal as acções de determinados grupos de pessoas, conduzindo a resultados injustos ou imprecisos.
  • Sensibilidade ambiental: A exatidão pode diminuir devido a uma iluminação deficiente, desordem de fundo ou pessoas parcialmente escondidas, o que significa que os sistemas têm de ser cuidadosamente concebidos.

Principais conclusões

A inteligência artificial e a visão por computador estão a tornar possível que as máquinas reconheçam as acções humanas com maior precisão e em tempo real. Ao analisar fotogramas de vídeo e padrões de movimento, estes sistemas podem identificar gestos quotidianos e mudanças súbitas. À medida que a tecnologia continua a melhorar, o reconhecimento da atividade humana está a ultrapassar os laboratórios de investigação e a tornar-se uma ferramenta prática para os cuidados de saúde, segurança e aplicações quotidianas.

Explore mais sobre a IA visitando o nosso repositório GitHub e juntando-se à nossa comunidade. Consulte as nossas páginas de soluções para saber mais sobre a IA na robótica e a visão computacional no fabrico. Descubra as nossas opções de licenciamento para começar a utilizar o Vision AI.

Vamos construir juntos o futuro
da IA!

Comece a sua viagem com o futuro da aprendizagem automática

Comece gratuitamente
Ligação copiada para a área de transferência