Explorar o reconhecimento de acções (Human Activity Recognition): como o vídeo, a estimativa de pose e a aprendizagem profunda detect acções humanas para os cuidados de saúde, a segurança e o desporto.
O reconhecimento de ações, frequentemente referido como reconhecimento de atividades humanas (HAR), é um ramo especializado da visão computacional (CV) focado na identificação e classificação de movimentos ou comportamentos específicos em dados de vídeo. Enquanto o reconhecimento de imagens padrão analisa quadros estáticos para detect , o reconhecimento de ações incorpora a quarta dimensão — o tempo — para interpretar eventos dinâmicos. Ao processar sequências de quadros, os sistemas avançados de Inteligência Artificial (IA) podem distinguir entre comportamentos complexos, como caminhar, acenar, cair ou executar uma técnica desportiva específica. Essa capacidade é essencial para criar sistemas inteligentes que possam compreender a intenção humana e interagir com segurança em ambientes do mundo real.
Para identificar ações com precisão, os modelos de Deep Learning (DL) devem extrair e sintetizar dois tipos principais de características: espaciais e temporais. As características espaciais capturam a aparência visual da cena, como a presença de uma pessoa ou objeto, normalmente usando Redes Neurais Convolucionais (CNNs). As características temporais descrevem como esses elementos mudam ao longo do tempo, fornecendo o contexto necessário para diferenciar uma ação de «sentar» de uma ação de «levantar».
As abordagens modernas utilizam frequentemente um pipeline de várias etapas para alcançar alta precisão:
A capacidade de automatizar a interpretação do movimento humano impulsionou uma adoção significativa em diversos setores. O mercado global de reconhecimento de atividade humana continua a expandir-se à medida que as empresas procuram digitalizar fluxos de trabalho físicos e aumentar a segurança.
No domínio da IA na área da saúde, o reconhecimento de ações é fundamental para o monitoramento automatizado de pacientes. Os sistemas podem ser treinados para detect em hospitais ou instituições de assistência à terceira idade, acionando alertas imediatos para a equipe de enfermagem. Além disso, a visão computacional facilita a reabilitação física remota ao analisar a forma como o paciente realiza os exercícios em tempo real, garantindo que ele execute os movimentos corretamente para auxiliar na recuperação e prevenir lesões.
Treinadores e comentaristas utilizam a IA nos desportos para decompor o desempenho dos atletas. Algoritmos de reconhecimento de ação podem marcar automaticamente eventos em imagens de jogos — como um lançamento de basquetebol, um saque de ténis ou um passe de futebol —, permitindo uma análise estatística detalhada. Esses dados ajudam a aperfeiçoar a técnica e a desenvolver estratégias com base em padrões específicos de movimento dos jogadores.
É importante diferenciar o Reconhecimento de Acções de termos semelhantes no panorama da visão por computador para selecionar a ferramenta correta para o trabalho.
Um passo fundamental em muitos pipelines de reconhecimento de ações é a extração de dados esqueléticos. O Python a seguir
demonstra como usar o ultralytics biblioteca com
YOLO26 para extrair pontos-chave da pose, que servem como
camada de dados fundamental para a classificação de ações a jusante.
from ultralytics import YOLO
# Load the latest YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image or video to track human skeletal movement
# The model detects persons and their joint locations
results = model("https://ultralytics.com/images/bus.jpg")
for result in results:
# Keypoints (x, y, visibility) used for downstream action analysis
if result.keypoints is not None:
print(f"Keypoints shape: {result.keypoints.data.shape}")
A implementação desses sistemas apresenta desafios, incluindo a necessidade de grandes quantidades de dados de treino rotulados e o custo computacional do processamento de vídeo. Conjuntos de dados de referência como o Kinetics-400 são padrão para avaliar o desempenho do modelo.
À medida que o hardware melhora, há uma mudança em direção à IA de ponta, permitindo que os modelos sejam executados diretamente em câmaras ou dispositivos móveis. Isso permite inferência em tempo real com menor latência e melhor privacidade, já que os dados de vídeo não precisam ser enviados para a nuvem. Os desenvolvimentos futuros visam otimizar ainda mais a velocidade e a precisão dos motores de detecção e estimativa de pose subjacentes que alimentam essas tarefas complexas de reconhecimento.