Explorar o reconhecimento de acções (Human Activity Recognition): como o vídeo, a estimativa de pose e a aprendizagem profunda detect acções humanas para os cuidados de saúde, a segurança e o desporto.
O reconhecimento de acções, muitas vezes referido como reconhecimento da atividade humana (HAR), é um subconjunto especializado da Visão por Computador (CV) centrado na identificação e classificação de movimentos ou comportamentos específicos em dados de vídeo. Ao contrário do reconhecimento reconhecimento de imagem padrão, que analisa quadros estáticos estáticos para detect objectos, o reconhecimento de acções incorpora a dimensão do tempo para compreender eventos dinâmicos. Ao processar sequências de imagens, os sistemas de Inteligência Artificial (IA) podem distinguir entre acções como andar, correr, acenar ou cair. Esta capacidade é essencial para criar sistemas sistemas capazes de interpretar o comportamento humano em ambientes do mundo real, colmatando a lacuna entre ver pixéis e compreender a intenção.
Para identificar com precisão as acções, os modelos de aprendizagem profunda (DL) devem extrair dois tipos de caraterísticas: espaciais e temporais. As caraterísticas espaciais descrevem a aparência visual de uma cena, como a presença de uma pessoa ou objeto. uma pessoa ou objeto, normalmente extraídas através de Redes Neuronais Convolucionais (CNN). As caraterísticas temporais descrevem a forma como estes elementos espaciais mudam ao longo do tempo.
As abordagens modernas utilizam frequentemente um pipeline que inclui:
O seguinte exemplo Python demonstra como usar o ultralytics biblioteca para extrair pontos-chave de pose
de um vídeo, que serve como camada de dados fundamental para muitos sistemas de reconhecimento de acções.
from ultralytics import YOLO
# Load an official YOLO11 pose estimation model
model = YOLO("yolo11n-pose.pt")
# Run inference on a video to track human skeletal movement
# 'stream=True' returns a generator for efficient memory usage
results = model("path/to/video.mp4", stream=True)
for result in results:
# Keypoints can be analyzed over time to determine actions
keypoints = result.keypoints.xyn # Normalized x, y coordinates
print(keypoints)
A capacidade de automatizar a interpretação do movimento humano levou a uma adoção significativa em vários sectores. O mercado mundial mercado global de reconhecimento da atividade humana continua a expandir-se à medida que as indústrias procuram digitalizar os fluxos de trabalho físicos.
No domínio da IA nos cuidados de saúde, o reconhecimento de acções é fundamental para a monitorização automatizada dos doentes. Os sistemas podem ser treinados para detect quedas em hospitais ou instalações de vida assistida, accionando alertas imediatos para o pessoal. Além disso, a visão por computador facilita reabilitação física remota, analisando a forma de exercício de um forma de exercício de um doente em tempo real, assegurando que ele executa os movimentos corretamente para ajudar na recuperação e evitar lesões.
Os treinadores e as emissoras utilizam a IA no desporto para analisar o desempenho dos atletas. Os algoritmos de reconhecimento de acções podem marcar automaticamente eventos em filmagens de jogos - como um basquetebol, um serviço de ténis ou um passe de futebol - permitindo uma análise estatística detalhada. Estes dados ajudam a técnica e a desenvolver estratégias baseadas nos padrões de movimento do jogador.
Os sistemas de segurança evoluíram para além da simples deteção de movimento. A monitorização avançada monitorização de segurança utiliza o reconhecimento de acções para identificar comportamentos suspeitos, como lutas, vadiagem ou furtos em lojas, enquanto ignorando movimentos benignos. Isto reduz os falsos alarmes e melhora a eficiência do pessoal de segurança.
É importante diferenciar o Reconhecimento de Acções de termos semelhantes no panorama da visão por computador para selecionar a ferramenta correta para o trabalho.
A implementação destes sistemas apresenta desafios, incluindo a necessidade de grandes quantidades de dados de treino dados de treino rotulados e o custo computacional do processamento de vídeo. Conjuntos de dados de referência como o Kinetics-400 e o UCF101 são padrão para a formação e avaliação de modelos.
À medida que o hardware melhora, verifica-se uma mudança para a IA de ponta, permitindo que os modelos sejam executados diretamente em câmaras ou dispositivos móveis. Isto permite inferência em tempo real com menor latência e melhor privacidade, uma vez que os dados de vídeo não precisam de ser enviados para a nuvem. Os desenvolvimentos futuros, incluindo o próximo YOLO26, visam otimizar ainda mais a velocidade e a precisão velocidade e precisão dos motores subjacentes de deteção e estimativa de pose que alimentam estas complexas tarefas de reconhecimento.