Explore como o reconhecimento de ações identifica comportamentos em vídeos. Aprenda a usar Ultralytics para estimativa de poses e crie sistemas inteligentes de IA para tarefas HAR.
O reconhecimento de ações, também conhecido como Reconhecimento de Atividades Humanas (HAR), é um subcampo dinâmico da visão computacional (CV) que se ocupa de identificar e classificar comportamentos ou movimentos específicos realizados por indivíduos em dados de vídeo. Enquanto a deteção tradicional de objetos responde à pergunta "o que há na imagem?", o reconhecimento de ações aborda a questão mais complexa "o que está a acontecer ao longo do tempo?". Ao analisar sequências de fotogramas em vez de imagens estáticas, os modelos de aprendizagem automática (ML) podem distinguir entre atividades complexas, como «andar», «andar de bicicleta», «cair» ou «aperto de mão », tornando-se um componente crucial para a construção de sistemas inteligentes que compreendem a intenção e o contexto humanos.
O reconhecimento de ações requer um modelo para processar tanto informações espaciais (como os objetos ou pessoas se parecem) quanto informações temporais (como eles se movem ao longo do tempo). Para isso, os modernos sistemas de inteligência artificial (IA) frequentemente empregam arquiteturas especializadas que vão além das redes neurais convolucionais (CNNs) padrão .
A capacidade de interpretar automaticamente os movimentos humanos tem um potencial transformador em vários setores, melhorando a segurança, a eficiência e a experiência do utilizador.
Um fluxo de trabalho comum envolve primeiro detetar pessoas e a sua postura esquelética e, em seguida, analisar o movimento dessas articulações. O modelo Ultralytics oferece velocidade e precisão de última geração para a etapa inicial de estimativa da postura, que é a base para muitos pipelines de reconhecimento de ação .
O exemplo a seguir demonstra como extrair pontos-chave esqueléticos de um quadro de vídeo usando Python:
from ultralytics import YOLO
# Load the YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image to detect person keypoints
results = model("https://ultralytics.com/images/bus.jpg")
# Process results
for result in results:
# Access the keypoints (x, y, visibility)
if result.keypoints is not None:
print(f"Detected keypoints shape: {result.keypoints.data.shape}")
É importante diferenciar o reconhecimento de ações de tarefas semelhantes de visão computacional para garantir que os métodos corretos sejam aplicados.
O desenvolvimento de modelos robustos de reconhecimento de ações apresenta desafios, particularmente no que diz respeito à necessidade de grandes conjuntos de dados de vídeo anotados, como Kinetics-400 ou UCF101. A rotulagem de dados de vídeo é significativamente mais demorada do que a rotulagem de imagens estáticas. Para resolver isso, ferramentas como Ultralytics ajudam a otimizar o fluxo de trabalho de anotação e treinamento .
Além disso, a eficiência computacional é fundamental. O processamento de vídeo de alta resolução em tempo real requer recursos de hardware significativos . A indústria está cada vez mais a avançar para a IA de ponta, otimizando modelos para serem executados diretamente em câmaras e dispositivos móveis, a fim de reduzir a latência e o uso de largura de banda. Os avanços futuros visam melhorar a generalização do modelo, permitindo que os sistemas reconheçam ações mesmo a partir de pontos de vista nos quais não foram explicitamente treinados.