Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Reconhecimento de acções

Explore como o reconhecimento de ações identifica comportamentos em vídeos. Aprenda a usar Ultralytics para estimativa de poses e crie sistemas inteligentes de IA para tarefas HAR.

O reconhecimento de ações, também conhecido como Reconhecimento de Atividades Humanas (HAR), é um subcampo dinâmico da visão computacional (CV) que se ocupa de identificar e classificar comportamentos ou movimentos específicos realizados por indivíduos em dados de vídeo. Enquanto a deteção tradicional de objetos responde à pergunta "o que há na imagem?", o reconhecimento de ações aborda a questão mais complexa "o que está a acontecer ao longo do tempo?". Ao analisar sequências de fotogramas em vez de imagens estáticas, os modelos de aprendizagem automática (ML) podem distinguir entre atividades complexas, como «andar», «andar de bicicleta», «cair» ou «aperto de mão », tornando-se um componente crucial para a construção de sistemas inteligentes que compreendem a intenção e o contexto humanos.

Conceitos e técnicas fundamentais

O reconhecimento de ações requer um modelo para processar tanto informações espaciais (como os objetos ou pessoas se parecem) quanto informações temporais (como eles se movem ao longo do tempo). Para isso, os modernos sistemas de inteligência artificial (IA) frequentemente empregam arquiteturas especializadas que vão além das redes neurais convolucionais (CNNs) padrão .

  • Estimativa de pose: uma técnica poderosa em que o modelo rastreia pontos-chave específicos no corpo humano, como cotovelos, joelhos e ombros. As mudanças geométricas nesses pontos-chave ao longo do tempo fornecem um sinal forte para classificar ações, independentemente da desordem do fundo.
  • Modelagem temporal: os algoritmos utilizam estruturas como Redes Neurais Recorrentes (RNNs) ou Redes de Memória de Curto Prazo Longo (LSTM) para lembrar quadros passados e prever ações futuras. Mais recentemente, os Transformadores de Vídeo ganharam popularidade por sua capacidade de lidar com dependências de longo alcance em fluxos de vídeo.
  • Redes de dois fluxos: esta abordagem processa características espaciais (quadros RGB) e características temporais (frequentemente usando fluxo ótico) em fluxos paralelos, fundindo os dados para fazer uma classificação final.

Aplicações no Mundo Real

A capacidade de interpretar automaticamente os movimentos humanos tem um potencial transformador em vários setores, melhorando a segurança, a eficiência e a experiência do utilizador.

  • IA na área da saúde: O reconhecimento de ações é vital para os sistemas de monitorização de pacientes. Por exemplo, permite a deteção automática de quedas em lares de idosos , alertando imediatamente a equipa se um paciente cair. Também é usado na reabilitação física remota, onde treinadores de IA analisam a forma como o paciente realiza os exercícios para garantir que os movimentos sejam executados de forma correta e segura.
  • Vigilância e segurança inteligentes: Além da simples deteção de movimento, os sistemas de segurança avançados utilizam o reconhecimento de ações para identificar comportamentos suspeitos, como brigas, furtos em lojas ou entradas não autorizadas, enquanto ignoram atividades benignas. Isso reduz os alarmes falsos e melhora o monitoramento de segurança em tempo real.

Implementando a análise de ações com Ultralytics

Um fluxo de trabalho comum envolve primeiro detetar pessoas e a sua postura esquelética e, em seguida, analisar o movimento dessas articulações. O modelo Ultralytics oferece velocidade e precisão de última geração para a etapa inicial de estimativa da postura, que é a base para muitos pipelines de reconhecimento de ação .

O exemplo a seguir demonstra como extrair pontos-chave esqueléticos de um quadro de vídeo usando Python:

from ultralytics import YOLO

# Load the YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Run inference on an image to detect person keypoints
results = model("https://ultralytics.com/images/bus.jpg")

# Process results
for result in results:
    # Access the keypoints (x, y, visibility)
    if result.keypoints is not None:
        print(f"Detected keypoints shape: {result.keypoints.data.shape}")

Distinção de termos relacionados

É importante diferenciar o reconhecimento de ações de tarefas semelhantes de visão computacional para garantir que os métodos corretos sejam aplicados.

  • Reconhecimento de ação vs. Rastreamento de objetos: O rastreamento de objetos concentra-se em manter a identidade de um objeto ou pessoa específica à medida que se movem pelos quadros (por exemplo, «A pessoa A está na coordenada X»). O reconhecimento de ação interpreta o comportamento do sujeito rastreado (por exemplo, «A pessoa A está a correr»).
  • Reconhecimento de ação vs. Compreensão de vídeo: Enquanto o reconhecimento de ação identifica atos físicos específicos, a compreensão de vídeo é um conceito mais amplo que envolve compreender toda a narrativa, contexto e relações causais dentro de uma cena de vídeo.

Desafios e tendências futuras

O desenvolvimento de modelos robustos de reconhecimento de ações apresenta desafios, particularmente no que diz respeito à necessidade de grandes conjuntos de dados de vídeo anotados, como Kinetics-400 ou UCF101. A rotulagem de dados de vídeo é significativamente mais demorada do que a rotulagem de imagens estáticas. Para resolver isso, ferramentas como Ultralytics ajudam a otimizar o fluxo de trabalho de anotação e treinamento .

Além disso, a eficiência computacional é fundamental. O processamento de vídeo de alta resolução em tempo real requer recursos de hardware significativos . A indústria está cada vez mais a avançar para a IA de ponta, otimizando modelos para serem executados diretamente em câmaras e dispositivos móveis, a fim de reduzir a latência e o uso de largura de banda. Os avanços futuros visam melhorar a generalização do modelo, permitindo que os sistemas reconheçam ações mesmo a partir de pontos de vista nos quais não foram explicitamente treinados.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora