Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Divisão de ações

Saiba como a segmentação de ações melhora a precisão robótica e a aprendizagem por imitação. Descubra como utilizar Ultralytics para reduzir os erros cumulativos em agentes de IA.

A segmentação de ações é uma técnica avançada de aprendizagem profunda, amplamente utilizada em robótica e aprendizagem por imitação, na qual um modelo prevê uma sequência (ou «segmento») de ações futuras, em vez de uma única ação em cada intervalo de tempo. Ao prever uma trajetória de múltiplos passos, o action chunking permite que os agentes de IA realizem tarefas complexas e de longo prazo com maior fluidez e fiabilidade. Esta abordagem ganhou grande popularidade após a introdução do Action Chunking with Transformers (ACT), uma arquitetura de modelo que combina previsão temporal com entradas de visão computacional de alta dimensão.

Mitigar erros cumulativos

Na clonagem comportamental tradicional, um modelo prevê o próximo passo imediato com base no estado atual. No entanto, durante a inferência em tempo real, pequenas imprecisões nas previsões levam o sistema a entrar em estados não observados. Esses erros multiplicam-se rapidamente, levando ao fracasso da tarefa — um fenómeno conhecido como «erros cumulativos».

A segmentação de ações resolve diretamente esta limitação. Ao prever várias ações simultaneamente (por exemplo, 50 movimentos articulares que abrangem 1 segundo de movimento), o horizonte de controlo efetivo é reduzido. O sistema compromete-se com um plano coerente de curto prazo baseado numa única observação visual fiável, reduzindo significativamente a frequência de erros reativos. Ao integrar backbones de visão como Ultralytics para perceção espacial e localização de caixas delimitadoras, as previsões resultantes tornam-se incrivelmente estáveis face ao ruído do processo.

Aplicações no Mundo Real

A segmentação de ações revelou novas capacidades na automação física, especialmente quando implementada em hardware de IA de ponta otimizado por frameworks como Intel :

  • Manipulação robótica de alta precisão: Na automação industrial, os robôs utilizam previsões fragmentadas para executar tarefas que envolvem muito contacto e exigem alta precisão, tais como passar cabos, encaixar baterias ou manusear itens monitorizados por conjuntos de dados de segmentação de embalagens. A geração de sequências de ações coesas evita os movimentos bruscos e inconsistentes típicos da aprendizagem por imitação em etapas únicas.
  • Navegação autónoma: Na condução autónoma e no voo de drones, a previsão de um conjunto de comandos de controlo (como a direção e a aceleração) permite um planeamento de trajetória mais suave, um conceito amplamente explorado em recentes artigos de robótica da IEEE. Em combinação com o rastreio contínuo de objetos e a estimativa de profundidade, os veículos podem navegar com segurança em ambientes dinâmicos complexos.

Distinguir conceitos relacionados

Para compreender melhor como esta técnica se insere no ecossistema mais amplo da inteligência artificial, é útil diferenciá-la de termos semelhantes:

  • Agrupamento de ações vs. reconhecimento de ações: Enquanto o agrupamento de ações gera uma sequência de comandos futuros para uma máquina executar, o reconhecimento de ações é o processo analítico de identificar atividades que ocorrem num fluxo de vídeo.
  • Modelos de fragmentação de ações vs. modelos sequência-para-sequência: As arquiteturas sequência-para-sequência mapeiam uma sequência de entrada para uma sequência de saída e são amplamente utilizadas na tradução automática. A fragmentação de ações recorre intensamente a estas arquiteturas — especificamente os Transformers— mas restringe a saída exclusivamente a controlos motores de baixo nível e cinemática, em vez de texto.
  • Agrupamento de ações vs. Aprendizagem por reforço : A aprendizagem por reforço baseia-se em sinais de recompensa para ensinar um agente através da tentativa e erro. Por outro lado, o agrupamento de ações é utilizado principalmente na clonagem comportamental supervisionada, onde o modelo aprende diretamente a partir de demonstrações humanas, sem maximização explícita da recompensa.

Implementação da segmentação de ações

Na prática, um sistema de visão avalia o ambiente e um descodificador de sequências gera a trajetória fragmentada. O seguinte Python demonstra um PyTorch (uma alternativa ao TensorFlow) que aceita um estado do ambiente — como aquele derivado de uma passagem de deteção de objetos — e gera uma sequência de ações futuras .

import torch
import torch.nn as nn


class ActionChunker(nn.Module):
    def __init__(self, state_dim, action_dim, chunk_size):
        super().__init__()
        # Maps the current state to a sequence of future actions
        self.decoder = nn.Linear(state_dim, chunk_size * action_dim)
        self.chunk_size = chunk_size
        self.action_dim = action_dim

    def forward(self, state):
        # Predict the entire action chunk at once
        chunk = self.decoder(state)
        return chunk.view(-1, self.chunk_size, self.action_dim)


# Example: 128-dim state, 6 degrees of freedom, 50-step chunk
model = ActionChunker(state_dim=128, action_dim=6, chunk_size=50)

# Generate a 50-step action trajectory from a single observation
current_state = torch.randn(1, 128)
action_trajectory = model(current_state)

print(f"Action Chunk Shape: {action_trajectory.shape}")

A gestão dos enormes conjuntos de dados necessários para treinar estas políticas robóticas exige muitos recursos. Líderes do setor como a OpenAI e Anthropic são pioneiros em modelos de grande escala, mas os programadores comuns dependem de ferramentas acessíveis. A Ultralytics simplifica o ciclo de vida dos dados para entradas visuais, oferecendo anotação automatizada de dados e capacidades de treino de modelos sem interrupções. À medida que os modelos evoluem para arquiteturas unificadas de Visão-Linguagem-Ação (VLA), a combinação de sistemas de visão eficientes com segmentação robusta de ações irá continuar a definir a próxima geração de automação inteligente.

Vamos construir juntos o futuro da IA!

Comece sua jornada com o futuro do aprendizado de máquina