Scopri come la suddivisione in blocchi delle azioni migliori la precisione dei robot e l'apprendimento per imitazione. Scopri come utilizzare Ultralytics per ridurre gli errori cumulativi negli agenti di intelligenza artificiale.
Il "chunking delle azioni" è una tecnica avanzata di deep learning, ampiamente utilizzata nella robotica e nell'apprendimento per imitazione, in cui un modello prevede una sequenza (o "chunk") di azioni future anziché una singola azione ad ogni intervallo temporale. Prevedendo una traiettoria in più fasi, l'action chunking consente agli agenti di IA di eseguire compiti complessi e a lungo termine con maggiore fluidità e affidabilità. Questo approccio ha acquisito notevole popolarità in seguito all'introduzione di Action Chunking with Transformers (ACT), un'architettura di modello che combina la previsione temporale con input di visione artificiale ad alta dimensione .
Nella clonazione comportamentale tradizionale, un modello prevede il passo immediatamente successivo sulla base dello stato attuale. Tuttavia, durante l'inferenza in tempo reale, minime imprecisioni nelle previsioni fanno deviare il sistema verso stati non osservati. Questi errori si moltiplicano rapidamente, portando al fallimento dell'operazione: un fenomeno noto come «errori cumulativi».
Il "chunking" delle azioni affronta direttamente questa limitazione. Prevedendo più azioni contemporaneamente (ad esempio, 50 movimenti articolari che coprono 1 secondo di movimento), l'orizzonte di controllo effettivo viene ridotto. Il sistema si impegna in un piano coerente a breve termine basato su una singola osservazione visiva affidabile, riducendo notevolmente la frequenza degli errori reattivi. Quando si integrano backbone di visione come Ultralytics per la consapevolezza spaziale e la localizzazione dei bounding box, le previsioni risultanti diventano incredibilmente stabili rispetto al rumore di processo.
Il "chunking" delle azioni ha aperto nuove possibilità nell'automazione fisica, in particolare quando viene implementato su hardware AI edge ottimizzato da framework come Intel :
Per comprendere meglio come questa tecnica si inserisca nel più ampio ecosistema dell'intelligenza artificiale, è utile distinguerla da termini simili:
In pratica, un sistema di visione analizza l'ambiente e un decodificatore di sequenze genera la traiettoria suddivisa in segmenti. Il seguente Python dimostra un concetto PyTorch (un'alternativa a TensorFlow) che accetta uno stato dell'ambiente — come quello derivato da un passaggio di rilevamento degli oggetti — e produce una sequenza di azioni future .
import torch
import torch.nn as nn
class ActionChunker(nn.Module):
def __init__(self, state_dim, action_dim, chunk_size):
super().__init__()
# Maps the current state to a sequence of future actions
self.decoder = nn.Linear(state_dim, chunk_size * action_dim)
self.chunk_size = chunk_size
self.action_dim = action_dim
def forward(self, state):
# Predict the entire action chunk at once
chunk = self.decoder(state)
return chunk.view(-1, self.chunk_size, self.action_dim)
# Example: 128-dim state, 6 degrees of freedom, 50-step chunk
model = ActionChunker(state_dim=128, action_dim=6, chunk_size=50)
# Generate a 50-step action trajectory from a single observation
current_state = torch.randn(1, 128)
action_trajectory = model(current_state)
print(f"Action Chunk Shape: {action_trajectory.shape}")
La gestione degli enormi set di dati necessari per addestrare queste politiche robotiche richiede un notevole impiego di risorse. Aziende leader del settore come OpenAI e Anthropic sono pionieri dei modelli su larga scala, ma gli sviluppatori comuni si affidano a strumenti accessibili. La Ultralytics semplifica il ciclo di vita dei dati per gli input visivi, offrendo annotazione automatizzata dei dati e funzionalità di addestramento dei modelli senza soluzione di continuità. Man mano che i modelli evolvono verso architetture unificate Vision-Language-Action (VLA), la combinazione di sistemi di visione efficienti con un solido chunking delle azioni continuerà a definire la prossima generazione di automazione intelligente.

Inizia il tuo viaggio con il futuro del machine learning