Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Suddivisione in blocchi

Scopri come la suddivisione in blocchi delle azioni migliori la precisione dei robot e l'apprendimento per imitazione. Scopri come utilizzare Ultralytics per ridurre gli errori cumulativi negli agenti di intelligenza artificiale.

Il "chunking delle azioni" è una tecnica avanzata di deep learning, ampiamente utilizzata nella robotica e nell'apprendimento per imitazione, in cui un modello prevede una sequenza (o "chunk") di azioni future anziché una singola azione ad ogni intervallo temporale. Prevedendo una traiettoria in più fasi, l'action chunking consente agli agenti di IA di eseguire compiti complessi e a lungo termine con maggiore fluidità e affidabilità. Questo approccio ha acquisito notevole popolarità in seguito all'introduzione di Action Chunking with Transformers (ACT), un'architettura di modello che combina la previsione temporale con input di visione artificiale ad alta dimensione .

Ridurre il rischio di errori cumulativi

Nella clonazione comportamentale tradizionale, un modello prevede il passo immediatamente successivo sulla base dello stato attuale. Tuttavia, durante l'inferenza in tempo reale, minime imprecisioni nelle previsioni fanno deviare il sistema verso stati non osservati. Questi errori si moltiplicano rapidamente, portando al fallimento dell'operazione: un fenomeno noto come «errori cumulativi».

Il "chunking" delle azioni affronta direttamente questa limitazione. Prevedendo più azioni contemporaneamente (ad esempio, 50 movimenti articolari che coprono 1 secondo di movimento), l'orizzonte di controllo effettivo viene ridotto. Il sistema si impegna in un piano coerente a breve termine basato su una singola osservazione visiva affidabile, riducendo notevolmente la frequenza degli errori reattivi. Quando si integrano backbone di visione come Ultralytics per la consapevolezza spaziale e la localizzazione dei bounding box, le previsioni risultanti diventano incredibilmente stabili rispetto al rumore di processo.

Applicazioni nel mondo reale

Il "chunking" delle azioni ha aperto nuove possibilità nell'automazione fisica, in particolare quando viene implementato su hardware AI edge ottimizzato da framework come Intel :

  • Manipolazione robotica ad alta precisione: nell'automazione industriale, i robot utilizzano previsioni suddivise in segmenti per eseguire attività che comportano numerosi contatti e richiedono un'elevata precisione, come l'inserimento di cavi, l'alloggiamento di batterie o la movimentazione di oggetti tracciati tramite set di dati di segmentazione dei pacchi. La generazione di sequenze di azioni coerenti evita i movimenti a scatti e incoerenti tipici dell'apprendimento per imitazione a singolo passo.
  • Navigazione autonoma: nella guida autonoma e nel volo dei droni, la previsione di una serie di comandi di controllo (come lo sterzo e l'accelerazione) consente una pianificazione più fluida della traiettoria, un concetto ampiamente approfondito in recenti articoli di robotica pubblicati dall'IEEE. In combinazione con il tracciamento continuo degli oggetti e la stima della profondità, i veicoli possono muoversi in sicurezza in ambienti dinamici complessi.

Distinguere i concetti correlati

Per comprendere meglio come questa tecnica si inserisca nel più ampio ecosistema dell'intelligenza artificiale, è utile distinguerla da termini simili:

  • Suddivisione delle azioni vs. riconoscimento delle azioni: mentre la suddivisione delle azioni genera una sequenza di comandi futuri che una macchina dovrà eseguire, il riconoscimento delle azioni è il processo analitico di identificazione delle attività che si svolgono all'interno di un filmato.
  • Modelli di "action chunking" vs modelli "sequence-to-sequence": le architetture "sequence-to-sequence" mappano una sequenza di input su una sequenza di output e sono ampiamente utilizzate nella traduzione automatica. L'action chunking fa ampio ricorso a queste architetture — in particolare ai Transformers— ma limita l'output esclusivamente ai controlli motori di basso livello e alla cinematica, anziché al testo.
  • Chunking delle azioni vs. apprendimento per rinforzo : L'apprendimento per rinforzo si basa sui segnali di ricompensa per addestrare un agente attraverso il metodo per tentativi ed errori. Al contrario, il chunking delle azioni viene impiegato principalmente nella clonazione comportamentale supervisionata, in cui il modello apprende direttamente dalle dimostrazioni umane senza una massimizzazione esplicita della ricompensa.

Applicazione della suddivisione in blocchi

In pratica, un sistema di visione analizza l'ambiente e un decodificatore di sequenze genera la traiettoria suddivisa in segmenti. Il seguente Python dimostra un concetto PyTorch (un'alternativa a TensorFlow) che accetta uno stato dell'ambiente — come quello derivato da un passaggio di rilevamento degli oggetti — e produce una sequenza di azioni future .

import torch
import torch.nn as nn


class ActionChunker(nn.Module):
    def __init__(self, state_dim, action_dim, chunk_size):
        super().__init__()
        # Maps the current state to a sequence of future actions
        self.decoder = nn.Linear(state_dim, chunk_size * action_dim)
        self.chunk_size = chunk_size
        self.action_dim = action_dim

    def forward(self, state):
        # Predict the entire action chunk at once
        chunk = self.decoder(state)
        return chunk.view(-1, self.chunk_size, self.action_dim)


# Example: 128-dim state, 6 degrees of freedom, 50-step chunk
model = ActionChunker(state_dim=128, action_dim=6, chunk_size=50)

# Generate a 50-step action trajectory from a single observation
current_state = torch.randn(1, 128)
action_trajectory = model(current_state)

print(f"Action Chunk Shape: {action_trajectory.shape}")

La gestione degli enormi set di dati necessari per addestrare queste politiche robotiche richiede un notevole impiego di risorse. Aziende leader del settore come OpenAI e Anthropic sono pionieri dei modelli su larga scala, ma gli sviluppatori comuni si affidano a strumenti accessibili. La Ultralytics semplifica il ciclo di vita dei dati per gli input visivi, offrendo annotazione automatizzata dei dati e funzionalità di addestramento dei modelli senza soluzione di continuità. Man mano che i modelli evolvono verso architetture unificate Vision-Language-Action (VLA), la combinazione di sistemi di visione efficienti con un solido chunking delle azioni continuerà a definire la prossima generazione di automazione intelligente.

Costruiamo insieme il futuro dell'intelligenza artificiale!

Inizia il tuo viaggio con il futuro del machine learning