Découvrez comment le découpage des actions améliore la précision des robots et l'apprentissage par imitation. Découvrez comment utiliser Ultralytics pour réduire les erreurs cumulées chez les agents IA.
Le « chunking d'actions » est une technique avancée d'apprentissage profond, largement utilisée en robotique et dans l'apprentissage par imitation, où un modèle prédit une séquence (ou « chunk ») d'actions futures plutôt qu'une seule action à chaque pas de temps. En prédisant une trajectoire en plusieurs étapes, l'action chunking permet aux agents IA d'effectuer des tâches complexes à long terme avec plus de fluidité et de fiabilité. Cette approche a connu un essor considérable suite à l'introduction de l' Action Chunking with Transformers (ACT), une architecture de modèle qui combine la prédiction temporelle avec des entrées de vision par ordinateur à haute dimension.
Dans le clonage comportemental traditionnel, un modèle prédit l'étape suivante immédiate en fonction de l'état actuel. Cependant, lors de l'inférence en temps réel, de minuscules imprécisions de prédiction font basculer le système vers des états non observés. Ces erreurs se multiplient rapidement, entraînant l'échec de la tâche — un phénomène connu sous le nom d'« accumulation d'erreurs ».
Le « chunking » des actions permet de remédier directement à cette limite. En prédisant plusieurs actions simultanément (par exemple, 50 mouvements articulaires couvrant une seconde de mouvement), l'horizon de contrôle effectif est réduit. Le système s'engage dans un plan cohérent à court terme basé sur une seule observation visuelle fiable, ce qui réduit considérablement la fréquence des erreurs réactives. Lors de l' intégration de moteurs de vision tels que Ultralytics pour la perception spatiale et la localisation des boîtes englobantes, les prédictions qui en résultent deviennent incroyablement stables face au bruit de processus.
Le fractionnement des actions a ouvert la voie à de nouvelles possibilités dans le domaine de l'automatisation physique, en particulier lorsqu'il est déployé sur du matériel d'IA en périphérie optimisé par des frameworks tels que Intel :
Pour mieux comprendre comment cette technique s'intègre dans l'écosystème plus large de l'intelligence artificielle, il est utile de la distinguer d'autres termes similaires :
En pratique, un système de vision évalue l'environnement, et un décodeur de séquences génère la trajectoire segmentée. Le code Python illustre un concept PyTorch (une alternative à TensorFlow) qui accepte un état d'environnement — tel que celui dérivé d'un passage de détection d'objets — et génère une séquence d'actions futures .
import torch
import torch.nn as nn
class ActionChunker(nn.Module):
def __init__(self, state_dim, action_dim, chunk_size):
super().__init__()
# Maps the current state to a sequence of future actions
self.decoder = nn.Linear(state_dim, chunk_size * action_dim)
self.chunk_size = chunk_size
self.action_dim = action_dim
def forward(self, state):
# Predict the entire action chunk at once
chunk = self.decoder(state)
return chunk.view(-1, self.chunk_size, self.action_dim)
# Example: 128-dim state, 6 degrees of freedom, 50-step chunk
model = ActionChunker(state_dim=128, action_dim=6, chunk_size=50)
# Generate a 50-step action trajectory from a single observation
current_state = torch.randn(1, 128)
action_trajectory = model(current_state)
print(f"Action Chunk Shape: {action_trajectory.shape}")
La gestion des énormes ensembles de données nécessaires à l'entraînement de ces politiques robotiques mobilise d'importantes ressources. Des leaders du secteur tels que OpenAI et Anthropic sont à l'avant-garde des modèles à grande échelle, mais les développeurs de tous les jours s'appuient sur des outils accessibles. La Ultralytics rationalise le cycle de vie des données pour les entrées visuelles, en offrant des capacités d'annotation automatisée des données et d' entraînement transparent des modèles. À mesure que les modèles évoluent vers des architectures unifiées Vision-Langage-Action (VLA), la combinaison de systèmes de vision efficaces et d'un découpage robuste des actions continuera de définir la prochaine génération d'automatisation intelligente.

Commencez votre parcours avec l'avenir de l'apprentissage automatique