Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Segmentation des actions

Découvrez comment le découpage des actions améliore la précision des robots et l'apprentissage par imitation. Découvrez comment utiliser Ultralytics pour réduire les erreurs cumulées chez les agents IA.

Le « chunking d'actions » est une technique avancée d'apprentissage profond, largement utilisée en robotique et dans l'apprentissage par imitation, où un modèle prédit une séquence (ou « chunk ») d'actions futures plutôt qu'une seule action à chaque pas de temps. En prédisant une trajectoire en plusieurs étapes, l'action chunking permet aux agents IA d'effectuer des tâches complexes à long terme avec plus de fluidité et de fiabilité. Cette approche a connu un essor considérable suite à l'introduction de l' Action Chunking with Transformers (ACT), une architecture de modèle qui combine la prédiction temporelle avec des entrées de vision par ordinateur à haute dimension.

Limiter les erreurs cumulatives

Dans le clonage comportemental traditionnel, un modèle prédit l'étape suivante immédiate en fonction de l'état actuel. Cependant, lors de l'inférence en temps réel, de minuscules imprécisions de prédiction font basculer le système vers des états non observés. Ces erreurs se multiplient rapidement, entraînant l'échec de la tâche — un phénomène connu sous le nom d'« accumulation d'erreurs ».

Le « chunking » des actions permet de remédier directement à cette limite. En prédisant plusieurs actions simultanément (par exemple, 50 mouvements articulaires couvrant une seconde de mouvement), l'horizon de contrôle effectif est réduit. Le système s'engage dans un plan cohérent à court terme basé sur une seule observation visuelle fiable, ce qui réduit considérablement la fréquence des erreurs réactives. Lors de l' intégration de moteurs de vision tels que Ultralytics pour la perception spatiale et la localisation des boîtes englobantes, les prédictions qui en résultent deviennent incroyablement stables face au bruit de processus.

Applications concrètes

Le fractionnement des actions a ouvert la voie à de nouvelles possibilités dans le domaine de l'automatisation physique, en particulier lorsqu'il est déployé sur du matériel d'IA en périphérie optimisé par des frameworks tels que Intel :

  • Manipulation robotique de haute précision : dans le domaine de l'automatisation industrielle, les robots ont recours à des prédictions par blocs pour exécuter des tâches impliquant de nombreux contacts et exigeant une grande précision, telles que l'enfilage de câbles, l'insertion de batteries ou la manipulation d'objets suivis par des ensembles de données de segmentation de colis. La génération de séquences d'actions cohérentes permet d'éviter les mouvements saccadés et incohérents typiques de l'apprentissage par imitation étape par étape.
  • Navigation autonome : dans le domaine de la conduite autonome et du pilotage de drones, la prévision d'une séquence de commandes de contrôle (telles que la direction et l'accélération) permet une planification plus fluide de la trajectoire, un concept largement exploré dans les récents articles de l'IEEE consacrés à la robotique. Associée au suivi continu des objets et à l' estimation de la profondeur, cette approche permet aux véhicules de naviguer en toute sécurité dans des environnements dynamiques complexes.

Distinguer les concepts apparentés

Pour mieux comprendre comment cette technique s'intègre dans l'écosystème plus large de l'intelligence artificielle, il est utile de la distinguer d'autres termes similaires :

  • Segmentation des actions vs reconnaissance des actions : alors que la segmentation des actions génère une séquence de commandes futures destinées à être exécutées par une machine, la reconnaissance des actions est le processus analytique qui consiste à identifier les activités se déroulant dans un flux vidéo.
  • Modèles de segmentation d'actions vs modèles séquence-à-séquence : les architectures séquence-à-séquence font correspondre une séquence d'entrée à une séquence de sortie et sont largement utilisées dans la traduction automatique. La segmentation d'actions s'appuie fortement sur ces architectures — en particulier les Transformers— mais limite la sortie exclusivement à des commandes motrices et à la cinématique de bas niveau, plutôt qu'au texte.
  • Segmentation des actions vs apprentissage par renforcement : L'apprentissage par renforcement s'appuie sur des signaux de récompense pour former un agent par essais et erreurs. À l'inverse, la segmentation des actions est principalement utilisée dans le clonage comportemental supervisé, où le modèle apprend directement à partir de démonstrations humaines sans chercher explicitement à maximiser la récompense.

Mise en œuvre du fractionnement des actions

En pratique, un système de vision évalue l'environnement, et un décodeur de séquences génère la trajectoire segmentée. Le code Python illustre un concept PyTorch (une alternative à TensorFlow) qui accepte un état d'environnement — tel que celui dérivé d'un passage de détection d'objets — et génère une séquence d'actions futures .

import torch
import torch.nn as nn


class ActionChunker(nn.Module):
    def __init__(self, state_dim, action_dim, chunk_size):
        super().__init__()
        # Maps the current state to a sequence of future actions
        self.decoder = nn.Linear(state_dim, chunk_size * action_dim)
        self.chunk_size = chunk_size
        self.action_dim = action_dim

    def forward(self, state):
        # Predict the entire action chunk at once
        chunk = self.decoder(state)
        return chunk.view(-1, self.chunk_size, self.action_dim)


# Example: 128-dim state, 6 degrees of freedom, 50-step chunk
model = ActionChunker(state_dim=128, action_dim=6, chunk_size=50)

# Generate a 50-step action trajectory from a single observation
current_state = torch.randn(1, 128)
action_trajectory = model(current_state)

print(f"Action Chunk Shape: {action_trajectory.shape}")

La gestion des énormes ensembles de données nécessaires à l'entraînement de ces politiques robotiques mobilise d'importantes ressources. Des leaders du secteur tels que OpenAI et Anthropic sont à l'avant-garde des modèles à grande échelle, mais les développeurs de tous les jours s'appuient sur des outils accessibles. La Ultralytics rationalise le cycle de vie des données pour les entrées visuelles, en offrant des capacités d'annotation automatisée des données et d' entraînement transparent des modèles. À mesure que les modèles évoluent vers des architectures unifiées Vision-Langage-Action (VLA), la combinaison de systèmes de vision efficaces et d'un découpage robuste des actions continuera de définir la prochaine génération d'automatisation intelligente.

Construisons ensemble l'avenir de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique