Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Aufteilung in Handlungsabschnitte

Erfahren Sie, wie das „Action Chunking“ die Präzision von Robotern und das imitatives Lernen verbessert. Entdecken Sie, wie Sie mit Ultralytics kumulative Fehler bei KI-Agenten reduzieren können.

Action Chunking ist eine fortschrittliche Deep-Learning-Technik, die vor allem in der Robotik und beim imitativen Lernen zum Einsatz kommt, wobei ein Modell eine Abfolge (oder einen „Chunk“) zukünftiger Aktionen vorhersagt, anstatt bei jedem Zeitschritt eine einzelne Aktion. Durch die Vorhersage einer mehrstufigen Bewegungsbahn ermöglicht Action Chunking KI-Agenten, komplexe Aufgaben mit langem Zeithorizont reibungsloser und zuverlässiger auszuführen. Dieser Ansatz hat nach der Einführung von Action Chunking with Transformers (ACT) erheblich an Bedeutung gewonnen; dabei handelt es sich um eine Modellarchitektur, die zeitliche Vorhersagen mit hochdimensionalen Computer-Vision-Eingaben kombiniert.

Vermeidung von sich verstärkenden Fehlern

Beim traditionellen Verhaltensklonen sagt ein Modell den unmittelbar folgenden Schritt auf der Grundlage des aktuellen Zustands voraus. Bei der Echtzeit-Inferenz führen jedoch winzige Ungenauigkeiten bei der Vorhersage dazu, dass das System in unbeobachtete Zustände gerät. Diese Fehler vermehren sich rasch und führen zum Scheitern der Aufgabe – ein Phänomen, das als „sich verstärkende Fehler“ bekannt ist.

Das Action-Chunking geht direkt auf diese Einschränkung ein. Durch die gleichzeitige Vorhersage mehrerer Aktionen (z. B. 50 Gelenkbewegungen über einen Zeitraum von 1 Sekunde) wird der effektive Steuerhorizont verkürzt. Das System legt sich auf einen kohärenten Kurzzeitplan fest, der auf einer einzigen zuverlässigen visuellen Beobachtung basiert, wodurch die Häufigkeit reaktiver Fehler erheblich reduziert wird. Durch die Integration von Bildverarbeitungs-Backbones wie Ultralytics für räumliches Bewusstsein und Bounding-Box-Lokalisierung werden die resultierenden Vorhersagen unglaublich stabil gegenüber Prozessrauschen.

Anwendungsfälle in der Praxis

Das Action-Chunking hat neue Möglichkeiten in der physischen Automatisierung eröffnet, insbesondere bei der Bereitstellung auf Edge-AI -Hardware, die durch Frameworks wie Intel optimiert wurde:

  • Fein abgestimmte Robotermanipulation: In der industriellen Automatisierung nutzen Roboter in Blöcken zusammengefasste Vorhersagen, um kontaktintensive Aufgaben auszuführen, die hohe Präzision erfordern, wie beispielsweise das Einfädeln von Kabeln, das Einsetzen von Batterien oder die Handhabung von Gegenständen, die anhand von Datensätzen zur Paketsegmentierung verfolgt werden. Die Erzeugung zusammenhängender Aktionssequenzen verhindert die ruckartigen, inkonsistenten Bewegungen, die für das schrittweise Imitationslernen typisch sind.
  • Autonome Navigation: Beim autonomen Fahren und beim Drohnenflug ermöglicht die Vorhersage einer Reihe von Steuerbefehlen (wie Lenkung und Beschleunigung) eine flüssigere Flugbahnplanung – ein Konzept, das in aktuellen IEEE-Fachartikeln zur Robotik intensiv untersucht wurde. In Verbindung mit kontinuierlicher Objektverfolgung und Tiefenschätzung können Fahrzeuge sicher durch komplexe, dynamische Umgebungen navigieren.

Unterscheidung von verwandten Konzepten

Um besser zu verstehen, wie sich diese Technik in das breitere Ökosystem der künstlichen Intelligenz einfügt, ist es hilfreich, sie von ähnlichen Begriffen abzugrenzen:

  • Aktionszerlegung vs. Aktionserkennung: Während bei der Aktionszerlegung eine Abfolge von zukünftigen Befehlen generiert wird, die eine Maschine ausführen soll, ist die Aktionserkennung der analytische Prozess der Identifizierung von Aktivitäten, die in einem Videofeed stattfinden.
  • Action Chunking vs. Sequenz-zu-Sequenz-Modelle: Sequenz-zu-Sequenz-Architekturen bilden eine Eingabesequenz auf eine Ausgabesequenz ab und finden breite Anwendung in der maschinellen Übersetzung. Action Chunking nutzt diese Architekturen intensiv – insbesondere Transformers–, beschränkt die Ausgabe jedoch ausschließlich auf motorische Steuerungen und Kinematik auf niedriger Ebene anstelle von Text.
  • Aktionszerlegung vs. bestärkendes Lernen: Das bestärkende Lernen stützt sich auf Belohnungssignale, um einem Agenten durch Versuch und Irrtum etwas beizubringen. Im Gegensatz dazu wird die Aktionszerlegung vor allem beim überwachten Verhaltensklooning eingesetzt, bei dem das Modell direkt aus menschlichen Vorführungen lernt, ohne dass eine explizite Belohnungsmaximierung stattfindet.

Umsetzung der Aktionszerlegung

In der Praxis wertet ein Bildverarbeitungssystem die Umgebung aus, und ein Sequenzdecoder generiert die in Abschnitte unterteilte Bewegungsbahn. Das Folgende Python Codeausschnitt veranschaulicht ein konzeptionelles PyTorch Modul (eine Alternative zu TensorFlow), das einen Umgebungszustand – beispielsweise einen aus einem Objekterkennungsdurchlauf abgeleiteten – akzeptiert und eine Folge zukünftiger Aktionen ausgibt.

import torch
import torch.nn as nn


class ActionChunker(nn.Module):
    def __init__(self, state_dim, action_dim, chunk_size):
        super().__init__()
        # Maps the current state to a sequence of future actions
        self.decoder = nn.Linear(state_dim, chunk_size * action_dim)
        self.chunk_size = chunk_size
        self.action_dim = action_dim

    def forward(self, state):
        # Predict the entire action chunk at once
        chunk = self.decoder(state)
        return chunk.view(-1, self.chunk_size, self.action_dim)


# Example: 128-dim state, 6 degrees of freedom, 50-step chunk
model = ActionChunker(state_dim=128, action_dim=6, chunk_size=50)

# Generate a 50-step action trajectory from a single observation
current_state = torch.randn(1, 128)
action_trajectory = model(current_state)

print(f"Action Chunk Shape: {action_trajectory.shape}")

Die Verwaltung der riesigen Datensätze, die für das Training dieser Roboter-Richtlinien erforderlich sind, ist ressourcenintensiv. Branchenführer wie OpenAI und Anthropic sind Vorreiter bei groß angelegten Modellen, doch alltägliche Entwickler sind auf leicht zugängliche Tools angewiesen. Die Ultralytics optimiert den Datenlebenszyklus für visuelle Eingaben und bietet automatisierte Datenannotation sowie nahtlose Modelltrainingsfunktionen. Während sich Modelle in Richtung einheitlicher Vision-Language-Action-Architekturen (VLA) entwickeln, wird die Kombination effizienter Bildverarbeitungssysteme mit robustem Action Chunking auch weiterhin die nächste Generation intelligenter Automatisierung prägen.

Lassen Sie uns gemeinsam die Zukunft der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens