Diffusion Policies

Erfahre, wie Diffusion Policies die moderne Robotik prägen. Lerne, wie sie Aktionen durch Denoising modellieren und sich für intelligente Wahrnehmung in Ultralytics YOLO26 integrieren lassen.

Diffusion Policies stellen einen Paradigmenwechsel in der Robotik und dem maschinellen Lernen dar, bei dem die visuomotorische Richtlinie eines KI-Agenten als bedingter Rauschunterdrückungs-Diffusionsprozess modelliert wird. Traditionell stützt sich das Behavior Cloning – eine Form des Imitation Learning – auf direkte Regression, um eine einzelne deterministische Aktion aus sensorischen Eingabedaten vorherzusagen. Während dies bei einfachen Aufgaben funktioniert, scheitert die direkte Regression oft, wenn mehrere valide Aktionen existieren, was zu instabilen oder unsicheren gemittelten Bewegungen führt. Diffusion Policies lösen dies, indem sie die Aktionsgenerierung als Aufgabe zur Sequenzverfeinerung definieren. Ausgehend von reinem Zufallsrauschen entrauscht der Algorithmus das Signal iterativ – unter Berücksichtigung sensorischer Beobachtungen wie Bilder oder räumlicher Zustandsdaten –, um hochpräzise, robuste und multimodale Aktionssequenzen zu erzeugen.

Link to this sectionWie Diffusion Policies funktionieren#

Die Kernmechanik beruht auf der Mathematik aus dem Generative Modeling und adaptiert Techniken, die ursprünglich für die hochauflösende Bildsynthese im originalen visuomotorischen Diffusions-Policy-Paper entwickelt wurden. Während der Trainingsphase, auch bekannt als Vorwärtsprozess, werden optimalen Experten-Aktionstrajektorien schrittweise geringe Mengen an Rauschen hinzugefügt. Ein neurales Netzwerk wird dann trainiert, dieses Rauschen basierend auf einem gegebenen Beobachtungskontext vorherzusagen und umzukehren.

Während der Inferenz, wenn der Roboter mit seiner Umgebung interagiert, beobachtet er seine Umgebung, initialisiert eine zufällige Aktionssequenz und entrauscht diese mithilfe stochastischer Langevin-Dynamik. Diese iterative Optimierung liefert feinkörnige, glatte motorische Befehle, die komplexe, hochdimensionale Aktionsräume bewältigen können.

Link to this sectionPraxisanwendungen#

Durch die präzise Darstellung komplexer Verteilungen ohne Mode Collapse gestalten Diffusion Policies die moderne physische künstliche Intelligenz aktiv neu.

Robotische Manipulation: In industriellen Umgebungen nutzen Roboterarme diese Policies für geschickte, kontaktintensive Aufgaben wie das Greifen unregelmäßig geformter Objekte, das Zusammenbauen komplexer Elektronik oder das Ausführen flüssiger Gießbewegungen.
Autonome Navigation: Selbstfahrende Systeme und Drohnen kombinieren Tiefenschätzung mit Diffusion Policies, um sichere, kontinuierliche Trajektorien durch dynamische Umgebungen zu planen und sich elegant an plötzliche Hindernisse anzupassen, die Standardmodelle des Reinforcement Learning ansonsten verwirren würden.

Link to this sectionUnterscheidung der wichtigsten Begriffe#

Um die spezifische Funktion von Diffusion Policies zu verdeutlichen, ist es hilfreich, sie von eng verwandten generativen Architekturen zu unterscheiden:

Diffusion Policies vs. Diffusion Models: Diffusion Models bezeichnen im weiteren Sinne die zugrunde liegende generative Architektur, die zur Erzeugung statischer Daten verwendet wird, wie etwa bei der Text-zu-Bild-Synthese. Diffusion Policies wenden diesen spezifischen Mechanismus an, um kontinuierliche Zeitreihen-Motorbefehle für aktive Roboter vorherzusagen.
Diffusion Policies vs. Diffusion Forcing: Diffusion Forcing ist ein allgemeines Framework zur Sequenzgenerierung, das kausale Transformer unter Verwendung unterschiedlicher Rauschpegel pro Token trainiert. Obwohl verwandt, konzentriert sich Diffusion Forcing stark auf autoregressive Vorhersagen, während Diffusion Policies streng die Strategie des Imitation Learning für die visuomotorische Steuerung bezeichnen.

Link to this sectionAktuelle Fortschritte beim Policy Learning#

Die Forschung führender Institutionen, einschließlich OpenAI-Forschungsinitiativen und Google DeepMind Robotics, erweitert kontinuierlich die Grenzen dessen, was diese Algorithmen erreichen können. Insbesondere die 3D Diffusion Policy (DP3), veröffentlicht auf arXiv im Jahr 2024, führte einen Durchbruch ein, indem Policies auf kompakte 3D-Punktwolkenrepräsentationen statt auf einfache 2D-Bilder konditioniert wurden. Dies verbesserte das räumliche Bewusstsein von Robotern erheblich und erforderte gleichzeitig drastisch weniger Experten-Demonstrationen. Weitere Innovationen wie D3P: Dynamic Denoising Diffusion Policy haben begonnen, die langsame Inferenzgeschwindigkeit von Standard-Diffusion anzugehen, indem sie Entrauschungsschritte für Routineaktionen dynamisch überspringen und so eine Echtzeit-Reaktionsfähigkeit ermöglichen.

Link to this sectionPraktische Implementierung mit Computer Vision#

Bevor eine Diffusion Policy eine Aktion generieren kann, benötigt sie ein klares, strukturiertes Verständnis ihrer Umgebung. Ingenieure kombinieren häufig robuste Objekterkennungs-Modelle mit Policy-Algorithmen, um eine vollständige Computer-Vision-Pipeline zu bilden. Beispielsweise kann ein schnelles Wahrnehmungsmodell wie Ultralytics YOLO26 Zielobjekte in Echtzeit isolieren und räumliche Koordinaten in eine auf der PyTorch-Bibliothek basierende Diffusion Policy einspeisen.

import torch
from ultralytics import YOLO

# Load the Ultralytics YOLO26 Nano model for high-speed robotic perception
model = YOLO("yolo26n.pt")

# Predict bounding boxes on the robot's active camera feed
results = model.predict("robot_camera_feed.jpg")

# Condition the policy by extracting the bounding box center coordinate
if len(results[0].boxes) > 0:
    box = results[0].boxes[0].xyxy.squeeze()
    center_x = (box[0] + box[2]) / 2.0
    center_y = (box[1] + box[3]) / 2.0

    # Create a spatial observation tensor to condition the PyTorch Diffusion Policy.
    # This directly guides the denoising process to generate accurate motor actions.
    observation_state = torch.tensor([center_x, center_y])
    print(f"Conditioning action trajectory on object center: {observation_state}")

Um diesen Workflow zu rationalisieren, können Entwickler die Ultralytics Platform nutzen, um schnelle Auto-Annotation-Tools für benutzerdefinierte Datensätze einzusetzen. Diese End-to-End-Unterstützung beschleunigt das Modell-Deployment von rohen Kamera-Feeds hin zu handlungsfähiger robotischer Intelligenz.

Diffusion Policies

Link to this sectionWie Diffusion Policies funktionieren#

Link to this sectionPraxisanwendungen#

Link to this sectionUnterscheidung der wichtigsten Begriffe#

Link to this sectionAktuelle Fortschritte beim Policy Learning#

Link to this sectionPraktische Implementierung mit Computer Vision#

Explore solutions

KI in der Robotik

KI in der Logistik

KI im Einzelhandel

KI im Gesundheitswesen

KI in der Fertigung

KI in der Automobilbranche

KI in der Landwirtschaft

KI in der Robotik

KI in der Logistik

KI im Einzelhandel

KI im Gesundheitswesen

KI in der Fertigung

KI in der Automobilbranche

KI in der Landwirtschaft

KI in der Robotik

KI in der Logistik

KI im Einzelhandel

KI im Gesundheitswesen

KI in der Fertigung

KI in der Automobilbranche

KI in der Landwirtschaft

Lass uns gemeinsam die Zukunft der KI bauen!