Group Relative Policy Optimization (GRPO)

Entdecke Group Relative Policy Optimization (GRPO). Lerne, wie dieser speichereffiziente, kritikfreie RL-Algorithmus das Reasoning von LLMs verbessert und Trainingskosten senkt.

Group Relative Policy Optimization (GRPO) ist ein speichereffizienter Reinforcement Learning-Algorithmus, der entwickelt wurde, um die logischen Fähigkeiten von Large Language Models (LLMs) und umfassenderen Artificial Intelligence (AI)-Systemen zu verbessern. GRPO wurde erstmals im DeepSeekMath-Paper von 2024 vorgestellt und verbessert traditionelle Optimierungsmethoden, indem die Notwendigkeit für ein separates Value-Netzwerk (Kritiker-Modell) entfällt. Stattdessen werden die Belohnungen einer Gruppe generierter Antworten, die auf demselben Prompt basieren, normalisiert. Durch die Bewertung von Antworten relativ zu ihren Pendants innerhalb der Gruppe reduziert GRPO den Rechenaufwand erheblich und steigert gleichzeitig die Leistung bei komplexen logischen Aufgaben in modernen Deep Learning (DL)-Architekturen.

Link to this sectionWie sich GRPO von PPO unterscheidet#

Obwohl GRPO Ähnlichkeiten mit Proximal Policy Optimization (PPO) aufweist – einem Standard-Optimierungsalgorithmus, der oft beim Reinforcement Learning from Human Feedback (RLHF) verwendet wird –, unterscheiden sich die beiden architektonisch erheblich. PPO erfordert ein sekundäres „Kritiker“-Modell, das parallel zum Haupt-Policy-Netzwerk läuft, um den Wert eines gegebenen Zustands zu schätzen. Dies verdoppelt nahezu den während der Trainingsphase benötigten Speicherbedarf.

Im Gegensatz dazu ist GRPO ein kritikerfreier Algorithmus. Durch das Sampling mehrerer Ausgaben für einen einzelnen Prompt und deren Bewertung mithilfe eines regelbasierten Belohnungssystems oder Prüfers berechnet GRPO den Vorteil durch die Normalisierung der Ergebnisse innerhalb dieser spezifischen Gruppe. Dieser relative Vergleich dient als Baseline, spart enorme Speichermengen, die sonst durch ein Value-Netzwerk belegt würden, und beschleunigt das gesamte Modelltraining.

Link to this sectionPraxisanwendungen von GRPO#

GRPO hat in letzter Zeit mehrere Durchbrüche in der generativen KI und natürlichen Sprachverarbeitung vorangetrieben. Zwei bemerkenswerte Anwendungen sind:

Mathematische logische Modelle: Im viel zitierten DeepSeek-R1-Release und DeepSeekMath wurde GRPO eingesetzt, um Modelle dazu zu animieren, lange Chain-of-Thought-Argumentationsketten und Selbstüberprüfung zu entwickeln, was die Leistung proprietärer Modelle wie OpenAIs o1 erreicht. Durch die Belohnung korrekter Endergebnisse und Formatierungen ermöglichte der Algorithmus dem Modell, ohne umfangreiches Fine-Tuning auf von Menschen annotierten Daten organisch fortgeschrittene Problemlösungsstrategien zu entdecken.
Codegenerierung und agentische Logik: Bei Modellen, die Code schreiben oder autonome agentische Workflows betreiben, ist die Bewertung absoluter Korrektheit eine Herausforderung. GRPO ermöglicht es Modellen, durch das Ausführen von Code-Variationen und deren relative Bewertung basierend auf Kompilierungserfolg oder bestandenen Testfällen zu lernen, was die Bereitstellung hochzuverlässiger KI-Programmierassistenten beschleunigt.

Link to this sectionImplementierung von GRPO-Konzepten in PyTorch#

Im Kern berechnet GRPO den relativen Vorteil von Antworten durch die Normalisierung ihrer Belohnungen. Hier ist eine grundlegende PyTorch-Implementierung, die diese Normalisierung mithilfe von Standard-Tensoroperationen demonstriert:



def compute_grpo_advantages(rewards):
    # 'rewards' is a tensor of shape (batch_size, group_size)
    group_mean = rewards.mean(dim=1, keepdim=True)
    group_std = rewards.std(dim=1, keepdim=True)

    # Normalize rewards within the group to calculate relative advantages
    advantages = (rewards - group_mean) / (group_std + 1e-8)
    return advantages

Link to this sectionKI mit intelligenter Optimierung voranbringen#

Genau wie GRPO die Effizienz der Textgenerierung neu definiert, gestalten fortschrittliche Machine Learning (ML)-Techniken kontinuierlich die visuelle Wahrnehmung um. Die Optimierung von Architekturen und Loss-Funktionen ermöglicht es Entwicklern, in allen Bereichen leichtere und schnellere Modelle zu erstellen.

Für modernste Computer-Vision-Aufgaben ist die Untersuchung von End-to-End-Optimierungen ebenso entscheidend. Zum Beispiel führt Ultralytics YOLO26 eine nativ NMS-freie Architektur und hybride Optimierer ein, die von der LLM-Forschung inspiriert sind und die Edge-Bereitstellung drastisch verbessern. Entwickler, die effiziente Computer-Vision-Workflows nutzen möchten, können Modelle mühelos über die Ultralytics Platform erstellen, trainieren und bereitstellen. Dieses cloudbasierte Tool vereinfacht das komplexe Dataset-Management und das Hyperparameter-Tuning für robuste Echtzeit-Vision-Anwendungen.

Group Relative Policy Optimization (GRPO)

Link to this sectionWie sich GRPO von PPO unterscheidet#

Link to this sectionPraxisanwendungen von GRPO#

Link to this sectionImplementierung von GRPO-Konzepten in PyTorch#

Link to this sectionKI mit intelligenter Optimierung voranbringen#

Explore solutions

KI in der Robotik

KI in der Logistik

KI im Einzelhandel

KI im Gesundheitswesen

KI in der Fertigung

KI in der Automobilbranche

KI in der Landwirtschaft

KI in der Robotik

KI in der Logistik

KI im Einzelhandel

KI im Gesundheitswesen

KI in der Fertigung

KI in der Automobilbranche

KI in der Landwirtschaft

KI in der Robotik

KI in der Logistik

KI im Einzelhandel

KI im Gesundheitswesen

KI in der Fertigung

KI in der Automobilbranche

KI in der Landwirtschaft

Lass uns gemeinsam die Zukunft der KI bauen!