Group Relative Policy Optimization (GRPO)
Entdecke Group Relative Policy Optimization (GRPO). Erfahre, wie dieser speichereffiziente, kritikfreie RL-Algorithmus das logische Denken von LLMs verbessert und Trainingskosten senkt.
Group Relative Policy Optimization (GRPO) ist ein speichereffizienter Reinforcement Learning-Algorithmus, der entwickelt wurde, um die logischen Fähigkeiten von Large Language Models (LLMs) und umfassenderen Artificial Intelligence (AI)-Systemen zu verbessern. GRPO wurde erstmals in der DeepSeekMath-Studie von 2024 vorgestellt und verbessert herkömmliche Optimierungsmethoden, indem es die Notwendigkeit eines separaten Value-Netzwerks (Kritiker-Modell) überflüssig macht. Stattdessen normalisiert es die Belohnungen einer Gruppe von generierten Antworten, die aus demselben Prompt stammen. Durch die Bewertung von Antworten relativ zu ihren Pendants innerhalb der Gruppe reduziert GRPO den Rechenaufwand drastisch und steigert gleichzeitig die Leistung bei komplexen logischen Aufgaben in modernen Deep Learning (DL)-Architekturen.
Wie sich GRPO von PPO unterscheidet
Obwohl GRPO Ähnlichkeiten mit Proximal Policy Optimization (PPO) aufweist – einem Standard-Optimierungsalgorithmus, der häufig beim verstärkenden Lernen aus menschlichem Feedback (RLHF) eingesetzt wird –, unterscheiden sich die beiden architektonisch erheblich. PPO erfordert ein zweites „Kritiker“-Modell, das parallel zum Haupt-Policy-Netzwerk läuft, um den Wert eines gegebenen Zustands zu schätzen. Dies verdoppelt nahezu den während der Trainingsphase benötigten Speicherbedarf.
Im Gegensatz dazu ist GRPO ein Algorithmus ohne Kritiker. Durch das Sampling mehrerer Ausgaben für einen einzelnen Prompt und deren Bewertung mittels eines regelbasierten Belohnungssystems oder Prüfers berechnet GRPO den Vorteil durch Normalisierung der Ergebnisse innerhalb dieser spezifischen Gruppe. Dieser relative Vergleich dient als Basislinie, spart enorme Mengen an Speicher, die sonst von einem Value-Netzwerk belegt würden, und beschleunigt das gesamte Modelltraining.
Praxisanwendungen von GRPO
GRPO hat in jüngster Zeit mehrere Durchbrüche in der generativen KI und natürlichen Sprachverarbeitung vorangetrieben. Zwei bemerkenswerte Anwendungen sind:
- Mathematische logische Modelle: In der weithin zitierten DeepSeek-R1-Veröffentlichung und DeepSeekMath wurde GRPO verwendet, um Modelle dazu anzuregen, eine lange Chain-of-Thought-Logik und Selbstüberprüfung zu entwickeln, was der Leistung proprietärer Modelle wie OpenAI's o1 entspricht. Durch die Belohnung korrekter Endergebnisse und der Formatierung ermöglichte der Algorithmus dem Modell, ohne umfangreiches Fine-Tuning auf von Menschen annotierten Daten organisch fortgeschrittene Problemlösungsstrategien zu entdecken.
- Codegenerierung und Agentic Logic: Für Modelle, die Code schreiben oder autonome agentic workflows unterstützen, ist die Bewertung absoluter Korrektheit eine Herausforderung. GRPO ermöglicht es Modellen, durch das Ausführen von Codevariationen und deren relative Bewertung basierend auf Kompilierungserfolgen oder bestandenen Testfällen zu lernen, was den Einsatz hochzuverlässiger KI-Programmierassistenten beschleunigt.
Implementierung von GRPO-Konzepten in PyTorch
Im Kern berechnet GRPO den relativen Vorteil von Antworten durch die Normalisierung ihrer Belohnungen. Hier ist eine grundlegende PyTorch-Implementierung, die diese Normalisierung mithilfe von Standard-Tensor-Operationen demonstriert:
def compute_grpo_advantages(rewards):
# 'rewards' is a tensor of shape (batch_size, group_size)
group_mean = rewards.mean(dim=1, keepdim=True)
group_std = rewards.std(dim=1, keepdim=True)
# Normalize rewards within the group to calculate relative advantages
advantages = (rewards - group_mean) / (group_std + 1e-8)
return advantagesKI mit smarter Optimierung voranbringen
So wie GRPO die Effizienz der Textgenerierung neu definiert, verändern fortgeschrittene Machine Learning (ML)-Techniken kontinuierlich die visuelle Wahrnehmung. Die Optimierung von Architekturen und Verlustfunktionen ermöglicht es Entwicklern, leichtere und schnellere Modelle für alle Bereiche zu erstellen.
Für modernste Computer Vision-Aufgaben ist die Untersuchung von End-to-End-Optimierungen ebenso kritisch. Zum Beispiel führt Ultralytics YOLO26 eine NMS-freie Architektur und hybride Optimierer ein, die von der LLM-Forschung inspiriert sind und den Edge-Einsatz drastisch verbessern. Entwickler, die effiziente Computer Vision-Workflows nutzen möchten, können mit der Ultralytics Platform mühelos Modelle erstellen, trainieren und bereitstellen. Dieses Cloud-basierte Tool vereinfacht das komplexe Datenmanagement und das Hyperparameter-Tuning für robuste Echtzeit-Vision-Anwendungen.






