Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Zurück zum Ultralytics Glossar

Group Relative Policy Optimization (GRPO)

Entdecke Group Relative Policy Optimization (GRPO). Erfahre, wie dieser speichereffiziente, kritikfreie RL-Algorithmus das logische Denken von LLMs verbessert und Trainingskosten senkt.

Group Relative Policy Optimization (GRPO) ist ein speichereffizienter Reinforcement Learning-Algorithmus, der entwickelt wurde, um die logischen Fähigkeiten von Large Language Models (LLMs) und umfassenderen Artificial Intelligence (AI)-Systemen zu verbessern. GRPO wurde erstmals in der DeepSeekMath-Studie von 2024 vorgestellt und verbessert herkömmliche Optimierungsmethoden, indem es die Notwendigkeit eines separaten Value-Netzwerks (Kritiker-Modell) überflüssig macht. Stattdessen normalisiert es die Belohnungen einer Gruppe von generierten Antworten, die aus demselben Prompt stammen. Durch die Bewertung von Antworten relativ zu ihren Pendants innerhalb der Gruppe reduziert GRPO den Rechenaufwand drastisch und steigert gleichzeitig die Leistung bei komplexen logischen Aufgaben in modernen Deep Learning (DL)-Architekturen.

Wie sich GRPO von PPO unterscheidet

Obwohl GRPO Ähnlichkeiten mit Proximal Policy Optimization (PPO) aufweist – einem Standard-Optimierungsalgorithmus, der häufig beim verstärkenden Lernen aus menschlichem Feedback (RLHF) eingesetzt wird –, unterscheiden sich die beiden architektonisch erheblich. PPO erfordert ein zweites „Kritiker“-Modell, das parallel zum Haupt-Policy-Netzwerk läuft, um den Wert eines gegebenen Zustands zu schätzen. Dies verdoppelt nahezu den während der Trainingsphase benötigten Speicherbedarf.

Im Gegensatz dazu ist GRPO ein Algorithmus ohne Kritiker. Durch das Sampling mehrerer Ausgaben für einen einzelnen Prompt und deren Bewertung mittels eines regelbasierten Belohnungssystems oder Prüfers berechnet GRPO den Vorteil durch Normalisierung der Ergebnisse innerhalb dieser spezifischen Gruppe. Dieser relative Vergleich dient als Basislinie, spart enorme Mengen an Speicher, die sonst von einem Value-Netzwerk belegt würden, und beschleunigt das gesamte Modelltraining.

Praxisanwendungen von GRPO

GRPO hat in jüngster Zeit mehrere Durchbrüche in der generativen KI und natürlichen Sprachverarbeitung vorangetrieben. Zwei bemerkenswerte Anwendungen sind:

  1. Mathematische logische Modelle: In der weithin zitierten DeepSeek-R1-Veröffentlichung und DeepSeekMath wurde GRPO verwendet, um Modelle dazu anzuregen, eine lange Chain-of-Thought-Logik und Selbstüberprüfung zu entwickeln, was der Leistung proprietärer Modelle wie OpenAI's o1 entspricht. Durch die Belohnung korrekter Endergebnisse und der Formatierung ermöglichte der Algorithmus dem Modell, ohne umfangreiches Fine-Tuning auf von Menschen annotierten Daten organisch fortgeschrittene Problemlösungsstrategien zu entdecken.
  2. Codegenerierung und Agentic Logic: Für Modelle, die Code schreiben oder autonome agentic workflows unterstützen, ist die Bewertung absoluter Korrektheit eine Herausforderung. GRPO ermöglicht es Modellen, durch das Ausführen von Codevariationen und deren relative Bewertung basierend auf Kompilierungserfolgen oder bestandenen Testfällen zu lernen, was den Einsatz hochzuverlässiger KI-Programmierassistenten beschleunigt.

Implementierung von GRPO-Konzepten in PyTorch

Im Kern berechnet GRPO den relativen Vorteil von Antworten durch die Normalisierung ihrer Belohnungen. Hier ist eine grundlegende PyTorch-Implementierung, die diese Normalisierung mithilfe von Standard-Tensor-Operationen demonstriert:



def compute_grpo_advantages(rewards):
    # 'rewards' is a tensor of shape (batch_size, group_size)
    group_mean = rewards.mean(dim=1, keepdim=True)
    group_std = rewards.std(dim=1, keepdim=True)

    # Normalize rewards within the group to calculate relative advantages
    advantages = (rewards - group_mean) / (group_std + 1e-8)
    return advantages

KI mit smarter Optimierung voranbringen

So wie GRPO die Effizienz der Textgenerierung neu definiert, verändern fortgeschrittene Machine Learning (ML)-Techniken kontinuierlich die visuelle Wahrnehmung. Die Optimierung von Architekturen und Verlustfunktionen ermöglicht es Entwicklern, leichtere und schnellere Modelle für alle Bereiche zu erstellen.

Für modernste Computer Vision-Aufgaben ist die Untersuchung von End-to-End-Optimierungen ebenso kritisch. Zum Beispiel führt Ultralytics YOLO26 eine NMS-freie Architektur und hybride Optimierer ein, die von der LLM-Forschung inspiriert sind und den Edge-Einsatz drastisch verbessern. Entwickler, die effiziente Computer Vision-Workflows nutzen möchten, können mit der Ultralytics Platform mühelos Modelle erstellen, trainieren und bereitstellen. Dieses Cloud-basierte Tool vereinfacht das komplexe Datenmanagement und das Hyperparameter-Tuning für robuste Echtzeit-Vision-Anwendungen.

Explore solutions

Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Unterstütze Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Mehr erfahren
Real-time AI that works with your operation

KI im Automobilbereich

Wende Computer Vision im Automobilbereich mit Ultralytics YOLO Modellen an. Vision AI verbessert die Straßensicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Mehr erfahren
Real-time AI that works with your team

KI im Gesundheitswesen

Erstelle Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision KI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Mehr erfahren
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO Modellen. Vision KI ermöglicht Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Mehr erfahren
Real-time AI that works with your team

KI in der Robotik

Betreibe intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik ermöglicht autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung.

Mehr erfahren
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien an.

Mehr erfahren
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision-KI ermöglicht Paketinspektion, Sortierung, Fahrzeugverfolgung und Echtzeit-Lagersicherheitsüberwachung.

Mehr erfahren
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Unterstütze Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Mehr erfahren
Real-time AI that works with your operation

KI im Automobilbereich

Wende Computer Vision im Automobilbereich mit Ultralytics YOLO Modellen an. Vision AI verbessert die Straßensicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Mehr erfahren
Real-time AI that works with your team

KI im Gesundheitswesen

Erstelle Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision KI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Mehr erfahren
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO Modellen. Vision KI ermöglicht Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Mehr erfahren
Real-time AI that works with your team

KI in der Robotik

Betreibe intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik ermöglicht autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung.

Mehr erfahren
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien an.

Mehr erfahren
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision-KI ermöglicht Paketinspektion, Sortierung, Fahrzeugverfolgung und Echtzeit-Lagersicherheitsüberwachung.

Mehr erfahren
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Unterstütze Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Mehr erfahren
Real-time AI that works with your operation

KI im Automobilbereich

Wende Computer Vision im Automobilbereich mit Ultralytics YOLO Modellen an. Vision AI verbessert die Straßensicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Mehr erfahren
Real-time AI that works with your team

KI im Gesundheitswesen

Erstelle Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision KI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Mehr erfahren
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO Modellen. Vision KI ermöglicht Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Mehr erfahren
Real-time AI that works with your team

KI in der Robotik

Betreibe intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik ermöglicht autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung.

Mehr erfahren
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien an.

Mehr erfahren
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision-KI ermöglicht Paketinspektion, Sortierung, Fahrzeugverfolgung und Echtzeit-Lagersicherheitsüberwachung.

Mehr erfahren

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens