Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Zurück zum Ultralytics Glossar

Process Reward Model (PRM)

Erfahre, wie Process Reward Models (PRM) das KI-Schlussfolgern verbessern. Lerne, wie schrittweises Feedback in RLHF logische, sichere Pfade für LLMs und Ultralytics YOLO26 gewährleistet.

Die Bewertung komplexer künstlicher Intelligenz-Modelle erfordert mehr, als nur zu prüfen, ob die endgültige Antwort korrekt ist. Eine hochspezialisierte Reinforcement Learning-Technik weist jedem Zwischenschritt, den eine KI während einer Aufgabe unternimmt, mathematische Bewertungen zu und liefert so dichtes, schrittweises Feedback. Dieser granulare Ansatz stellt sicher, dass das Modell nicht nur das richtige Ziel erreicht, sondern auch logische, sichere und überprüfbare Pfade dorthin verfolgt.

Link to this sectionProcess Reward Models vs. Outcome Reward Models#

Im weiteren Kontext von Reward Modeling ist es wichtig, zwischen prozessbasierter und ergebnisbasierter Überwachung zu unterscheiden. Traditionelle Outcome Reward Models (ORMs) liefern eine einzelne, spärliche Belohnung ganz am Ende einer Generierung. Obwohl ORMs einfacher zu trainieren sind, leiden sie bei komplexen Aufgaben unter einem großen Nachteil: Sie können unbeabsichtigt Modelle belohnen, die zwar zum richtigen Ergebnis kommen, dabei jedoch fehlerhafte Logik oder Halluzinationen verwenden.

Ein Process Reward Model (PRM) löst dies durch die Bewertung des gesamten Schlussfolgerungspfades. Wie durch grundlegende OpenAI-Forschung in Papieren wie Let's Verify Step by Step popularisiert, wendet ein PRM schrittweise Überwachung auf jeden Gedanken oder jede Aktion an. Dies ist ein entscheidender Bestandteil fortschrittlicher Reinforcement Learning from Human Feedback (RLHF)-Pipelines, da es die Richtlinienoptimierung aktiv mittels Algorithmen wie Proximal Policy Optimization (PPO) steuert.

Link to this sectionAnwendungen in der Praxis#

PRMs verändern die Art und Weise, wie Large Language Models (LLMs) und autonome Systeme in risikoreichen Umgebungen arbeiten:

  • Mathematische Schlussfolgerung: Durch die zeilenweise Auswertung von Gleichungen ermöglichen PRMs Modellen die Nutzung von Algorithmen wie Best-of-N (BoN) sampling oder Monte Carlo Tree Search (MCTS), um mehrere Lösungswege zu erkunden und die logisch fundierteste Sequenz auszuwählen.
  • Code-Generierung: Bei der Generierung von Software reicht es nicht aus, einfach zu prüfen, ob das fertige Skript läuft. PRMs bieten Prozessüberwachung und bewerten einzelne Funktionen und Logikblöcke, um sicherzustellen, dass der Code effizient, sicher und wartbar ist.
  • Operations Research und visuelle Agenten: Jüngste Fortschritte in 2025 und 2026 haben PRMs über Text hinaus erweitert. Zum Beispiel nutzt Operations Research jetzt PRMs zur Validierung komplexer Planungsalgorithmen. Ebenso erhalten visuelle KI-Agenten, die mit robusten Computer Vision-Engines wie Ultralytics YOLO26 ausgestattet sind, schrittweise Belohnungen für die Navigation in physischen Umgebungen, anstatt nur eine einzige Belohnung für das Erreichen eines Ziels.

Link to this sectionImplementierung von schrittweisem Feedback#

Das Training eines PRM erfordert die Verwaltung umfangreicher Datensätze, bei denen jeder Unterschritt von Menschen oder stärkeren KI-Modellen bewertet wird. Die Verwaltung dieser intensiven Datenannotations-Workflows wird durch cloudbasierte Tools wie die Ultralytics Platform vereinfacht, die die Projektorganisation und Bereitstellung rationalisieren.

Während der Inferenz oder Modelloptimierung berechnet das PRM einen kumulativen Verlust oder eine Belohnung basierend auf der Kette von Schritten. Der folgende konzeptionelle Python-Schnipsel unter Verwendung von torch demonstriert, wie schrittweise Belohnungen bestraft werden, wenn ein Zwischenschritt fehlschlägt, ein häufiger Ansatz in der PyTorch-Dokumentation für die Sequenzbewertung:

import torch

# Simulate reward scores from a PRM for 3 consecutive reasoning steps
# Scores represent the probability of correctness for each step (0.0 to 1.0)
step_rewards = torch.tensor([0.95, 0.80, 0.15], requires_grad=True)

# The PRM aggregates the scores, heavily penalizing the poor 3rd step
# Negative log-likelihood is commonly used to optimize the trajectory
prm_loss = -torch.log(step_rewards).mean()

print(f"Calculated PRM Loss: {prm_loss.item():.4f}")
# During RLHF, this loss would guide hyperparameter tuning and model updates

Indem sichergestellt wird, dass jeder Zwischenschritt auf das erwartete Verhalten abgestimmt ist, können Entwickler hochzuverlässige Systeme bereitstellen. Die Kombination von prozessbasierter Überwachung mit kontinuierlichem Hyperparameter-Tuning ermöglicht es Modellen der nächsten Generation, Probleme wirklich sicher und effektiv zu durchdenken.

Explore solutions

Real-time AI tailored to your operation

KI in der Landwirtschaft

Nutze Vision-KI für die smarte Landwirtschaft mit Ultralytics YOLO-Modellen. Unterstütze Ernteüberwachung, Viehbestandverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Mehr erfahren
Real-time AI that works with your operation

KI in der Automobilindustrie

Nutze Computer Vision in der Automobilbranche mit Ultralytics YOLO Modellen. Vision AI verbessert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Mehr erfahren
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision-KI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Mehr erfahren
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO Modellen. Vision KI ermöglicht Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Mehr erfahren
Real-time AI that works with your team

KI in der Robotik

Mache Maschinen intelligenter mit Ultralytics YOLO Modellen. Vision KI in der Robotik ermöglicht autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung.

Mehr erfahren
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO Modellen. Vision KI ermöglicht Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien.

Mehr erfahren
Real-time AI that works with your team

KI in der Logistik

Optimiere deine Logistik mit Ultralytics YOLO Modellen. Vision KI ermöglicht Paketinspektion, Sortierung, Fahrzeugverfolgung und Sicherheitsüberwachung in Echtzeit im Lager.

Mehr erfahren
Real-time AI tailored to your operation

KI in der Landwirtschaft

Nutze Vision-KI für die smarte Landwirtschaft mit Ultralytics YOLO-Modellen. Unterstütze Ernteüberwachung, Viehbestandverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Mehr erfahren
Real-time AI that works with your operation

KI in der Automobilindustrie

Nutze Computer Vision in der Automobilbranche mit Ultralytics YOLO Modellen. Vision AI verbessert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Mehr erfahren
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision-KI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Mehr erfahren
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO Modellen. Vision KI ermöglicht Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Mehr erfahren
Real-time AI that works with your team

KI in der Robotik

Mache Maschinen intelligenter mit Ultralytics YOLO Modellen. Vision KI in der Robotik ermöglicht autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung.

Mehr erfahren
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO Modellen. Vision KI ermöglicht Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien.

Mehr erfahren
Real-time AI that works with your team

KI in der Logistik

Optimiere deine Logistik mit Ultralytics YOLO Modellen. Vision KI ermöglicht Paketinspektion, Sortierung, Fahrzeugverfolgung und Sicherheitsüberwachung in Echtzeit im Lager.

Mehr erfahren
Real-time AI tailored to your operation

KI in der Landwirtschaft

Nutze Vision-KI für die smarte Landwirtschaft mit Ultralytics YOLO-Modellen. Unterstütze Ernteüberwachung, Viehbestandverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Mehr erfahren
Real-time AI that works with your operation

KI in der Automobilindustrie

Nutze Computer Vision in der Automobilbranche mit Ultralytics YOLO Modellen. Vision AI verbessert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Mehr erfahren
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision-KI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Mehr erfahren
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO Modellen. Vision KI ermöglicht Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Mehr erfahren
Real-time AI that works with your team

KI in der Robotik

Mache Maschinen intelligenter mit Ultralytics YOLO Modellen. Vision KI in der Robotik ermöglicht autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung.

Mehr erfahren
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO Modellen. Vision KI ermöglicht Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien.

Mehr erfahren
Real-time AI that works with your team

KI in der Logistik

Optimiere deine Logistik mit Ultralytics YOLO Modellen. Vision KI ermöglicht Paketinspektion, Sortierung, Fahrzeugverfolgung und Sicherheitsüberwachung in Echtzeit im Lager.

Mehr erfahren

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens