Process Reward Model (PRM)
Découvre comment les Process Reward Models (PRM) améliorent le raisonnement de l'IA. Apprends comment le feedback au niveau des étapes dans le RLHF garantit des chemins logiques et sûrs pour les LLM et Ultralytics YOLO26.
L'évaluation de modèles d'intelligence artificielle complexes nécessite plus qu'une simple vérification de la justesse de la réponse finale. Une technique de reinforcement learning hautement spécialisée attribue des scores mathématiques à chaque étape intermédiaire qu'une IA effectue au cours d'une tâche, fournissant un dense, step-level feedback. Cette approche granulaire garantit que le modèle atteint non seulement la bonne destination, mais suit également des chemins logiques, sûrs et vérifiables pour y parvenir.
Link to this sectionProcess Reward Models vs. Outcome Reward Models#
Dans le contexte plus large du Reward Modeling, il est important de distinguer la supervision basée sur le processus de celle basée sur le résultat. Les Outcome Reward Models (ORM) traditionnels fournissent une récompense unique et éparse à la toute fin d'une génération. Bien que les ORM soient plus faciles à entraîner, ils souffrent d'un inconvénient majeur pour les tâches complexes : ils peuvent par inadvertance récompenser des modèles qui arrivent à la bonne réponse grâce à une logique défaillante ou à des hallucinations.
Un Process Reward Model (PRM) résout ce problème en évaluant l'intégralité de la trajectoire de raisonnement. Comme popularisé par la recherche OpenAI fondamentale dans des articles tels que Let's Verify Step by Step, un PRM applique une stepwise supervision à chaque pensée ou action. C'est un composant essentiel des pipelines de Reinforcement Learning from Human Feedback (RLHF) avancés, car il guide activement l'optimisation de la politique à l'aide d'algorithmes tels que Proximal Policy Optimization (PPO).
Link to this sectionApplications concrètes#
Les PRM transforment la manière dont les Large Language Models (LLM) et les systèmes autonomes fonctionnent dans des environnements à enjeux élevés :
- Mathematical Reasoning : En évaluant les équations ligne par ligne, les PRM permettent aux modèles d'utiliser des algorithmes comme le Best-of-N (BoN) sampling ou le Monte Carlo Tree Search (MCTS) pour explorer plusieurs chemins de solution et sélectionner la séquence la plus logiquement cohérente.
- Code Generation : Lors de la génération de logiciels, vérifier simplement si le script final s'exécute est insuffisant. Les PRM fournissent une supervision de processus, notant les fonctions individuelles et les blocs logiques pour garantir que le code est efficace, sécurisé et maintenable.
- Operations Research and Visual Agents : Les avancées récentes en 2025 et 2026 ont étendu les PRM au-delà du texte. Par exemple, la recherche opérationnelle utilise désormais des PRM pour valider des algorithmes d'ordonnancement complexes. De même, les AI agents visuels équipés de moteurs de computer vision robustes comme Ultralytics YOLO26 reçoivent des récompenses étape par étape pour la navigation dans des environnements physiques, plutôt qu'une simple récompense unique pour atteindre une destination.
Link to this sectionMise en œuvre du feedback au niveau des étapes#
L'entraînement d'un PRM nécessite de gérer des jeux de données étendus où chaque sous-étape est évaluée par des humains ou par des modèles d'IA plus puissants. La gestion de ces flux de travail intensifs de data annotation est simplifiée avec des outils cloud comme la Ultralytics Platform, qui rationalisent l'organisation et le déploiement de projets.
Pendant l'inférence ou l'model optimization, le PRM calcule une perte ou une récompense cumulative basée sur la chaîne d'étapes. L'extrait conceptuel Python suivant utilisant torch démontre comment les récompenses au niveau des étapes sont pénalisées si une étape intermédiaire échoue, une approche courante trouvée dans la PyTorch documentation pour le scoring de séquence :
import torch
# Simulate reward scores from a PRM for 3 consecutive reasoning steps
# Scores represent the probability of correctness for each step (0.0 to 1.0)
step_rewards = torch.tensor([0.95, 0.80, 0.15], requires_grad=True)
# The PRM aggregates the scores, heavily penalizing the poor 3rd step
# Negative log-likelihood is commonly used to optimize the trajectory
prm_loss = -torch.log(step_rewards).mean()
print(f"Calculated PRM Loss: {prm_loss.item():.4f}")
# During RLHF, this loss would guide hyperparameter tuning and model updatesEn garantissant que chaque étape intermédiaire est alignée sur le comportement attendu, tu peux déployer des systèmes hautement fiables. Combiner la supervision au niveau du processus avec un hyperparameter tuning continu permet aux modèles de nouvelle génération de véritablement raisonner sur les problèmes de manière sûre et efficace.






