Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Modèle de récompense par processus (PRM)

Découvrez comment les modèles de récompense par processus (PRM) améliorent le raisonnement de l'IA. Découvrez comment le retour d'information par étape dans le RLHF garantit des trajectoires logiques et sûres pour les modèles de langage à grande échelle (LLM) et Ultralytics .

L'évaluation de modèles complexes d'intelligence artificielle ne se limite pas à vérifier si la réponse finale est correcte. Une technique hautement spécialisée d'apprentissage par renforcement attribue des notes mathématiques à chaque étape intermédiaire franchie par l'IA au cours d'une tâche, fournissant ainsi un retour d'information détaillé, étape par étape. Cette approche granulaire garantit que le modèle non seulement parvient à la bonne destination, mais suit également des chemins logiques, sûrs et vérifiables pour y arriver.

Modèles de récompense axés sur le processus vs modèles de récompense axés sur les résultats

Dans le contexte plus large de la modélisation par récompense, il est important de faire la distinction entre la supervision basée sur le processus et celle basée sur le résultat. Les modèles traditionnels de récompense par résultat (ORM) fournissent une seule récompense, peu fréquente, à la toute fin d'une génération. Si les ORM sont plus faciles à entraîner, ils présentent un inconvénient majeur dans le cadre de tâches complexes : ils peuvent, sans le vouloir, récompenser des modèles qui parviennent à la bonne réponse par le biais d'une logique erronée ou d'hallucinations.

Un modèle de récompense par processus (PRM) résout ce problème en évaluant l'ensemble du parcours de raisonnement. Comme l'ont popularisé les travaux de recherche fondateurs d'OpenAI dans des articles tels que « Let's Verify Step by Step », un PRM applique une supervision par étapes à chaque pensée ou action. Il s'agit d'un élément essentiel des pipelines avancés d'apprentissage par renforcement à partir du retour d'information humain (RLHF) , car il guide activement l'optimisation des politiques à l'aide d'algorithmes tels que l'optimisation proximale des politiques (PPO).

Applications concrètes

Les PRM transforment la manière dont les grands modèles linguistiques (LLM) et les systèmes autonomes fonctionnent dans des environnements à enjeux élevés :

  • Raisonnement mathématique: en évaluant les équations ligne par ligne, les PRM permettent aux modèles d'utiliser des algorithmes tels que l'échantillonnage « Best-of-N » (BoN) ou la recherche arborescente de Monte Carlo (MCTS) pour explorer plusieurs chemins de solution et sélectionner la séquence la plus logique.
  • Génération de code: lors de la génération d'un logiciel, il ne suffit pas de vérifier simplement si le script final s'exécute. Les PRM assurent la supervision du processus en évaluant chaque fonction et chaque bloc logique afin de garantir que le code est efficace, sécurisé et facile à maintenir.
  • Recherche opérationnelle et agents visuels: les progrès récents en 2025 et 2026 ont permis d'étendre l'utilisation des modèles de récompense probabilistes (PRM) au-delà du texte. Par exemple, la recherche opérationnelle utilise désormais les PRM pour valider des algorithmes de planification complexes. De même, les agents visuels d'IA équipés de moteurs de vision par ordinateur robustes tels que Ultralytics reçoivent des récompenses étape par étape pour leur navigation dans des environnements physiques, plutôt qu'une simple récompense unique pour avoir atteint une destination.

Mise en place d'un système de retour d'information par étape

L'entraînement d'un modèle de langage de generation-to-text (PRM) nécessite la gestion d'ensembles de données volumineux, chaque étape étant évaluée par des humains ou par des modèles d'IA plus performants. La gestion de ces processus intensifs d'annotation des données est simplifiée grâce à des outils basés sur le cloud tels que la Ultralytics , qui optimisent l'organisation et le déploiement des projets.

Pendant l'inférence ou optimisation de modèles, le PRM calcule une perte ou une récompense cumulative en fonction de la chaîne d'étapes. Python conceptuel suivant, utilisant torch montre comment les récompenses attribuées à chaque étape sont perdues si une étape intermédiaire échoue, une approche courante que l'on retrouve dans le PyTorch pour l'évaluation des séquences :

import torch

# Simulate reward scores from a PRM for 3 consecutive reasoning steps
# Scores represent the probability of correctness for each step (0.0 to 1.0)
step_rewards = torch.tensor([0.95, 0.80, 0.15], requires_grad=True)

# The PRM aggregates the scores, heavily penalizing the poor 3rd step
# Negative log-likelihood is commonly used to optimize the trajectory
prm_loss = -torch.log(step_rewards).mean()

print(f"Calculated PRM Loss: {prm_loss.item():.4f}")
# During RLHF, this loss would guide hyperparameter tuning and model updates

En s'assurant que chaque étape intermédiaire correspond au comportement attendu, les développeurs peuvent déployer des systèmes hautement fiables. La combinaison d'une supervision au niveau des processus et d'un ajustement continu des hyperparamètres permet aux modèles de nouvelle génération d'analyser véritablement les problèmes de manière sûre et efficace.

Construisons ensemble l'avenir de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique