Découvrez comment les modèles de récompense par processus (PRM) améliorent le raisonnement de l'IA. Découvrez comment le retour d'information par étape dans le RLHF garantit des trajectoires logiques et sûres pour les modèles de langage à grande échelle (LLM) et Ultralytics .
L'évaluation de modèles complexes d'intelligence artificielle ne se limite pas à vérifier si la réponse finale est correcte. Une technique hautement spécialisée d'apprentissage par renforcement attribue des notes mathématiques à chaque étape intermédiaire franchie par l'IA au cours d'une tâche, fournissant ainsi un retour d'information détaillé, étape par étape. Cette approche granulaire garantit que le modèle non seulement parvient à la bonne destination, mais suit également des chemins logiques, sûrs et vérifiables pour y arriver.
Dans le contexte plus large de la modélisation par récompense, il est important de faire la distinction entre la supervision basée sur le processus et celle basée sur le résultat. Les modèles traditionnels de récompense par résultat (ORM) fournissent une seule récompense, peu fréquente, à la toute fin d'une génération. Si les ORM sont plus faciles à entraîner, ils présentent un inconvénient majeur dans le cadre de tâches complexes : ils peuvent, sans le vouloir, récompenser des modèles qui parviennent à la bonne réponse par le biais d'une logique erronée ou d'hallucinations.
Un modèle de récompense par processus (PRM) résout ce problème en évaluant l'ensemble du parcours de raisonnement. Comme l'ont popularisé les travaux de recherche fondateurs d'OpenAI dans des articles tels que « Let's Verify Step by Step », un PRM applique une supervision par étapes à chaque pensée ou action. Il s'agit d'un élément essentiel des pipelines avancés d'apprentissage par renforcement à partir du retour d'information humain (RLHF) , car il guide activement l'optimisation des politiques à l'aide d'algorithmes tels que l'optimisation proximale des politiques (PPO).
Les PRM transforment la manière dont les grands modèles linguistiques (LLM) et les systèmes autonomes fonctionnent dans des environnements à enjeux élevés :
L'entraînement d'un modèle de langage de generation-to-text (PRM) nécessite la gestion d'ensembles de données volumineux, chaque étape étant évaluée par des humains ou par des modèles d'IA plus performants. La gestion de ces processus intensifs d'annotation des données est simplifiée grâce à des outils basés sur le cloud tels que la Ultralytics , qui optimisent l'organisation et le déploiement des projets.
Pendant l'inférence ou
optimisation de modèles, le PRM
calcule une perte ou une récompense cumulative en fonction de la chaîne d'étapes. Python conceptuel suivant, utilisant
torch montre comment les récompenses attribuées à chaque étape sont perdues si une étape intermédiaire échoue, une approche courante
que l'on retrouve dans le PyTorch pour l'évaluation des séquences :
import torch
# Simulate reward scores from a PRM for 3 consecutive reasoning steps
# Scores represent the probability of correctness for each step (0.0 to 1.0)
step_rewards = torch.tensor([0.95, 0.80, 0.15], requires_grad=True)
# The PRM aggregates the scores, heavily penalizing the poor 3rd step
# Negative log-likelihood is commonly used to optimize the trajectory
prm_loss = -torch.log(step_rewards).mean()
print(f"Calculated PRM Loss: {prm_loss.item():.4f}")
# During RLHF, this loss would guide hyperparameter tuning and model updates
En s'assurant que chaque étape intermédiaire correspond au comportement attendu, les développeurs peuvent déployer des systèmes hautement fiables. La combinaison d'une supervision au niveau des processus et d'un ajustement continu des hyperparamètres permet aux modèles de nouvelle génération d'analyser véritablement les problèmes de manière sûre et efficace.
Commencez votre parcours avec l'avenir de l'apprentissage automatique