Process Reward Model (PRM)
Explora cómo los modelos de recompensa de procesos (PRM) mejoran el razonamiento de la IA. Aprende cómo la retroalimentación a nivel de paso en RLHF garantiza rutas lógicas y seguras para LLMs y Ultralytics YOLO26.
Evaluar modelos complejos de inteligencia artificial requiere algo más que comprobar si la respuesta final es correcta. Una técnica altamente especializada de aprendizaje por refuerzo asigna puntuaciones matemáticas a cada paso intermedio que da una IA durante una tarea, proporcionando retroalimentación densa a nivel de paso. Este enfoque granular garantiza que el modelo no solo llegue al destino correcto, sino que también siga rutas lógicas, seguras y verificables para conseguirlo.
Link to this sectionModelos de recompensa de procesos frente a modelos de recompensa de resultados#
En el contexto más amplio del modelado de recompensa, es importante distinguir entre la supervisión basada en procesos y la basada en resultados. Los modelos de recompensa de resultados (ORM) tradicionales proporcionan una única recompensa dispersa al final de una generación. Aunque los ORM son más fáciles de entrenar, sufren un inconveniente importante en tareas complejas: pueden recompensar inadvertidamente a modelos que llegan a la respuesta correcta mediante una lógica defectuosa o alucinaciones.
Un modelo de recompensa de procesos (PRM) resuelve esto evaluando toda la trayectoria de razonamiento. Como se popularizó gracias a la investigación fundamental de OpenAI en artículos como Let's Verify Step by Step, un PRM aplica una supervisión paso a paso a cada pensamiento o acción. Este es un componente crítico de las canalizaciones avanzadas de Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF), ya que guía activamente la optimización de políticas mediante algoritmos como la Optimización de Política Proximal (PPO).
Link to this sectionAplicaciones en el mundo real#
Los PRM están transformando la forma en que operan los Grandes Modelos de Lenguaje (LLMs) y los sistemas autónomos en entornos de alto riesgo:
- Razonamiento matemático: Al evaluar las ecuaciones línea por línea, los PRM permiten a los modelos utilizar algoritmos como el muestreo Best-of-N (BoN) o la Búsqueda en árbol de Monte Carlo (MCTS) para explorar múltiples rutas de solución y seleccionar la secuencia lógicamente más sólida.
- Generación de código: Al generar software, simplemente comprobar si el script final se ejecuta es insuficiente. Los PRM proporcionan supervisión de procesos, puntuando funciones individuales y bloques lógicos para garantizar que el código sea eficiente, seguro y mantenible.
- Investigación operativa y agentes visuales: Los avances recientes en 2025 y 2026 han ampliado los PRM más allá del texto. Por ejemplo, la investigación operativa ahora utiliza PRM para validar algoritmos de programación complejos. De manera similar, los agentes de IA visuales equipados con motores robustos de visión artificial como Ultralytics YOLO26 reciben recompensas paso a paso por navegar en entornos físicos, en lugar de solo una recompensa única por llegar a un destino.
Link to this sectionImplementación de la retroalimentación a nivel de paso#
Entrenar un PRM requiere gestionar extensos conjuntos de datos donde cada subpaso es evaluado por humanos o modelos de IA más potentes. Gestionar estos flujos de trabajo intensivos de anotación de datos es más sencillo con herramientas basadas en la nube como la Plataforma Ultralytics, que simplifican la organización y el despliegue de proyectos.
Durante la inferencia o la optimización del modelo, el PRM calcula una pérdida o recompensa acumulada basada en la cadena de pasos. El siguiente fragmento conceptual de Python que utiliza torch demuestra cómo se penalizan las recompensas a nivel de paso si un paso intermedio falla, un enfoque común que se encuentra en la documentación de PyTorch para la puntuación de secuencias:
import torch
# Simulate reward scores from a PRM for 3 consecutive reasoning steps
# Scores represent the probability of correctness for each step (0.0 to 1.0)
step_rewards = torch.tensor([0.95, 0.80, 0.15], requires_grad=True)
# The PRM aggregates the scores, heavily penalizing the poor 3rd step
# Negative log-likelihood is commonly used to optimize the trajectory
prm_loss = -torch.log(step_rewards).mean()
print(f"Calculated PRM Loss: {prm_loss.item():.4f}")
# During RLHF, this loss would guide hyperparameter tuning and model updatesAl garantizar que cada paso intermedio esté alineado con el comportamiento esperado, los desarrolladores pueden desplegar sistemas altamente fiables. Combinar la supervisión a nivel de proceso con un ajuste de hiperparámetros continuo permite que los modelos de próxima generación razonen verdaderamente a través de los problemas de manera segura y eficaz.






