Descubre cómo los modelos de recompensa por procesos (PRM) mejoran el razonamiento de la IA. Descubre cómo la retroalimentación por pasos en RLHF garantiza rutas lógicas y seguras para los modelos de lenguaje grande (LLM) y Ultralytics .
La evaluación de modelos complejos de inteligencia artificial requiere algo más que comprobar si la respuesta final es correcta. Una técnica altamente especializada de aprendizaje por refuerzo asigna puntuaciones matemáticas a cada paso intermedio que da la IA durante una tarea, lo que proporciona una retroalimentación detallada a nivel de cada paso. Este enfoque granular garantiza que el modelo no solo llegue al destino correcto, sino que también siga rutas lógicas, seguras y verificables para llegar hasta allí.
En el contexto más amplio del modelado por recompensas, es importante distinguir entre la supervisión basada en procesos y la basada en resultados. Los modelos tradicionales de recompensa por resultados (ORM) proporcionan una única recompensa, de escasa frecuencia, al final de cada generación. Aunque los ORM son más fáciles de entrenar, adolecen de un importante inconveniente en tareas complejas: pueden recompensar inadvertidamente a modelos que llegan a la respuesta correcta mediante una lógica errónea o alucinaciones.
Un modelo de recompensa por proceso (PRM) resuelve esto evaluando toda la trayectoria del razonamiento. Tal y como lo popularizó la investigación pionera de OpenAI en artículos como «Let's Verify Step by Step», un PRM aplica una supervisión paso a paso a cada pensamiento o acción. Este es un componente crítico de los flujos de trabajo avanzados de aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) , ya que guía activamente la optimización de políticas mediante algoritmos como la optimización de políticas proximales (PPO).
Los PRM están transformando la forma en que los modelos de lenguaje a gran escala (LLM) y los sistemas autónomos funcionan en entornos de alto riesgo:
El entrenamiento de un modelo de representación de relaciones (PRM) requiere gestionar grandes conjuntos de datos, en los que cada paso parcial es evaluado por personas o por modelos de IA más potentes. La gestión de estos intensivos flujos de trabajo de anotación de datos se simplifica con herramientas basadas en la nube como la Ultralytics , que agiliza la organización y la implementación de los proyectos.
Durante la inferencia o
optimización de modelos, el PRM
calcula una pérdida o recompensa acumulada basándose en la secuencia de pasos. El siguiente Python conceptual Python que utiliza
torch muestra cómo se penalizan las recompensas por pasos si falla un paso intermedio, un enfoque habitual
que se encuentra en el PyTorch para la puntuación de secuencias:
import torch
# Simulate reward scores from a PRM for 3 consecutive reasoning steps
# Scores represent the probability of correctness for each step (0.0 to 1.0)
step_rewards = torch.tensor([0.95, 0.80, 0.15], requires_grad=True)
# The PRM aggregates the scores, heavily penalizing the poor 3rd step
# Negative log-likelihood is commonly used to optimize the trajectory
prm_loss = -torch.log(step_rewards).mean()
print(f"Calculated PRM Loss: {prm_loss.item():.4f}")
# During RLHF, this loss would guide hyperparameter tuning and model updates
Al asegurarse de que cada paso intermedio se ajuste al comportamiento esperado, los desarrolladores pueden implementar sistemas altamente fiables. La combinación de la supervisión a nivel de proceso con el ajuste continuo de los hiperparámetros permite que los modelos de última generación analicen los problemas de forma segura y eficaz.
Comience su viaje con el futuro del aprendizaje automático