Explora el modelado de recompensas en el aprendizaje automático. Descubre cómo utiliza la retroalimentación humana para alinear los agentes de IA y los modelos Ultralytics con el fin de obtener un rendimiento más seguro y preciso.
El modelado de recompensas es una técnica de aprendizaje automático que se utiliza para enseñar a los sistemas de inteligencia artificial a evaluar y priorizar sus propios comportamientos basándose en las preferencias humanas. En los entornos tradicionales de aprendizaje por refuerzo, un agente de IA aprende maximizando una función de recompensa predefinida y matemáticamente rígida, como la puntuación en un videojuego. Sin embargo, para tareas complejas del mundo real en las que el «buen» comportamiento es subjetivo o matizado, como escribir un correo electrónico educado o cruzar una intersección con seguridad, escribir a mano una función de recompensa impecable es casi imposible. El modelado de recompensas resuelve este problema entrenando una red neuronal secundaria (el modelo de recompensa) para que actúe como proxy del juicio humano. Este modelo evalúa los resultados de la IA primaria y asigna puntuaciones escalares, guiando dinámicamente el modelo principal hacia comportamientos seguros, útiles y precisos.
El proceso para crear un modelo de recompensas depende en gran medida de la recopilación de opiniones humanas de alta calidad.
Es importante diferenciar el modelado de recompensas del aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF). Aunque ambos términos se discuten con frecuencia juntos, no son sinónimos. El RLHF es el proceso integral de extremo a extremo que se utiliza para alinear los modelos, y que abarca el ajuste supervisado, la recopilación de datos y las actualizaciones de políticas. El modelado de recompensas es un componente específico y crucial dentro del proceso RLHF. Sirve como puente que traduce clasificaciones humanas discretas en una señal matemática continua que el algoritmo de aprendizaje por refuerzo puede optimizar.
El modelado de recompensas es fundamental para desarrollar sistemas modernos de IA que interactúen directamente con los seres humanos y el mundo físico .
El siguiente Python utiliza torch para demostrar la estructura fundamental de un modelo de recompensa. En
la práctica, esta red aprende a asignar una puntuación escalar más alta a una salida que se alinea con las preferencias humanas.
import torch
import torch.nn as nn
# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
def __init__(self):
super().__init__()
# Maps the AI's output embedding to a single reward score
self.fc = nn.Linear(768, 1)
def forward(self, embeddings):
return self.fc(embeddings)
# Initialize the model
reward_model = SimpleRewardModel()
# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)
# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")
Para profundizar en cómo la alineación afecta a los modelos de base de código abierto, explore la investigación fundamental sobre la alineación de los modelos lingüísticos con la intención humana y descubra cómo los sistemas de visión artificial (CV) aprovechan los bucles de retroalimentación avanzados para interactuar de forma segura con entornos dinámicos.