Reward Modeling
Explora el modelado de recompensas en aprendizaje automático. Aprende cómo utiliza la retroalimentación humana para alinear a los agentes de IA y a los modelos de Ultralytics YOLO26 para obtener un rendimiento más seguro y preciso.
El modelado de recompensas es una técnica de aprendizaje automático que se utiliza para enseñar a los sistemas de inteligencia artificial a evaluar y priorizar sus propios comportamientos en función de las preferencias humanas. En los entornos tradicionales de aprendizaje por refuerzo, un agente de IA aprende maximizando una función de recompensa rígida y predefinida matemáticamente, como la puntuación en un videojuego. Sin embargo, para tareas complejas del mundo real donde el comportamiento "bueno" es subjetivo o matizado —como escribir un correo electrónico educado o navegar por un cruce de forma segura—, escribir una función de recompensa perfecta a mano es casi imposible. El modelado de recompensas resuelve esto entrenando una red neuronal secundaria (el modelo de recompensa) para que actúe como un proxy del juicio humano. Este modelo evalúa las salidas de la IA principal y asigna puntuaciones escalares, guiando dinámicamente al modelo principal hacia comportamientos seguros, útiles y precisos.
Link to this sectionCómo funciona el modelado de recompensas#
El proceso para construir un modelo de recompensa depende en gran medida de la recopilación de retroalimentación humana de alta calidad.
- Etiquetado de datos y preferencias: A los anotadores humanos se les presentan indicaciones junto con múltiples respuestas generadas por un modelo de IA. Los evaluadores clasifican estas respuestas de mejor a peor basándose en criterios como utilidad, inocuidad y precisión. La gestión de estos flujos de trabajo de anotación a gran escala se puede realizar sin problemas utilizando la Plataforma Ultralytics.
- Entrenamiento de la red proxy: Se entrena una red neuronal especializada en este conjunto de datos de comparaciones humanas. A través de un proceso de optimización, aprende a predecir qué salida preferiría un humano, mapeando los embeddings de una acción o respuesta de texto a un valor de recompensa escalar único. Puedes leer más sobre la construcción de arquitecturas de redes neuronales en la documentación de la API de PyTorch.
- Optimización de políticas: El modelo principal utiliza la retroalimentación continua del modelo de recompensa para refinar sus acciones, normalmente utilizando algoritmos como Optimización de Política Proximal (PPO). Este paso alinea de forma iterativa la política del modelo con la intención humana aprendida.
Link to this sectionModelado de recompensas vs. RLHF#
Es importante diferenciar el modelado de recompensas del Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF). Aunque ambos términos se discuten a menudo juntos, no son sinónimos. RLHF es el proceso completo de extremo a extremo utilizado para alinear modelos, que abarca el ajuste supervisado, la recopilación de datos y las actualizaciones de políticas. El modelado de recompensas es un componente específico y crucial dentro del proceso de RLHF. Sirve como puente que traduce las clasificaciones humanas discretas en una señal matemática continua que el algoritmo de aprendizaje por refuerzo puede optimizar.
Link to this sectionAplicaciones en el mundo real#
El modelado de recompensas es fundamental para desarrollar sistemas de IA modernos que interactúan directamente con los humanos y el mundo físico.
- Modelos de lenguaje grandes (LLM): Los asistentes de IA conversacional dependen de modelos de recompensa para garantizar que sus respuestas no solo sean factualmente correctas, sino también educadas, relevantes y libres de lenguaje tóxico. Las organizaciones que exploran la seguridad de la IA avanzan continuamente en el modelado de recompensas para construir sistemas que reflejen una alineación de IA útil e inofensiva.
- Vehículos autónomos y robótica: En la automatización física, los modelos de recompensa ayudan a los robots a comprender la etiqueta de conducción compleja o las estrategias de manipulación de objetos. Un sistema de percepción potenciado por Ultralytics YOLO26 podría detectar peatones y señales de tráfico, mientras que un modelo de recompensa evalúa la trayectoria planificada del vehículo, asegurando que la IA priorice la comodidad y seguridad de los pasajeros sobre una navegación punto a punto puramente agresiva.
Link to this sectionImplementación de un concepto básico de modelo de recompensa#
El siguiente ejemplo en Python utiliza torch para demostrar la estructura fundamental de un modelo de recompensa. En la práctica, esta red aprende a asignar una puntuación escalar más alta a una salida que se alinea con las preferencias humanas.
import torch
import torch.nn as nn
# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
def __init__(self):
super().__init__()
# Maps the AI's output embedding to a single reward score
self.fc = nn.Linear(768, 1)
def forward(self, embeddings):
return self.fc(embeddings)
# Initialize the model
reward_model = SimpleRewardModel()
# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)
# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")Para profundizar en cómo la alineación afecta a los modelos base de código abierto, explora la investigación fundamental sobre la alineación de modelos de lenguaje con la intención humana y aprende cómo los sistemas de visión artificial (CV) aprovechan los bucles de retroalimentación avanzados para interactuar de forma segura con entornos dinámicos.






