Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Modelado de recompensas

Explora el modelado de recompensas en el aprendizaje automático. Descubre cómo utiliza la retroalimentación humana para alinear los agentes de IA y los modelos Ultralytics con el fin de obtener un rendimiento más seguro y preciso.

El modelado de recompensas es una técnica de aprendizaje automático que se utiliza para enseñar a los sistemas de inteligencia artificial a evaluar y priorizar sus propios comportamientos basándose en las preferencias humanas. En los entornos tradicionales de aprendizaje por refuerzo, un agente de IA aprende maximizando una función de recompensa predefinida y matemáticamente rígida, como la puntuación en un videojuego. Sin embargo, para tareas complejas del mundo real en las que el «buen» comportamiento es subjetivo o matizado, como escribir un correo electrónico educado o cruzar una intersección con seguridad, escribir a mano una función de recompensa impecable es casi imposible. El modelado de recompensas resuelve este problema entrenando una red neuronal secundaria (el modelo de recompensa) para que actúe como proxy del juicio humano. Este modelo evalúa los resultados de la IA primaria y asigna puntuaciones escalares, guiando dinámicamente el modelo principal hacia comportamientos seguros, útiles y precisos.

Cómo funciona el modelo de recompensas

El proceso para crear un modelo de recompensas depende en gran medida de la recopilación de opiniones humanas de alta calidad.

  • Etiquetado de datos y preferencias: Los anotadores humanos reciben indicaciones junto con múltiples respuestas generadas por un modelo de IA. Los evaluadores clasifican estas respuestas de mejor a peor basándose en criterios como la utilidad, la inocuidad y la precisión. La gestión de estos flujos de trabajo de anotación a gran escala se puede llevar a cabo sin problemas utilizando Ultralytics .
  • Entrenamiento de la red proxy: se entrena una red neuronal especializada en este conjunto de datos de comparaciones humanas. A través de un proceso de optimización, aprende a predecir qué resultado preferiría un humano, mapeando las incrustaciones de una acción o respuesta de texto a un único valor de recompensa escalar. Puede obtener más información sobre la creación de arquitecturas de redes neuronales en la documentaciónPyTorch .
  • Optimización de políticas: El modelo primario utiliza la retroalimentación continua del modelo de recompensa para refinar sus acciones, utilizando típicamente algoritmos como la Optimización de Políticas Proximales (PPO). Este paso alinea iterativamente la política del modelo con la intención humana aprendida.

Modelado de recompensas frente a RLHF

Es importante diferenciar el modelado de recompensas del aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF). Aunque ambos términos se discuten con frecuencia juntos, no son sinónimos. El RLHF es el proceso integral de extremo a extremo que se utiliza para alinear los modelos, y que abarca el ajuste supervisado, la recopilación de datos y las actualizaciones de políticas. El modelado de recompensas es un componente específico y crucial dentro del proceso RLHF. Sirve como puente que traduce clasificaciones humanas discretas en una señal matemática continua que el algoritmo de aprendizaje por refuerzo puede optimizar.

Aplicaciones en el mundo real

El modelado de recompensas es fundamental para desarrollar sistemas modernos de IA que interactúen directamente con los seres humanos y el mundo físico .

  • Modelos de lenguaje grandes (LLM): Los asistentes de IA conversacionales se basan en modelos de recompensa para garantizar que sus respuestas no solo sean correctas desde el punto de vista factual, sino también educadas, relevantes y libres de lenguaje tóxico. Las organizaciones que exploran la seguridad de la IA avanzan continuamente en el modelado de recompensas para crear sistemas que reflejen una alineación de la IA útil e inofensiva.
  • Vehículos autónomos y robótica: En la automatización física, los modelos de recompensa ayudan a los robots a comprender estrategias complejas de etiqueta al volante o manipulación de objetos . Un sistema de percepción impulsado por Ultralytics podría detect y señales de tráfico , mientras que un modelo de recompensa evalúa la trayectoria prevista del vehículo, garantizando que la IA priorice la comodidad y la seguridad de los pasajeros por encima de una navegación de punto a punto puramente agresiva.

Implementación de un modelo básico de recompensas

El siguiente Python utiliza torch para demostrar la estructura fundamental de un modelo de recompensa. En la práctica, esta red aprende a asignar una puntuación escalar más alta a una salida que se alinea con las preferencias humanas.

import torch
import torch.nn as nn


# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
    def __init__(self):
        super().__init__()
        # Maps the AI's output embedding to a single reward score
        self.fc = nn.Linear(768, 1)

    def forward(self, embeddings):
        return self.fc(embeddings)


# Initialize the model
reward_model = SimpleRewardModel()

# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)

# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")

Para profundizar en cómo la alineación afecta a los modelos de base de código abierto, explore la investigación fundamental sobre la alineación de los modelos lingüísticos con la intención humana y descubra cómo los sistemas de visión artificial (CV) aprovechan los bucles de retroalimentación avanzados para interactuar de forma segura con entornos dinámicos.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora