Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF)
Descubra cómo el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) refina el rendimiento de la IA al alinear los modelos con los valores humanos para una IA más segura e inteligente.
El Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) es un sofisticado marco en
aprendizaje automático (AM) que alinea
sistemas de inteligencia artificial (IA)
con los valores, las preferencias y las intenciones humanas. A diferencia del
supervisado tradicional, que entrena modelos para
RLHF introduce un bucle de retroalimentación dinámico en el que los evaluadores humanos clasifican los resultados de los modelos. Estos
Esta clasificación se utiliza para entrenar un "modelo de recompensa", que posteriormente guía a la IA para generar respuestas más útiles, seguras y precisas,
respuestas más útiles, seguras y precisas. Esta técnica ha demostrado ser esencial para el desarrollo de los modernos
grandes modelos lingüísticos (LLM) y la
y la IA generativa, garantizando que los
de base actúen de acuerdo con las expectativas del usuario en lugar de limitarse a predecir estadísticamente la siguiente palabra o píxel.
El flujo de trabajo RLHF
El proceso de alineación de un modelo mediante RLHF suele seguir un proceso de tres pasos que salva la distancia entre la capacidad predictiva bruta y la interacción humana matizada.
capacidad predictiva bruta y la interacción humana matizada.
-
Ajuste fino supervisado (SFT): El proceso suele comenzar con un modelo
preentrenado. Los desarrolladores utilizan
el ajuste fino en un conjunto de datos más pequeño y de alta calidad de ejemplos curados (como diálogos o demostraciones) para enseñar al modelo el formato básico del formato deseado.
(como diálogos o demostraciones) para enseñar al modelo el formato básico de la tarea deseada.
-
Formación de modelos de recompensa: Este es el núcleo de RLHF. Los anotadores humanos revisan los múltiples resultados
por el modelo para la misma entrada y los clasifican de mejor a peor. Este proceso de etiquetado de datos en
proceso de etiquetado de datos crea un conjunto de
preferencias. Una red neuronal independiente
modelo de recompensa, se entrena con estos datos comparativos para predecir una puntuación de recompensa escalar que imita el juicio humano.
-
Optimización del aprendizaje por refuerzo: El modelo original se convierte en un
agente de IA en un
en un entorno de aprendizaje por refuerzo. Utilizando
el modelo de recompensa como guía, algoritmos como
Optimización de Política Próxima (PPO)
ajustan los parámetros del agente para maximizar la recompensa esperada. Este paso altera fundamentalmente la política del modelo para
del modelo para favorecer acciones -como el rechazo cortés de consultas perjudiciales- que se ajusten a las preferencias humanas aprendidas.
RLHF frente al aprendizaje por refuerzo estándar
Aunque ambos enfoques se basan en maximizar una recompensa, la fuente de esa recompensa los diferencia significativamente.
-
Aprendizaje por refuerzo (RL) estándar: En el RL tradicional, la función de recompensa suele estar codificada o definida matemáticamente por el entorno.
definida matemáticamente por el entorno. Por ejemplo, en una partida de ajedrez, el entorno proporciona una señal clara
clara: +1 por victoria, -1 por derrota. El agente aprende por ensayo y error dentro de este marco definido.
Proceso de decisión de Markov (MDP).
-
RLHF: En muchas tareas del mundo real, como escribir un resumen o conducir un coche educadamente, es imposible definir explícitamente una fórmula matemática de "éxito".
fórmula matemática del "éxito" es imposible de definir explícitamente. RLHF lo resuelve sustituyendo la recompensa
recompensa por un modelo de recompensa aprendido derivado de la retroalimentación humana. Esto permite optimizar conceptos abstractos
como "utilidad" o "seguridad", que son difíciles de programar directamente.
Aplicaciones en el mundo real
El RLHF ha transformado la forma en que los sistemas de IA interactúan con el mundo, especialmente en ámbitos que requieren altos niveles de seguridad
y una comprensión matizada.
-
IA conversacional y chatbots: El uso más destacado de RLHF es alinear los chatbots para que sean
útiles e inofensivos. Al penalizar los mensajes tóxicos, tendenciosos o incorrectos, RLHF ayuda a mitigar la
alucinación en los LLM y reduce
el sesgo algorítmico. Garantiza que los asistentes puedan
rechazar instrucciones peligrosas sin dejar de ser útiles para consultas legítimas.
-
Robótica y agentes autónomos: Más allá del texto, RLHF se aplica en
robótica para enseñar a los agentes tareas físicas complejas. En
Por ejemplo, un brazo robótico que aprende a agarrar objetos frágiles puede recibir información de supervisores humanos sobre qué intentos de agarre fueron seguros y cuáles fracasaron.
intentos de agarre fueron seguros frente a los distintos fracasos. Esta retroalimentación perfecciona la política de control con más eficacia que el simple
aprendizaje por refuerzo profundo
basado únicamente en la finalización de la tarea. Métodos similares ayudan a los
a los vehículos autónomos a aprender
de conducción que resulten naturales a los pasajeros humanos.
Integración de la percepción con el RLHF
En las aplicaciones visuales, los agentes RLHF a menudo se basan en
visión por ordenador (CV) para percibir el estado de
su entorno. Un detector robusto, como YOLO11puede
funcionar como los "ojos" del sistema, proporcionando observaciones estructuradas (por ejemplo, "peatón detectado a la izquierda") que la red de políticas utiliza para seleccionar una acción.
izquierda") que la red de políticas utiliza para seleccionar una acción.
El siguiente ejemplo ilustra un concepto simplificado en el que un modelo YOLO proporciona el estado del entorno para un
agente. En un bucle RLHF completo, la "recompensa" vendría determinada por un modelo entrenado en las preferencias humanas
sobre la confianza o la precisión del agente.
from ultralytics import YOLO
# Load YOLO11 to act as the perception layer for an RL agent
model = YOLO("yolo11n.pt")
# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")
# In an RL loop, the agent's 'reward' might depend on detecting critical objects
# Here, we simulate a simple reward based on the confidence of detections
# In RLHF, this reward function would be a complex learned model
observed_reward = sum(box.conf.item() for box in results[0].boxes)
print(f"Agent Observation: Detected {len(results[0].boxes)} objects.")
print(f"Simulated Reward Signal: {observed_reward:.2f}")
Mediante la combinación de potentes modelos de percepción con políticas alineadas a través de la retroalimentación humana, los desarrolladores pueden construir sistemas que
no sólo son inteligentes, sino que también se comprueba rigurosamente su seguridad.
seguridad de la IA. La investigación sobre supervisión escalable, como
IA constitucional,
sigue haciendo evolucionar este campo, con el objetivo de reducir la gran dependencia de la anotación humana a gran escala.