Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF)
Explore how Reinforcement Learning from Human Feedback (RLHF) aligns AI models with human values. Learn about reward modeling and perception using [YOLO26](https://docs.ultralytics.com/models/yolo26/).
Reinforcement Learning from Human Feedback (RLHF) is an advanced machine learning technique that refines artificial
intelligence models by incorporating direct human input into the training loop. Unlike standard
supervised learning, which relies solely on
static labeled datasets, RLHF introduces a dynamic feedback mechanism where human evaluators rank or rate the model's
outputs. This process allows the AI to capture complex, subjective, or nuanced goals—such as "helpfulness,"
"safety," or "creativity"—that are difficult to define with a simple mathematical loss function.
RLHF has become a cornerstone in the development of modern
large language models (LLMs) and
generative AI, ensuring that powerful foundation models align effectively with human values and user intent.
Los componentes básicos de RLHF
El proceso RLHF sigue generalmente un proceso de tres pasos diseñado para salvar la brecha entre las capacidades predictivas en bruto
y el comportamiento alineado con el humano.
-
Ajuste fino supervisado (SFT): El flujo de trabajo suele comenzar con un
modelo base preentrenado. Los desarrolladores realizan un
ajuste fino inicial utilizando un conjunto de datos más pequeño y de alta calidad de
demostraciones (por ejemplo, pares de preguntas y respuestas escritas por expertos). Este paso establece una política de referencia, enseñando
al modelo el formato general y el tono que se espera para la tarea.
-
Reward Model Training: This phase is the distinguishing feature of RLHF. Human annotators review
multiple outputs generated by the model for the same input and rank them from best to worst. This
data labeling effort generates a dataset of
preferences. A separate neural network, called
the reward model, is trained on this comparison data to predict a scalar score that reflects human judgment. Tools
available on the Ultralytics Platform can streamline the management
of such annotation workflows.
-
Reinforcement Learning Optimization: Finally, the original model acts as an
AI agent within a reinforcement learning environment.
Using the reward model as a guide, optimization algorithms like Proximal Policy Optimization (PPO) adjust the
model's parameters to maximize the expected reward. This step aligns the model's policy with the learned human
preferences, encouraging behaviors that are helpful and safe while discouraging toxic or nonsensical outputs.
Aplicaciones en el mundo real
RLHF has proven critical in deploying AI systems that require high safety standards and a nuanced understanding of
human interaction.
-
IA conversacional y chatbots: La aplicación más destacada del RLHF es la de alinear los chatbots para que
sean útiles, inofensivos y honestos. Al penalizar los resultados sesgados, incorrectos desde el punto de vista factual o peligrosos, el RLHF
ayuda a mitigar las alucinaciones en los LLM y
reduce el riesgo de sesgo algorítmico. Esto
garantiza que los asistentes virtuales puedan rechazar instrucciones perjudiciales sin dejar de ser útiles para consultas legítimas.
-
Robótica y control físico: RLHF va más allá del texto y se extiende a la
IA en robótica, donde definir una función de recompensa perfecta
para tareas físicas complejas es todo un reto. Por ejemplo, un robot que aprende a navegar por un almacén abarrotado
puede recibir comentarios de supervisores humanos sobre qué trayectorias eran seguras y cuáles causaban interrupciones.
Estos comentarios refinan la política de control del robot de forma más eficaz que el simple
aprendizaje profundo por refuerzo basado
únicamente en la consecución de objetivos.
RLHF frente al aprendizaje por refuerzo estándar
Es útil distinguir el RLHF del aprendizaje por refuerzo tradicional
(RL) para comprender
su utilidad específica.
-
RL estándar: En entornos tradicionales, la función de recompensa suele estar codificada de forma rígida por el entorno.
Por ejemplo, en un videojuego, el entorno proporciona una señal clara (+1 por una victoria, -1 por una derrota). El agente
optimiza sus acciones dentro de este
proceso de decisión de Markov (MDP) definido.
-
RLHF: En muchos escenarios del mundo real, como escribir una historia creativa o conducir con educación,
el «éxito» es subjetivo. RLHF resuelve esto sustituyendo la recompensa codificada por un modelo de recompensa aprendido
derivado de las preferencias humanas. Esto permite optimizar conceptos abstractos como «calidad» o
«adecuación», que son imposibles de programar explícitamente.
Integración de la percepción con bucles de retroalimentación
En aplicaciones visuales, los agentes alineados con RLHF suelen basarse en
la visión por ordenador (CV) para percibir el estado de
su entorno antes de actuar. Un detector robusto, como
YOLO26, funciona como capa de percepción, proporcionando
observaciones estructuradas (por ejemplo, «obstáculo detectado a 3 metros») que la red de políticas utiliza para seleccionar una
acción.
The following Python example illustrates a simplified concept where a YOLO model provides the environmental state. In
a full RLHF loop, the "reward" signal would come from a model trained on human feedback regarding the
agent's decisions based on this detection data.
from ultralytics import YOLO
# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")
# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")
# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)
print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.
Al combinar potentes modelos de percepción con políticas perfeccionadas a través de la retroalimentación humana, los desarrolladores pueden crear sistemas que
no solo sean inteligentes, sino que también se ajusten rigurosamente a los
principios de seguridad de la IA. La investigación en curso sobre la
supervisión escalable, como la
IA constitucional,
sigue evolucionando en este campo, con el objetivo de reducir el cuello de botella de la anotación humana a gran escala, al tiempo que se mantiene un alto
rendimiento del modelo.