Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF)

Explore how Reinforcement Learning from Human Feedback (RLHF) aligns AI models with human values. Learn about reward modeling and perception using [YOLO26](https://docs.ultralytics.com/models/yolo26/).

Reinforcement Learning from Human Feedback (RLHF) is an advanced machine learning technique that refines artificial intelligence models by incorporating direct human input into the training loop. Unlike standard supervised learning, which relies solely on static labeled datasets, RLHF introduces a dynamic feedback mechanism where human evaluators rank or rate the model's outputs. This process allows the AI to capture complex, subjective, or nuanced goals—such as "helpfulness," "safety," or "creativity"—that are difficult to define with a simple mathematical loss function. RLHF has become a cornerstone in the development of modern large language models (LLMs) and generative AI, ensuring that powerful foundation models align effectively with human values and user intent.

Los componentes básicos de RLHF

El proceso RLHF sigue generalmente un proceso de tres pasos diseñado para salvar la brecha entre las capacidades predictivas en bruto y el comportamiento alineado con el humano.

  1. Ajuste fino supervisado (SFT): El flujo de trabajo suele comenzar con un modelo base preentrenado. Los desarrolladores realizan un ajuste fino inicial utilizando un conjunto de datos más pequeño y de alta calidad de demostraciones (por ejemplo, pares de preguntas y respuestas escritas por expertos). Este paso establece una política de referencia, enseñando al modelo el formato general y el tono que se espera para la tarea.
  2. Reward Model Training: This phase is the distinguishing feature of RLHF. Human annotators review multiple outputs generated by the model for the same input and rank them from best to worst. This data labeling effort generates a dataset of preferences. A separate neural network, called the reward model, is trained on this comparison data to predict a scalar score that reflects human judgment. Tools available on the Ultralytics Platform can streamline the management of such annotation workflows.
  3. Reinforcement Learning Optimization: Finally, the original model acts as an AI agent within a reinforcement learning environment. Using the reward model as a guide, optimization algorithms like Proximal Policy Optimization (PPO) adjust the model's parameters to maximize the expected reward. This step aligns the model's policy with the learned human preferences, encouraging behaviors that are helpful and safe while discouraging toxic or nonsensical outputs.

Aplicaciones en el mundo real

RLHF has proven critical in deploying AI systems that require high safety standards and a nuanced understanding of human interaction.

  • IA conversacional y chatbots: La aplicación más destacada del RLHF es la de alinear los chatbots para que sean útiles, inofensivos y honestos. Al penalizar los resultados sesgados, incorrectos desde el punto de vista factual o peligrosos, el RLHF ayuda a mitigar las alucinaciones en los LLM y reduce el riesgo de sesgo algorítmico. Esto garantiza que los asistentes virtuales puedan rechazar instrucciones perjudiciales sin dejar de ser útiles para consultas legítimas.
  • Robótica y control físico: RLHF va más allá del texto y se extiende a la IA en robótica, donde definir una función de recompensa perfecta para tareas físicas complejas es todo un reto. Por ejemplo, un robot que aprende a navegar por un almacén abarrotado puede recibir comentarios de supervisores humanos sobre qué trayectorias eran seguras y cuáles causaban interrupciones. Estos comentarios refinan la política de control del robot de forma más eficaz que el simple aprendizaje profundo por refuerzo basado únicamente en la consecución de objetivos.

RLHF frente al aprendizaje por refuerzo estándar

Es útil distinguir el RLHF del aprendizaje por refuerzo tradicional (RL) para comprender su utilidad específica.

  • RL estándar: En entornos tradicionales, la función de recompensa suele estar codificada de forma rígida por el entorno. Por ejemplo, en un videojuego, el entorno proporciona una señal clara (+1 por una victoria, -1 por una derrota). El agente optimiza sus acciones dentro de este proceso de decisión de Markov (MDP) definido.
  • RLHF: En muchos escenarios del mundo real, como escribir una historia creativa o conducir con educación, el «éxito» es subjetivo. RLHF resuelve esto sustituyendo la recompensa codificada por un modelo de recompensa aprendido derivado de las preferencias humanas. Esto permite optimizar conceptos abstractos como «calidad» o «adecuación», que son imposibles de programar explícitamente.

Integración de la percepción con bucles de retroalimentación

En aplicaciones visuales, los agentes alineados con RLHF suelen basarse en la visión por ordenador (CV) para percibir el estado de su entorno antes de actuar. Un detector robusto, como YOLO26, funciona como capa de percepción, proporcionando observaciones estructuradas (por ejemplo, «obstáculo detectado a 3 metros») que la red de políticas utiliza para seleccionar una acción.

The following Python example illustrates a simplified concept where a YOLO model provides the environmental state. In a full RLHF loop, the "reward" signal would come from a model trained on human feedback regarding the agent's decisions based on this detection data.

from ultralytics import YOLO

# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")

# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")

# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)

print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.

Al combinar potentes modelos de percepción con políticas perfeccionadas a través de la retroalimentación humana, los desarrolladores pueden crear sistemas que no solo sean inteligentes, sino que también se ajusten rigurosamente a los principios de seguridad de la IA. La investigación en curso sobre la supervisión escalable, como la IA constitucional, sigue evolucionando en este campo, con el objetivo de reducir el cuello de botella de la anotación humana a gran escala, al tiempo que se mantiene un alto rendimiento del modelo.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora