Aprendizado por Reforço a partir de Feedback Humano (RLHF)
Explore how Reinforcement Learning from Human Feedback (RLHF) aligns AI models with human values. Learn about reward modeling and perception using [YOLO26](https://docs.ultralytics.com/models/yolo26/).
Reinforcement Learning from Human Feedback (RLHF) is an advanced machine learning technique that refines artificial
intelligence models by incorporating direct human input into the training loop. Unlike standard
supervised learning, which relies solely on
static labeled datasets, RLHF introduces a dynamic feedback mechanism where human evaluators rank or rate the model's
outputs. This process allows the AI to capture complex, subjective, or nuanced goals—such as "helpfulness,"
"safety," or "creativity"—that are difficult to define with a simple mathematical loss function.
RLHF has become a cornerstone in the development of modern
large language models (LLMs) and
generative AI, ensuring that powerful foundation models align effectively with human values and user intent.
Os componentes essenciais da RLHF
O processo RLHF geralmente segue um pipeline de três etapas projetado para preencher a lacuna entre as capacidades preditivas brutas
e o comportamento alinhado ao humano.
-
Ajuste fino supervisionado (SFT): O fluxo de trabalho normalmente começa com um
modelo básico pré-treinado. Os desenvolvedores realizam o ajuste fino inicial
usando um conjunto de dados menor e de alta qualidade de
demonstrações (por exemplo, pares de perguntas e respostas escritos por especialistas). Esta etapa estabelece uma política de base, ensinando
ao modelo o formato geral e o tom esperado para a tarefa.
-
Reward Model Training: This phase is the distinguishing feature of RLHF. Human annotators review
multiple outputs generated by the model for the same input and rank them from best to worst. This
data labeling effort generates a dataset of
preferences. A separate neural network, called
the reward model, is trained on this comparison data to predict a scalar score that reflects human judgment. Tools
available on the Ultralytics Platform can streamline the management
of such annotation workflows.
-
Reinforcement Learning Optimization: Finally, the original model acts as an
AI agent within a reinforcement learning environment.
Using the reward model as a guide, optimization algorithms like Proximal Policy Optimization (PPO) adjust the
model's parameters to maximize the expected reward. This step aligns the model's policy with the learned human
preferences, encouraging behaviors that are helpful and safe while discouraging toxic or nonsensical outputs.
Aplicações no Mundo Real
RLHF has proven critical in deploying AI systems that require high safety standards and a nuanced understanding of
human interaction.
-
IA conversacional e chatbots: A aplicação mais proeminente do RLHF é alinhar os chatbots para que
sejam úteis, inofensivos e honestos. Ao penalizar resultados tendenciosos, factualmente incorretos ou perigosos, o RLHF
ajuda a mitigar alucinações em LLMs e
reduz o risco de viés algorítmico. Isso
garante que os assistentes virtuais possam recusar instruções prejudiciais, mantendo-se úteis para consultas legítimas.
-
Robótica e controlo físico: RLHF vai além do texto para
IA em robótica, onde definir uma função de recompensa perfeita
para tarefas físicas complexas é um desafio. Por exemplo, um robô que está a aprender a navegar num armazém lotado
pode receber feedback de supervisores humanos sobre quais trajetórias eram seguras e quais causavam interrupções.
Esse feedback refina a política de controlo do robô de forma mais eficaz do que o simples
aprendizado por reforço profundo baseado
exclusivamente na conclusão de objetivos.
RLHF vs. Aprendizagem por Reforço Padrão
É útil distinguir RLHF da aprendizagem por reforço tradicional
(RL) para compreender
a sua utilidade específica.
-
RL padrão: Em contextos tradicionais, a função de recompensa é frequentemente codificada pelo ambiente.
Por exemplo, num videojogo, o ambiente fornece um sinal claro (+1 por uma vitória, -1 por uma derrota). O agente
otimiza as suas ações dentro deste
Processo de Decisão de Markov (MDP) definido.
-
RLHF: Em muitos cenários do mundo real, como escrever uma história criativa ou conduzir educadamente,
o «sucesso» é subjetivo. O RLHF resolve isso substituindo a recompensa codificada por um modelo de recompensa aprendido
derivado das preferências humanas. Isso permite a otimização de conceitos abstratos como «qualidade» ou
«adequação», que são impossíveis de programar explicitamente.
Integrando a percepção com ciclos de feedback
Em aplicações visuais, os agentes alinhados com RLHF geralmente dependem da
visão computacional (CV) para perceber o estado do
seu ambiente antes de agir. Um detetor robusto, como o
YOLO26, funciona como a camada de percepção, fornecendo
observações estruturadas (por exemplo, «obstáculo detetado a 3 metros») que a rede de políticas usa para selecionar uma
ação.
The following Python example illustrates a simplified concept where a YOLO model provides the environmental state. In
a full RLHF loop, the "reward" signal would come from a model trained on human feedback regarding the
agent's decisions based on this detection data.
from ultralytics import YOLO
# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")
# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")
# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)
print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.
Ao combinar modelos de percepção poderosos com políticas refinadas por meio de feedback humano, os desenvolvedores podem construir sistemas que
não são apenas inteligentes, mas também rigorosamente alinhados com os
princípios de segurança da IA. Pesquisas contínuas sobre supervisão escalável,
como a
IA Constitucional,
continuam a evoluir neste campo, com o objetivo de reduzir o gargalo da anotação humana em grande escala, mantendo o alto
desempenho do modelo.