Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Aprendizado por Reforço a partir de Feedback Humano (RLHF)

Saiba como o Reinforcement Learning from Human Feedback (RLHF) alinha a IA com os valores humanos. Explore os seus componentes principais e a integração com Ultralytics .

A aprendizagem por reforço a partir do feedback humano (RLHF) é uma técnica avançada de aprendizagem automática que refina modelos de inteligência artificial incorporando a contribuição humana direta no ciclo de treino. Ao contrário da aprendizagem supervisionada padrão, que depende exclusivamente de conjuntos de dados estáticos rotulados, a RLHF introduz um mecanismo de feedback dinâmico em que avaliadores humanos classificam ou pontuam os resultados do modelo . Este processo permite que a IA capture objetivos complexos, subjetivos ou matizados — como «utilidade», «segurança» ou «criatividade» — que são difíceis de definir com uma função de perda matemática simples. O RLHF tornou-se uma pedra angular no desenvolvimento de grandes modelos de linguagem (LLMs) modernos e IA generativa, garantindo que modelos básicos poderosos se alinhem efetivamente com os valores humanos e a intenção do utilizador.

Os componentes essenciais da RLHF

O processo RLHF geralmente segue um pipeline de três etapas projetado para preencher a lacuna entre as capacidades preditivas brutas e o comportamento alinhado ao humano.

  1. Ajuste fino supervisionado (SFT): O fluxo de trabalho normalmente começa com um modelo básico pré-treinado. Os desenvolvedores realizam o ajuste fino inicial usando um conjunto de dados menor e de alta qualidade de demonstrações (por exemplo, pares de perguntas e respostas escritos por especialistas). Esta etapa estabelece uma política de base, ensinando ao modelo o formato geral e o tom esperado para a tarefa.
  2. Treinamento do modelo de recompensa: esta fase é a característica distintiva do RLHF. Anotadores humanos revisam várias saídas geradas pelo modelo para a mesma entrada e as classificam da melhor para a pior. Esse esforço de rotulagem de dados gera um conjunto de dados de preferências. Uma rede neural separada, chamada de modelo de recompensa, é treinada com esses dados comparativos para prever uma pontuação escalar que reflete o julgamento humano. As ferramentas disponíveis na Ultralytics podem otimizar o gerenciamento desses fluxos de trabalho de anotação.
  3. Otimização da aprendizagem por reforço: Por fim, o modelo original atua como um agente de IA dentro de um ambiente de aprendizagem por reforço. Usando o modelo de recompensa como guia, algoritmos de otimização como a Otimização de Política Proximal (PPO) ajustam os parâmetros do modelo para maximizar a recompensa esperada. Esta etapa alinha a política do modelo com as preferências humanas aprendidas , incentivando comportamentos úteis e seguros, ao mesmo tempo que desencoraja resultados tóxicos ou sem sentido.

Aplicações no Mundo Real

A RLHF provou ser fundamental na implementação de sistemas de IA que exigem elevados padrões de segurança e uma compreensão matizada da interação humana.

  • IA conversacional e chatbots: A aplicação mais proeminente do RLHF é alinhar os chatbots para que sejam úteis, inofensivos e honestos. Ao penalizar resultados tendenciosos, factualmente incorretos ou perigosos, o RLHF ajuda a mitigar alucinações em LLMs e reduz o risco de viés algorítmico. Isso garante que os assistentes virtuais possam recusar instruções prejudiciais, mantendo-se úteis para consultas legítimas.
  • Robótica e controlo físico: RLHF vai além do texto para IA em robótica, onde definir uma função de recompensa perfeita para tarefas físicas complexas é um desafio. Por exemplo, um robô que está a aprender a navegar num armazém lotado pode receber feedback de supervisores humanos sobre quais trajetórias eram seguras e quais causavam interrupções. Esse feedback refina a política de controlo do robô de forma mais eficaz do que o simples aprendizado por reforço profundo baseado exclusivamente na conclusão de objetivos.

RLHF vs. Aprendizagem por Reforço Padrão

É útil distinguir RLHF da aprendizagem por reforço tradicional (RL) para compreender a sua utilidade específica.

  • RL padrão: Em contextos tradicionais, a função de recompensa é frequentemente codificada pelo ambiente. Por exemplo, num videojogo, o ambiente fornece um sinal claro (+1 por uma vitória, -1 por uma derrota). O agente otimiza as suas ações dentro deste Processo de Decisão de Markov (MDP) definido.
  • RLHF: Em muitos cenários do mundo real, como escrever uma história criativa ou conduzir educadamente, o «sucesso» é subjetivo. O RLHF resolve isso substituindo a recompensa codificada por um modelo de recompensa aprendido derivado das preferências humanas. Isso permite a otimização de conceitos abstratos como «qualidade» ou «adequação», que são impossíveis de programar explicitamente.

Integrando a percepção com ciclos de feedback

Em aplicações visuais, os agentes alinhados com RLHF geralmente dependem da visão computacional (CV) para perceber o estado do seu ambiente antes de agir. Um detetor robusto, como o YOLO26, funciona como a camada de percepção, fornecendo observações estruturadas (por exemplo, «obstáculo detetado a 3 metros») que a rede de políticas usa para selecionar uma ação.

Python a seguir ilustra um conceito simplificado em que um YOLO fornece o estado ambiental. Em um ciclo RLHF completo, o sinal de «recompensa» viria de um modelo treinado com feedback humano sobre as decisões do agente com base nesses dados de detecção.

from ultralytics import YOLO

# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")

# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")

# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)

print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.

Ao combinar modelos de percepção poderosos com políticas refinadas por meio de feedback humano, os desenvolvedores podem construir sistemas que não são apenas inteligentes, mas também rigorosamente alinhados com os princípios de segurança da IA. Pesquisas contínuas sobre supervisão escalável, como a IA Constitucional, continuam a evoluir neste campo, com o objetivo de reduzir o gargalo da anotação humana em grande escala, mantendo o alto desempenho do modelo.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora