Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
Voltar para o Glossário da Ultralytics

Reinforcement Learning from Human Feedback (RLHF)

Aprenda como o Reinforcement Learning from Human Feedback (RLHF) alinha a IA aos valores humanos. Explore seus componentes fundamentais e a integração com o Ultralytics YOLO26.

O Aprendizado por Reforço com Feedback Humano (RLHF) é uma técnica avançada de aprendizado de máquina que refina modelos de inteligência artificial ao incorporar feedback humano direto no ciclo de treinamento. Ao contrário do aprendizado supervisionado padrão, que depende exclusivamente de conjuntos de dados rotulados estáticos, o RLHF introduz um mecanismo de feedback dinâmico onde avaliadores humanos classificam ou pontuam as saídas do modelo. Esse processo permite que a IA capture objetivos complexos, subjetivos ou sutis — como "prestatividade", "segurança" ou "criatividade" — que são difíceis de definir com uma simples função de perda matemática. O RLHF tornou-se um pilar no desenvolvimento de grandes modelos de linguagem (LLMs) modernos e de IA generativa, garantindo que modelos de fundação poderosos se alinhem eficazmente aos valores humanos e à intenção do usuário.

Link to this sectionOs Componentes Principais do RLHF#

O processo de RLHF geralmente segue um pipeline de três etapas projetado para reduzir a lacuna entre capacidades preditivas brutas e comportamentos alinhados aos humanos.

  1. Ajuste Fino Supervisionado (SFT): O fluxo de trabalho geralmente começa com um modelo de fundação pré-treinado. Os desenvolvedores realizam um ajuste fino inicial usando um conjunto de dados menor e de alta qualidade de demonstrações (por exemplo, pares de pergunta-resposta escritos por especialistas). Esta etapa estabelece uma política de base, ensinando ao modelo o formato e o tom gerais esperados para a tarefa.

  2. Treinamento do Modelo de Recompensa: Esta fase é a característica distintiva do RLHF. Anotadores humanos revisam várias saídas geradas pelo modelo para a mesma entrada e as classificam da melhor para a pior. Esse esforço de rotulagem de dados gera um conjunto de dados de preferências. Uma rede neural separada, chamada modelo de recompensa, é treinada nesses dados de comparação para prever uma pontuação escalar que reflita o julgamento humano. As ferramentas disponíveis na Ultralytics Platform podem otimizar o gerenciamento de tais fluxos de trabalho de anotação.

  3. Otimização por Aprendizado por Reforço: Finalmente, o modelo original atua como um agente de IA dentro de um ambiente de aprendizado por reforço. Usando o modelo de recompensa como guia, algoritmos de otimização como o Proximal Policy Optimization (PPO) ajustam os parâmetros do modelo para maximizar a recompensa esperada. Esta etapa alinha a política do modelo às preferências humanas aprendidas, incentivando comportamentos que sejam úteis e seguros, enquanto desencoraja saídas tóxicas ou sem sentido.

Link to this sectionAplicações no Mundo Real#

O RLHF provou ser crítico na implementação de sistemas de IA que exigem altos padrões de segurança e uma compreensão sutil da interação humana.

  • IA Conversacional e Chatbots: A aplicação mais proeminente do RLHF é alinhar chatbots para serem prestativos, inofensivos e honestos. Ao penalizar saídas que são tendenciosas, factualmente incorretas ou perigosas, o RLHF ajuda a mitigar a alucinação em LLMs e reduz o risco de viés algorítmico. Isso garante que assistentes virtuais possam recusar instruções prejudiciais enquanto permanecem úteis para consultas legítimas.
  • Robótica e Controle Físico: O RLHF estende-se além do texto para a IA na robótica, onde definir uma função de recompensa perfeita para tarefas físicas complexas é um desafio. Por exemplo, um robô aprendendo a navegar em um armazém lotado pode receber feedback de supervisores humanos sobre quais trajetórias foram seguras em comparação com aquelas que causaram interrupções. Este feedback refina a política de controle do robô de forma mais eficaz do que o simples aprendizado por reforço profundo baseado apenas na conclusão da meta.

Link to this sectionRLHF vs. Aprendizado por Reforço Padrão#

É útil distinguir o RLHF do aprendizado por reforço (RL) tradicional para compreender sua utilidade específica.

  • RL Padrão: Em configurações tradicionais, a função de recompensa é frequentemente codificada pelo ambiente. Por exemplo, em um videogame, o ambiente fornece um sinal claro (+1 para uma vitória, -1 para uma derrota). O agente otimiza suas ações dentro deste Processo de Decisão de Markov (MDP) definido.
  • RLHF: Em muitos cenários do mundo real, como escrever uma história criativa ou dirigir de forma educada, o "sucesso" é subjetivo. O RLHF resolve isso substituindo a recompensa codificada por um modelo de recompensa aprendido derivado de preferências humanas. Isso permite a otimização de conceitos abstratos como "qualidade" ou "adequação" que são impossíveis de programar explicitamente.

Link to this sectionIntegrando a Percepção com Ciclos de Feedback#

Em aplicações visuais, agentes alinhados por RLHF geralmente dependem da visão computacional (CV) para perceber o estado de seu ambiente antes de agir. Um detector robusto, como o YOLO26, funciona como a camada de percepção, fornecendo observações estruturadas (por exemplo, "obstáculo detectado a 3 metros") que a rede de política usa para selecionar uma ação.

O exemplo de Python a seguir ilustra um conceito simplificado onde um modelo YOLO fornece o estado ambiental. Em um ciclo completo de RLHF, o sinal de "recompensa" viria de um modelo treinado com feedback humano sobre as decisões do agente baseadas nesses dados de detecção.

from ultralytics import YOLO

# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")

# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")

# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)

print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.

Ao combinar modelos de percepção poderosos com políticas refinadas via feedback humano, os desenvolvedores podem construir sistemas que não são apenas inteligentes, mas também rigorosamente alinhados aos princípios de segurança de IA. A pesquisa contínua em supervisão escalável, como a Constitutional AI, continua a evoluir este campo, visando reduzir o gargalo da anotação humana em larga escala enquanto mantém um alto desempenho do modelo.

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática