Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Aprendizado por Reforço a partir de Feedback Humano (RLHF)

Descubra como o Aprendizado por Reforço a partir de Feedback Humano (RLHF) refina o desempenho da IA, alinhando os modelos com os valores humanos para uma IA mais segura e inteligente.

A Aprendizagem por Reforço a partir do Feedback Humano (RLHF) é um quadro sofisticado de aprendizagem automática (ML) que alinha sistemas de inteligência artificial (IA) com os valores, as preferências e as intenções humanas. Ao contrário da tradicional aprendizagem supervisionada tradicional, que treina modelos para modelos para replicar conjuntos de dados estáticos, a RLHF introduz um ciclo de feedback dinâmico em que os avaliadores humanos classificam os resultados dos modelos. Estes Estes dados de classificação são utilizados para treinar um "modelo de recompensa", que subsequentemente orienta a IA para gerar respostas mais úteis, seguras e exactas, respostas mais úteis, seguras e precisas. Esta técnica revelou-se essencial para o desenvolvimento de modelos modernos de modelos de linguagem de grande porte (LLMs) e e da IA generativa, garantindo que os modelos modelos de base poderosos actuem de acordo com as expectativas do utilizador, em vez de se limitarem a prever estatisticamente a palavra ou o pixel seguinte.

O fluxo de trabalho do RLHF

O processo de alinhamento de um modelo através de RLHF segue geralmente uma cadeia de três passos que faz a ponte entre a capacidade de previsão capacidade de previsão e a interação humana.

  1. Afinação supervisionada (SFT): O processo começa normalmente com um modelo de base pré-treinado pré-treinado. Os programadores utilizam o o ajuste fino num conjunto de dados mais pequeno e de alta qualidade exemplos selecionados (tais como diálogos ou demonstrações) para ensinar ao modelo o formato básico da tarefa desejada.
  2. Formação em modelos de recompensa: Este é o núcleo do RLHF. Os anotadores humanos analisam vários resultados gerados pelo modelo para o mesmo input e classificam-nos do melhor para o pior. Este Este processo de rotulagem de dados cria um conjunto de dados de preferências. Uma rede neural separada, conhecida Uma rede neural separada, conhecida como modelo de recompensa, é treinada com base nesses dados de comparação para prever uma pontuação de recompensa escalar que imita o julgamento humano.
  3. Otimização da aprendizagem por reforço: O modelo original torna-se efetivamente um agente de IA num ambiente de aprendizagem por reforço. Utilizando o modelo de recompensa como guia, algoritmos como Otimização da Política Proximal (PPO) ajustam os parâmetros do agente para maximizar a recompensa esperada. Este passo altera fundamentalmente a política do modelo para favorecer acções - como a recusa educada de consultas prejudiciais - que se alinham com as preferências humanas aprendidas.

RLHF vs. Aprendizagem por Reforço Padrão

Embora ambas as abordagens se baseiem na maximização de uma recompensa, a fonte dessa recompensa diferencia-as significativamente.

  • Aprendizagem por Reforço (AR) normal: Na RL tradicional, a função de recompensa é frequentemente codificada ou definida matematicamente pelo ambiente. Por exemplo, num jogo de xadrez, o ambiente fornece um sinal claro sinal claro: +1 para uma vitória, -1 para uma derrota. O agente aprende por tentativa e erro dentro desta definição Processo de Decisão de Markov (MDP).
  • RLHF: Em muitas tarefas do mundo real, como escrever um resumo ou conduzir um carro educadamente, é impossível definir explicitamente uma matemática para o "sucesso" é impossível de definir explicitamente. A RLHF resolve este problema substituindo a recompensa com um modelo de recompensa aprendido derivado do feedback humano. Isto permite a otimização de conceitos abstractos como "utilidade" ou "segurança", que são difíceis de programar diretamente.

Aplicações no Mundo Real

A RLHF transformou a forma como os sistemas de IA interagem com o mundo, particularmente em domínios que exigem elevados padrões de segurança e uma compreensão diferenciada.

  • IA de conversação e chatbots: A utilização mais proeminente da RLHF é o alinhamento dos chatbots para serem úteis e inofensivos. Ao penalizar os resultados que são tóxicos, tendenciosos ou factualmente incorrectos, o RLHF ajuda a mitigar a alucinação em LLMs e reduz o algoritmos. Garante que os assistentes podem Os assistentes podem recusar instruções perigosas, mantendo-se úteis para consultas legítimas.
  • Robótica e Agentes Autónomos: Para além do texto, a RLHF é aplicada em robótica para ensinar aos agentes tarefas físicas complexas. Por Por exemplo, um braço robótico que aprende a agarrar objectos frágeis pode receber feedback de supervisores humanos sobre quais tentativas de agarrar objectos frágeis são seguras e não falham. Este feedback aperfeiçoa a política de controlo de forma mais eficaz do que a simples aprendizagem por reforço profundo baseada baseada apenas na conclusão da tarefa. Métodos semelhantes ajudam os veículos autónomos a aprender comportamentos de condução comportamentos de condução autónoma que parecem naturais para os passageiros humanos.

Integração da perceção com RLHF

Nas aplicações visuais, os agentes RLHF recorrem frequentemente à visão computacional (CV) para perceber o estado do do seu ambiente. Um detetor robusto, como o YOLO11pode funcionar como os "olhos" do sistema, fornecendo observações estruturadas (por exemplo, "peão detectado à esquerda") que a rede de políticas utiliza para selecionar uma ação.

O exemplo seguinte ilustra um conceito simplificado em que um modelo YOLO fornece o estado ambiental de um agente. Num ciclo completo de RLHF, a "recompensa" seria determinada por um modelo treinado com base nas preferências humanas em relação à confiança ou exatidão do agente.

from ultralytics import YOLO

# Load YOLO11 to act as the perception layer for an RL agent
model = YOLO("yolo11n.pt")

# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")

# In an RL loop, the agent's 'reward' might depend on detecting critical objects
# Here, we simulate a simple reward based on the confidence of detections
# In RLHF, this reward function would be a complex learned model
observed_reward = sum(box.conf.item() for box in results[0].boxes)

print(f"Agent Observation: Detected {len(results[0].boxes)} objects.")
print(f"Simulated Reward Signal: {observed_reward:.2f}")

Ao combinar modelos de perceção poderosos com políticas alinhadas através de feedback humano, os programadores podem criar sistemas que não são apenas inteligentes, mas também rigorosamente verificados quanto à segurança da IA. A investigação sobre supervisão escalável, como a IA constitucional, continua a fazer evoluir este domínio, com o objetivo de reduzir a forte dependência da anotação humana em grande escala.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora