Glossário

Aprendizagem por reforço a partir do feedback humano (RLHF)

Descubra como a Aprendizagem por Reforço a partir de Feedback Humano (RLHF) refina o desempenho da IA, alinhando os modelos com os valores humanos para uma IA mais segura e inteligente.

A aprendizagem por reforço com base no feedback humano (RLHF) é uma técnica avançada de aprendizagem automática concebida para alinhar modelos de inteligência artificial (IA) com valores humanos complexos e subjectivos. Em vez de se basear numa função de recompensa predefinida, a RLHF utiliza as preferências humanas para formar um "modelo de recompensa" que orienta o processo de aprendizagem da IA. Esta abordagem é particularmente eficaz para tarefas em que a definição de "bom" desempenho é matizada, subjectiva ou difícil de especificar com uma métrica simples, como a criação de um diálogo seguro, útil e coerente.

Como funciona o RLHF?

O processo RLHF envolve normalmente três etapas principais:

  1. Pré-treino de um modelo de linguagem: Começa com um modelo linguístico de base de grande dimensão (LLM) que foi pré-treinado num vasto corpus de dados de texto. Este modelo inicial, semelhante a um modelo de fundação, tem uma compreensão alargada da linguagem, mas ainda não está especializado num estilo ou tarefa específicos. Esta etapa pode ser opcionalmente seguida de um ajuste fino supervisionado num conjunto de dados de alta qualidade.
  2. Formação de um modelo de recompensa: Este é o núcleo do RLHF. Os etiquetadores humanos recebem vários resultados gerados pelo modelo pré-treinado em resposta a uma solicitação. Classificam estes resultados do melhor para o pior com base em critérios como a utilidade, a veracidade e a segurança. Estes dados de preferência são depois utilizados para treinar um modelo de recompensa separado. O modelo de recompensa aprende a prever quais os resultados que um humano preferiria, capturando efetivamente o julgamento humano.
  3. Afinação fina com aprendizagem por reforço: O modelo pré-treinado é aperfeiçoado através da aprendizagem por reforço (RL). Nesta fase, o modelo (actuando como o agente) gera resultados e o modelo de recompensa fornece uma pontuação de "recompensa" para cada resultado. Este processo, muitas vezes gerido com algoritmos como o Proximal Policy Optimization (PPO), incentiva o modelo de IA a ajustar os seus parâmetros para gerar respostas que maximizem a recompensa, alinhando assim o seu comportamento com as preferências humanas aprendidas. O trabalho pioneiro de organizações como a OpenAI e a DeepMind demonstrou a sua eficácia.

Aplicações no mundo real

A RLHF tem sido fundamental para o desenvolvimento de sistemas modernos de IA.

  • Chatbots avançados: Os principais chatbots de IA, como o ChatGPT da OpenAI e o Claude da Anthropic, utilizam o RLHF para garantir que as suas respostas não são apenas precisas, mas também inofensivas, éticas e alinhadas com a intenção do utilizador. Isto ajuda a mitigar problemas como a geração de conteúdo tendencioso ou tóxico, um desafio comum na IA generativa em grande escala.
  • Preferências de condução autónoma: Ao desenvolver a IA para carros autónomos, a RLHF pode incorporar o feedback dos condutores sobre comportamentos simulados, como o conforto durante as mudanças de faixa ou a tomada de decisões em situações ambíguas. Isto ajuda a IA a aprender estilos de condução que parecem intuitivos e fiáveis para os humanos, complementando as tarefas tradicionais de visão por computador, como a deteção de objectos realizada por modelos como o Ultralytics YOLO.

RLHF vs. conceitos relacionados

É importante distinguir o RLHF de outras técnicas de aprendizagem da IA.

  • Aprendizagem por reforço: A RL padrão requer que os programadores criem manualmente uma função de recompensa para definir o comportamento desejado. Isto é simples para jogos com pontuações claras, mas difícil para tarefas complexas do mundo real. A RLHF resolve este problema através da aprendizagem da função de recompensa a partir do feedback humano, tornando-a adequada para problemas sem uma métrica óbvia para o sucesso.
  • Aprendizagem supervisionada: A aprendizagem supervisionada treina modelos em conjuntos de dados com respostas "corretas" únicas. Esta abordagem é menos eficaz para tarefas criativas ou subjectivas em que existem várias respostas corretas. A utilização de classificações de preferências pelo RLHF (por exemplo, "A é melhor do que B") permite-lhe navegar na ambiguidade e aprender comportamentos diferenciados.

Desafios e direcções futuras

Apesar do seu poder, a RLHF enfrenta desafios. A recolha de feedback humano de alta qualidade é dispendiosa e pode introduzir um viés no conjunto de dados se os rotuladores não forem diversificados. Além disso, a IA pode descobrir formas de "jogar" com o modelo de recompensa, um fenómeno conhecido como hacking de recompensas.

A investigação futura está a explorar métodos de feedback mais eficientes e alternativas como a IA Constitucional, que utiliza princípios gerados pela IA para orientar o modelo. A implementação do RLHF requer conhecimentos especializados em vários domínios de aprendizagem automática, mas ferramentas como a biblioteca TRL da Hugging Face estão a torná-lo mais acessível. Plataformas como o Ultralytics HUB fornecem infra-estruturas para gerir conjuntos de dados e modelos de formação, que são fundamentais para tarefas de alinhamento avançadas e operações robustas de aprendizagem automática (MLOps).

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência