Glossário

Aprendizado por Reforço a partir de Feedback Humano (RLHF)

Descubra como o Aprendizado por Reforço a partir de Feedback Humano (RLHF) refina o desempenho da IA, alinhando os modelos com os valores humanos para uma IA mais segura e inteligente.

A aprendizagem por reforço com base no feedback humano (RLHF) é uma técnica avançada de aprendizagem automática (ML) concebida para alinhar modelos de inteligência artificial (IA) com valores humanos complexos e subjectivos. Em vez de se basear numa função de recompensa predefinida, a RLHF utiliza as preferências humanas para formar um "modelo de recompensa" que orienta o processo de aprendizagem da IA. Esta abordagem é particularmente eficaz para tarefas em que a definição de "bom" desempenho é matizada, subjectiva ou difícil de especificar com uma métrica simples, como a criação de um diálogo seguro, útil e coerente.

Como funciona o RLHF?

O processo RLHF normalmente envolve três etapas principais:

Pré-treino de um modelo de linguagem: O processo começa com um modelo linguístico de base de grande dimensão (LLM) que foi pré-treinado num vasto corpus de dados de texto. Este modelo inicial, semelhante a um modelo de fundação, tem uma compreensão alargada da linguagem, mas ainda não está especializado num estilo ou tarefa específicos. Esta etapa pode ser opcionalmente seguida de um ajuste fino supervisionado num conjunto de dados de alta qualidade.
Formação de um modelo de recompensa: Este é o núcleo do RLHF. Os etiquetadores humanos recebem vários resultados gerados pelo modelo pré-treinado em resposta a uma solicitação. Classificam estes resultados do melhor para o pior com base em critérios como a utilidade, a veracidade e a segurança. Estes dados de preferência são depois utilizados para treinar um modelo de recompensa separado. O modelo de recompensa aprende a prever quais os resultados que um humano preferiria, capturando efetivamente o julgamento humano.
Afinação com aprendizagem por reforço: O modelo pré-treinado é aperfeiçoado através da aprendizagem por reforço (RL). Nesta fase, o modelo (actuando como o agente) gera resultados e o modelo de recompensa fornece uma pontuação de "recompensa" para cada resultado. Este processo, muitas vezes gerido com algoritmos como o Proximal Policy Optimization (PPO), incentiva o modelo de IA a ajustar os seus parâmetros para gerar respostas que maximizem a recompensa, alinhando assim o seu comportamento com as preferências humanas aprendidas. O trabalho pioneiro de organizações como a OpenAI e a DeepMind demonstrou a sua eficácia.

Aplicações no Mundo Real

O RLHF tem sido fundamental no desenvolvimento de sistemas de IA modernos.

Chatbots avançados: Os principais chatbots de IA, como o ChatGPT da OpenAI e o Claude da Anthropic, utilizam o RLHF para garantir que as suas respostas não são apenas precisas, mas também inofensivas, éticas e alinhadas com a intenção do utilizador. Isto ajuda a mitigar problemas como a geração de conteúdo tendencioso ou tóxico, um desafio comum na IA generativa em grande escala.
Preferências de condução autónoma: Ao desenvolver a IA para carros autónomos, o RLHF pode incorporar o feedback dos condutores sobre comportamentos simulados, como o conforto durante as mudanças de faixa ou a tomada de decisões em situações ambíguas. Isto ajuda a IA a aprender estilos de condução que parecem intuitivos e fiáveis para os humanos, complementando as tarefas tradicionais de visão por computador (CV), como a deteção de objectos realizada por modelos como o Ultralytics YOLO11.

RLHF vs. Conceitos Relacionados

É importante distinguir o RLHF de outras técnicas de aprendizagem da IA.

Aprendizagem por reforço: A RL padrão requer que os programadores criem manualmente uma função de recompensa para definir o comportamento desejado. Isto é simples para jogos com pontuações claras, mas difícil para tarefas complexas do mundo real. A RLHF resolve este problema através da aprendizagem da função de recompensa a partir do feedback humano, tornando-a adequada para problemas sem uma métrica óbvia para o sucesso.
Aprendizagem supervisionada: A aprendizagem supervisionada treina modelos em conjuntos de dados com respostas "corretas" únicas. Esta abordagem é menos eficaz para tarefas criativas ou subjectivas em que existem várias respostas corretas. A utilização de classificações de preferências pelo RLHF (por exemplo, "A é melhor do que B") permite-lhe navegar na ambiguidade e aprender comportamentos diferenciados.

Desafios e Direções Futuras

Apesar do seu poder, a RLHF enfrenta desafios. A recolha de feedback humano de alta qualidade é dispendiosa e pode introduzir um viés no conjunto de dados se os rotuladores não forem diversificados. Além disso, a IA pode descobrir formas de "jogar" com o modelo de recompensa, um fenómeno conhecido como hacking de recompensas.

Pesquisas futuras estão explorando métodos de feedback mais eficientes e alternativas como a IA Constitucional, que usa princípios gerados por IA para orientar o modelo. A implementação do RLHF requer experiência em vários domínios de aprendizado de máquina, mas ferramentas como a biblioteca TRL do Hugging Face estão tornando-o mais acessível. Plataformas como o Ultralytics HUB fornecem infraestrutura para gerenciar conjuntos de dados e treinar modelos, que são fundamentais para tarefas avançadas de alinhamento e Operações de Aprendizado de Máquina (MLOps) robustas.

Aprendizado por Reforço a partir de Feedback Humano (RLHF)

Treine modelos Ultralytics YOLO para otimizar fluxos de trabalho em todos os setores

Solução de licenciamento empresarial flexível para impulsionar sua inovação

Treine modelos de IA em segundos com o Ultralytics YOLO

Como funciona o RLHF?

Aplicações no Mundo Real

RLHF vs. Conceitos Relacionados

Desafios e Direções Futuras

Leia mais nesta categoria

Implantar modelos YOLO do Ultralytics usando a integração do ExecuTorch

Principais destaques da Ultralytics na Conferência PyTorch 2025

Utilizar a aprendizagem auto-supervisionada para eliminar o ruído das imagens

Junte-se à comunidade Ultralytics