Explore a modelagem de recompensas no aprendizado de máquina. Saiba como ela usa o feedback humano para alinhar agentes de IA e modelos Ultralytics para um desempenho mais seguro e preciso.
A modelação de recompensas é uma técnica de aprendizagem automática utilizada para ensinar aos sistemas de inteligência artificial como avaliar e priorizar os seus próprios comportamentos com base nas preferências humanas. Em ambientes tradicionais de aprendizagem por reforço, um agente de IA aprende maximizando uma função de recompensa predefinida e matematicamente rígida, como a pontuação num videojogo. No entanto, para tarefas complexas do mundo real, em que o «bom» comportamento é subjetivo ou sutil — como escrever um e-mail educado ou atravessar um cruzamento com segurança —, escrever uma função de recompensa perfeita à mão é quase impossível. A modelagem de recompensas resolve isso treinando uma rede neural secundária (o modelo de recompensa) para atuar como um proxy para o julgamento humano. Esse modelo avalia os resultados da IA primária e atribui pontuações escalares, orientando dinamicamente o modelo principal para comportamentos seguros, úteis e precisos.
O processo de criação de um modelo de recompensas depende muito da recolha de feedback humano de alta qualidade.
É importante diferenciar a modelagem de recompensas do Aprendizado por Reforço a partir do Feedback Humano (RLHF). Embora os dois termos sejam frequentemente discutidos juntos, eles não são sinônimos. RLHF é o pipeline abrangente de ponta a ponta usado para alinhar modelos, abrangendo ajuste supervisionado, coleta de dados e atualizações de políticas. A modelagem de recompensas é um componente específico e crucial dentro do pipeline RLHF. Ela serve como uma ponte que traduz classificações humanas discretas em um sinal matemático contínuo que o algoritmo de aprendizagem por reforço pode otimizar.
A modelagem de recompensas é fundamental no desenvolvimento de sistemas modernos de IA que interagem diretamente com os seres humanos e o mundo físico .
O seguinte Python utiliza torch para demonstrar a estrutura fundamental de um modelo de recompensa. Na
prática, esta rede aprende a atribuir uma pontuação escalar mais elevada a um resultado que se alinha com as preferências humanas.
import torch
import torch.nn as nn
# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
def __init__(self):
super().__init__()
# Maps the AI's output embedding to a single reward score
self.fc = nn.Linear(768, 1)
def forward(self, embeddings):
return self.fc(embeddings)
# Initialize the model
reward_model = SimpleRewardModel()
# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)
# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")
Para aprofundar o seu conhecimento sobre como o alinhamento afeta os modelos de fundação de código aberto, explore pesquisas fundamentais sobre o alinhamento de modelos de linguagem com a intenção humana e aprenda como os sistemas de visão computacional (CV) aproveitam ciclos de feedback avançados para interagir com segurança em ambientes dinâmicos.