Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Modelagem de recompensas

Explore a modelagem de recompensas no aprendizado de máquina. Saiba como ela usa o feedback humano para alinhar agentes de IA e modelos Ultralytics para um desempenho mais seguro e preciso.

A modelação de recompensas é uma técnica de aprendizagem automática utilizada para ensinar aos sistemas de inteligência artificial como avaliar e priorizar os seus próprios comportamentos com base nas preferências humanas. Em ambientes tradicionais de aprendizagem por reforço, um agente de IA aprende maximizando uma função de recompensa predefinida e matematicamente rígida, como a pontuação num videojogo. No entanto, para tarefas complexas do mundo real, em que o «bom» comportamento é subjetivo ou sutil — como escrever um e-mail educado ou atravessar um cruzamento com segurança —, escrever uma função de recompensa perfeita à mão é quase impossível. A modelagem de recompensas resolve isso treinando uma rede neural secundária (o modelo de recompensa) para atuar como um proxy para o julgamento humano. Esse modelo avalia os resultados da IA primária e atribui pontuações escalares, orientando dinamicamente o modelo principal para comportamentos seguros, úteis e precisos.

Como funciona a modelagem de recompensas

O processo de criação de um modelo de recompensas depende muito da recolha de feedback humano de alta qualidade.

  • Rotulagem de dados e preferências: Os anotadores humanos recebem instruções juntamente com várias respostas geradas por um modelo de IA. Os avaliadores classificam essas respostas da melhor para a pior com base em critérios como utilidade, inocuidade e precisão. O gerenciamento desses fluxos de trabalho de anotação em grande escala pode ser feito de forma integrada usando Ultralytics .
  • Treinamento da rede proxy: uma rede neural especializada é treinada neste conjunto de dados de comparações humanas. Por meio de um processo de otimização, ela aprende a prever qual resultado um ser humano preferiria, mapeando as incorporações de uma ação ou resposta de texto para um único valor de recompensa escalar. Você pode ler mais sobre a construção de arquiteturas de redes neurais na documentaçãoPyTorch .
  • Otimização da política: O modelo primário usa o feedback contínuo do modelo de recompensa para refinar suas ações, normalmente utilizando algoritmos como Otimização de Política Proximal (PPO). Esta etapa alinha iterativamente a política do modelo com a intenção humana aprendida.

Modelagem de recompensas vs. RLHF

É importante diferenciar a modelagem de recompensas do Aprendizado por Reforço a partir do Feedback Humano (RLHF). Embora os dois termos sejam frequentemente discutidos juntos, eles não são sinônimos. RLHF é o pipeline abrangente de ponta a ponta usado para alinhar modelos, abrangendo ajuste supervisionado, coleta de dados e atualizações de políticas. A modelagem de recompensas é um componente específico e crucial dentro do pipeline RLHF. Ela serve como uma ponte que traduz classificações humanas discretas em um sinal matemático contínuo que o algoritmo de aprendizagem por reforço pode otimizar.

Aplicações no Mundo Real

A modelagem de recompensas é fundamental no desenvolvimento de sistemas modernos de IA que interagem diretamente com os seres humanos e o mundo físico .

  • Modelos de linguagem grandes (LLMs): Os assistentes de IA conversacionais dependem de modelos de recompensa para garantir que as suas respostas não sejam apenas factualmente corretas, mas também educadas, relevantes e livres de linguagem tóxica. As organizações que exploram a segurança da IA avançam continuamente na modelagem de recompensas para construir sistemas que reflitam um alinhamento de IA útil e inofensivo.
  • Veículos autônomos e robótica: Na automação física, os modelos de recompensa ajudam os robôs a compreender estratégias complexas de etiqueta de condução ou manipulação de objetos. Um sistema de percepção alimentado pelo Ultralytics pode detect e sinais de trânsito, enquanto um modelo de recompensa avalia a trajetória planejada do veículo, garantindo que a IA priorize o conforto e a segurança dos passageiros em vez de uma navegação ponto a ponto puramente agressiva.

Implementação de um conceito básico de modelo de recompensa

O seguinte Python utiliza torch para demonstrar a estrutura fundamental de um modelo de recompensa. Na prática, esta rede aprende a atribuir uma pontuação escalar mais elevada a um resultado que se alinha com as preferências humanas.

import torch
import torch.nn as nn


# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
    def __init__(self):
        super().__init__()
        # Maps the AI's output embedding to a single reward score
        self.fc = nn.Linear(768, 1)

    def forward(self, embeddings):
        return self.fc(embeddings)


# Initialize the model
reward_model = SimpleRewardModel()

# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)

# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")

Para aprofundar o seu conhecimento sobre como o alinhamento afeta os modelos de fundação de código aberto, explore pesquisas fundamentais sobre o alinhamento de modelos de linguagem com a intenção humana e aprenda como os sistemas de visão computacional (CV) aproveitam ciclos de feedback avançados para interagir com segurança em ambientes dinâmicos.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora