Reward Modeling

Explora a modelagem de recompensa em aprendizado de máquina. Aprende como ela utiliza feedback humano para alinhar agentes de IA e modelos Ultralytics YOLO26 para um desempenho mais seguro e preciso.

A modelagem de recompensa é uma técnica de aprendizado de máquina usada para ensinar sistemas de inteligência artificial a avaliar e priorizar seus próprios comportamentos com base em preferências humanas. Em ambientes tradicionais de reinforcement learning, um AI agent aprende maximizando uma função de recompensa matematicamente rígida e predefinida, como a pontuação em um videogame. No entanto, para tarefas complexas do mundo real onde o comportamento "bom" é subjetivo ou sutil—como escrever um e-mail educado ou navegar em um cruzamento com segurança—escrever uma função de recompensa perfeita manualmente é quase impossível. A modelagem de recompensa resolve isso treinando uma neural network secundária (o modelo de recompensa) para atuar como um proxy para o julgamento humano. Este modelo avalia as saídas da IA primária e atribui pontuações escalares, guiando dinamicamente o modelo principal para comportamentos seguros, úteis e precisos.

Link to this sectionComo Funciona a Modelagem de Recompensa#

O pipeline para construir um modelo de recompensa depende fortemente da coleta de feedback humano de alta qualidade.

Data Labeling e Preferências: Os anotadores humanos recebem prompts juntamente com múltiplas respostas geradas por um modelo de IA. Os avaliadores classificam essas respostas da melhor para a pior com base em critérios como utilidade, inofensividade e precisão. O gerenciamento desses fluxos de trabalho de anotação em larga escala pode ser feito perfeitamente usando a Ultralytics Platform.
Treinando a Rede Proxy: Uma rede neural especializada é treinada neste conjunto de dados de comparações humanas. Por meio de um processo de otimização, ela aprende a prever qual saída um humano preferiria, mapeando os embeddings de uma ação ou resposta de texto para um único valor escalar de recompensa. Podes ler mais sobre a construção de arquiteturas de redes neurais na PyTorch API documentation.
Otimização de Política: O modelo primário utiliza o feedback contínuo do modelo de recompensa para refinar suas ações, tipicamente utilizando algoritmos como Proximal Policy Optimization (PPO). Este passo alinha iterativamente a política do modelo com a intenção humana aprendida.

Link to this sectionModelagem de Recompensa vs. RLHF#

É importante diferenciar a modelagem de recompensa do Reinforcement Learning from Human Feedback (RLHF). Embora os dois termos sejam frequentemente discutidos juntos, eles não são sinônimos. O RLHF é o pipeline abrangente de ponta a ponta usado para alinhar modelos, abrangendo ajuste fino supervisionado, coleta de dados e atualizações de política. A modelagem de recompensa é um componente específico e crucial dentro do pipeline de RLHF. Ela serve como a ponte que traduz rankings humanos discretos em um sinal matemático contínuo que o algoritmo de reforço pode otimizar.

Link to this sectionAplicações no Mundo Real#

A modelagem de recompensa é fundamental no desenvolvimento de sistemas modernos de IA que interagem diretamente com humanos e com o mundo físico.

Large Language Models (LLMs): Assistentes de IA conversacionais dependem de modelos de recompensa para garantir que suas respostas não sejam apenas factualmente corretas, mas também educadas, relevantes e livres de linguagem tóxica. Organizações que exploram AI safety avançam continuamente na modelagem de recompensa para construir sistemas que reflitam um alinhamento de IA útil e inofensivo.
Autonomous Vehicles e Robótica: Na automação física, modelos de recompensa ajudam robôs a entender etiquetas complexas de direção ou estratégias de manipulação de objetos. Um sistema de percepção alimentado por Ultralytics YOLO26 pode detectar pedestres e sinais de trânsito, enquanto um modelo de recompensa avalia a trajetória planejada do veículo, garantindo que a IA priorize o conforto e a segurança do passageiro em vez de uma navegação ponto a ponto puramente agressiva.

Link to this sectionImplementando um Conceito Básico de Modelo de Recompensa#

O exemplo em Python a seguir usa torch para demonstrar a estrutura fundamental de um modelo de recompensa. Na prática, esta rede aprende a atribuir uma pontuação escalar mais alta a uma saída que se alinha às preferências humanas.

import torch
import torch.nn as nn


# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
    def __init__(self):
        super().__init__()
        # Maps the AI's output embedding to a single reward score
        self.fc = nn.Linear(768, 1)

    def forward(self, embeddings):
        return self.fc(embeddings)


# Initialize the model
reward_model = SimpleRewardModel()

# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)

# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")

Para um mergulho mais profundo em como o alinhamento impacta modelos de base de código aberto, explora pesquisas fundamentais sobre o alinhamento de modelos de linguagem com a intenção humana e aprende como sistemas de computer vision (CV) aproveitam loops de feedback avançados para interagir com segurança em ambientes dinâmicos.

Reward Modeling

Link to this sectionComo Funciona a Modelagem de Recompensa#

Link to this sectionModelagem de Recompensa vs. RLHF#

Link to this sectionAplicações no Mundo Real#

Link to this sectionImplementando um Conceito Básico de Modelo de Recompensa#

Explore solutions

IA na Agricultura

IA no Setor Automotivo

IA na Saúde

IA no Varejo

IA em Robótica

IA na Manufatura

IA na logística

IA na Agricultura

IA no Setor Automotivo

IA na Saúde

IA no Varejo

IA em Robótica

IA na Manufatura

IA na logística

IA na Agricultura

IA no Setor Automotivo

IA na Saúde

IA no Varejo

IA em Robótica

IA na Manufatura

IA na logística

Vamos construir o futuro da IA juntos!