Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
Voltar para o Glossário da Ultralytics

Reward Modeling

Explora a modelagem de recompensa em aprendizado de máquina. Aprende como ela utiliza feedback humano para alinhar agentes de IA e modelos Ultralytics YOLO26 para um desempenho mais seguro e preciso.

A modelagem de recompensa é uma técnica de aprendizado de máquina usada para ensinar sistemas de inteligência artificial a avaliar e priorizar seus próprios comportamentos com base em preferências humanas. Em ambientes tradicionais de reinforcement learning, um AI agent aprende maximizando uma função de recompensa matematicamente rígida e predefinida, como a pontuação em um videogame. No entanto, para tarefas complexas do mundo real onde o comportamento "bom" é subjetivo ou sutil—como escrever um e-mail educado ou navegar em um cruzamento com segurança—escrever uma função de recompensa perfeita manualmente é quase impossível. A modelagem de recompensa resolve isso treinando uma neural network secundária (o modelo de recompensa) para atuar como um proxy para o julgamento humano. Este modelo avalia as saídas da IA primária e atribui pontuações escalares, guiando dinamicamente o modelo principal para comportamentos seguros, úteis e precisos.

Link to this sectionComo Funciona a Modelagem de Recompensa#

O pipeline para construir um modelo de recompensa depende fortemente da coleta de feedback humano de alta qualidade.

  • Data Labeling e Preferências: Os anotadores humanos recebem prompts juntamente com múltiplas respostas geradas por um modelo de IA. Os avaliadores classificam essas respostas da melhor para a pior com base em critérios como utilidade, inofensividade e precisão. O gerenciamento desses fluxos de trabalho de anotação em larga escala pode ser feito perfeitamente usando a Ultralytics Platform.
  • Treinando a Rede Proxy: Uma rede neural especializada é treinada neste conjunto de dados de comparações humanas. Por meio de um processo de otimização, ela aprende a prever qual saída um humano preferiria, mapeando os embeddings de uma ação ou resposta de texto para um único valor escalar de recompensa. Podes ler mais sobre a construção de arquiteturas de redes neurais na PyTorch API documentation.
  • Otimização de Política: O modelo primário utiliza o feedback contínuo do modelo de recompensa para refinar suas ações, tipicamente utilizando algoritmos como Proximal Policy Optimization (PPO). Este passo alinha iterativamente a política do modelo com a intenção humana aprendida.

Link to this sectionModelagem de Recompensa vs. RLHF#

É importante diferenciar a modelagem de recompensa do Reinforcement Learning from Human Feedback (RLHF). Embora os dois termos sejam frequentemente discutidos juntos, eles não são sinônimos. O RLHF é o pipeline abrangente de ponta a ponta usado para alinhar modelos, abrangendo ajuste fino supervisionado, coleta de dados e atualizações de política. A modelagem de recompensa é um componente específico e crucial dentro do pipeline de RLHF. Ela serve como a ponte que traduz rankings humanos discretos em um sinal matemático contínuo que o algoritmo de reforço pode otimizar.

Link to this sectionAplicações no Mundo Real#

A modelagem de recompensa é fundamental no desenvolvimento de sistemas modernos de IA que interagem diretamente com humanos e com o mundo físico.

  • Large Language Models (LLMs): Assistentes de IA conversacionais dependem de modelos de recompensa para garantir que suas respostas não sejam apenas factualmente corretas, mas também educadas, relevantes e livres de linguagem tóxica. Organizações que exploram AI safety avançam continuamente na modelagem de recompensa para construir sistemas que reflitam um alinhamento de IA útil e inofensivo.
  • Autonomous Vehicles e Robótica: Na automação física, modelos de recompensa ajudam robôs a entender etiquetas complexas de direção ou estratégias de manipulação de objetos. Um sistema de percepção alimentado por Ultralytics YOLO26 pode detectar pedestres e sinais de trânsito, enquanto um modelo de recompensa avalia a trajetória planejada do veículo, garantindo que a IA priorize o conforto e a segurança do passageiro em vez de uma navegação ponto a ponto puramente agressiva.

Link to this sectionImplementando um Conceito Básico de Modelo de Recompensa#

O exemplo em Python a seguir usa torch para demonstrar a estrutura fundamental de um modelo de recompensa. Na prática, esta rede aprende a atribuir uma pontuação escalar mais alta a uma saída que se alinha às preferências humanas.

import torch
import torch.nn as nn


# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
    def __init__(self):
        super().__init__()
        # Maps the AI's output embedding to a single reward score
        self.fc = nn.Linear(768, 1)

    def forward(self, embeddings):
        return self.fc(embeddings)


# Initialize the model
reward_model = SimpleRewardModel()

# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)

# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")

Para um mergulho mais profundo em como o alinhamento impacta modelos de base de código aberto, explora pesquisas fundamentais sobre o alinhamento de modelos de linguagem com a intenção humana e aprende como sistemas de computer vision (CV) aproveitam loops de feedback avançados para interagir com segurança em ambientes dinâmicos.

Explore solutions

Real-time AI tailored to your operation

IA na Agricultura

Leve a IA de visão para a agricultura inteligente com os modelos Ultralytics YOLO. Potencialize o monitoramento de colheitas, rastreamento de gado e agricultura de precisão para obter rendimentos maiores e mais inteligentes.

Saiba mais
Real-time AI that works with your operation

IA no Setor Automotivo

Aplica visão computacional no setor automotivo com modelos Ultralytics YOLO. A IA de visão eleva a segurança viária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Saiba mais
Real-time AI that works with your team

IA na Saúde

Crie soluções para a saúde com modelos Ultralytics YOLO. A IA de visão na saúde potencializa diagnósticos mais inteligentes, monitoramento de pacientes e exames médicos mais rápidos.

Saiba mais
Real-time AI that works with your team

IA no Varejo

Reinvente o varejo com os modelos YOLO da Ultralytics. A IA de visão potencializa o rastreamento de inventário, o monitoramento de prateleiras, a gestão de filas e insights mais inteligentes sobre os clientes.

Saiba mais
Real-time AI that works with your team

IA em Robótica

Impulsione máquinas mais inteligentes com os modelos Ultralytics YOLO. A visão computacional por IA na robótica impulsiona a navegação autônoma, a percepção, o rastreamento de objetos e o controle em tempo real.

Saiba mais
Real-time AI that works with your team

IA na Manufatura

Otimize a manufatura com os modelos Ultralytics YOLO. A visão computacional impulsiona o controle de qualidade, a detecção de defeitos, a conformidade com EPIs e a automação de linhas de montagem.

Saiba mais
Real-time AI that works with your team

IA na logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Saiba mais
Real-time AI tailored to your operation

IA na Agricultura

Leve a IA de visão para a agricultura inteligente com os modelos Ultralytics YOLO. Potencialize o monitoramento de colheitas, rastreamento de gado e agricultura de precisão para obter rendimentos maiores e mais inteligentes.

Saiba mais
Real-time AI that works with your operation

IA no Setor Automotivo

Aplica visão computacional no setor automotivo com modelos Ultralytics YOLO. A IA de visão eleva a segurança viária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Saiba mais
Real-time AI that works with your team

IA na Saúde

Crie soluções para a saúde com modelos Ultralytics YOLO. A IA de visão na saúde potencializa diagnósticos mais inteligentes, monitoramento de pacientes e exames médicos mais rápidos.

Saiba mais
Real-time AI that works with your team

IA no Varejo

Reinvente o varejo com os modelos YOLO da Ultralytics. A IA de visão potencializa o rastreamento de inventário, o monitoramento de prateleiras, a gestão de filas e insights mais inteligentes sobre os clientes.

Saiba mais
Real-time AI that works with your team

IA em Robótica

Impulsione máquinas mais inteligentes com os modelos Ultralytics YOLO. A visão computacional por IA na robótica impulsiona a navegação autônoma, a percepção, o rastreamento de objetos e o controle em tempo real.

Saiba mais
Real-time AI that works with your team

IA na Manufatura

Otimize a manufatura com os modelos Ultralytics YOLO. A visão computacional impulsiona o controle de qualidade, a detecção de defeitos, a conformidade com EPIs e a automação de linhas de montagem.

Saiba mais
Real-time AI that works with your team

IA na logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Saiba mais
Real-time AI tailored to your operation

IA na Agricultura

Leve a IA de visão para a agricultura inteligente com os modelos Ultralytics YOLO. Potencialize o monitoramento de colheitas, rastreamento de gado e agricultura de precisão para obter rendimentos maiores e mais inteligentes.

Saiba mais
Real-time AI that works with your operation

IA no Setor Automotivo

Aplica visão computacional no setor automotivo com modelos Ultralytics YOLO. A IA de visão eleva a segurança viária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Saiba mais
Real-time AI that works with your team

IA na Saúde

Crie soluções para a saúde com modelos Ultralytics YOLO. A IA de visão na saúde potencializa diagnósticos mais inteligentes, monitoramento de pacientes e exames médicos mais rápidos.

Saiba mais
Real-time AI that works with your team

IA no Varejo

Reinvente o varejo com os modelos YOLO da Ultralytics. A IA de visão potencializa o rastreamento de inventário, o monitoramento de prateleiras, a gestão de filas e insights mais inteligentes sobre os clientes.

Saiba mais
Real-time AI that works with your team

IA em Robótica

Impulsione máquinas mais inteligentes com os modelos Ultralytics YOLO. A visão computacional por IA na robótica impulsiona a navegação autônoma, a percepção, o rastreamento de objetos e o controle em tempo real.

Saiba mais
Real-time AI that works with your team

IA na Manufatura

Otimize a manufatura com os modelos Ultralytics YOLO. A visão computacional impulsiona o controle de qualidade, a detecção de defeitos, a conformidade com EPIs e a automação de linhas de montagem.

Saiba mais
Real-time AI that works with your team

IA na logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Saiba mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática