Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Modelo de Recompensa do Processo (PRM)

Descubra como os Modelos de Recompensa de Processo (PRM) melhoram o raciocínio da IA. Saiba como o feedback por etapas no RLHF garante percursos lógicos e seguros para os LLMs e Ultralytics .

A avaliação de modelos complexos de inteligência artificial requer mais do que apenas verificar se a resposta final está correta. Uma técnica altamente especializada de aprendizagem por reforço atribui pontuações matemáticas a cada passo intermédio que a IA dá durante uma tarefa, proporcionando um feedback detalhado, passo a passo. Esta abordagem granular garante que o modelo não só chega ao destino certo, como também segue percursos lógicos, seguros e verificáveis para lá chegar.

Modelos de recompensa pelo processo vs. modelos de recompensa pelo resultado

No contexto mais amplo da modelagem por recompensa, é importante distinguir entre supervisão baseada em processos e supervisão baseada em resultados. Os modelos tradicionais de recompensa por resultados (ORMs) fornecem uma única recompensa, de pouca frequência, no final de uma geração. Embora os ORMs sejam mais fáceis de treinar, apresentam uma grande desvantagem em tarefas complexas: podem, inadvertidamente, recompensar modelos que chegam à resposta correta através de uma lógica falha ou de alucinações.

Um Modelo de Recompensa de Processo (PRM) resolve esta questão através da avaliação de toda a trajetória do raciocínio. Tal como popularizado pela investigação fundamental da OpenAI em artigos como Vamos Verificar Passo a Passo, um PRM aplica supervisão passo a passo a cada pensamento ou ação. Este é um componente crítico dos fluxos de trabalho avançados de Aprendizagem por Reforço a partir de Feedback Humano (RLHF) , uma vez que orienta ativamente a otimização de políticas utilizando algoritmos como a Otimização de Políticas Proximais (PPO).

Aplicações no Mundo Real

Os PRMs estão a transformar a forma como os Modelos de Linguagem de Grande Escala (LLMs) e os sistemas autónomos funcionam em ambientes de alto risco:

  • Raciocínio matemático: Ao avaliar equações linha a linha, os PRMs permitem que os modelos utilizem algoritmos como a amostragem Best-of-N (BoN) ou a pesquisa em árvore de Monte Carlo (MCTS) para explorar vários caminhos de solução e selecionar a sequência mais lógica.
  • Geração de código: Ao gerar software, não basta verificar se o script final funciona. Os PRMs supervisionam o processo, atribuindo pontuações a funções individuais e blocos lógicos para garantir que o código seja eficiente, seguro e fácil de manter.
  • Pesquisa Operacional e Agentes Visuais: Os recentes avanços em 2025 e 2026 ampliaram a aplicação dos PRMs para além do texto. Por exemplo, a pesquisa operacional utiliza agora os PRMs para validar algoritmos complexos de programação. Da mesma forma, os agentes de IA visuais equipados com motores robustos de visão computacional, como Ultralytics , recebem recompensas passo a passo pela navegação em ambientes físicos, em vez de apenas uma única recompensa por chegar a um destino.

Implementação do feedback por etapas

A formação de um PRM requer a gestão de conjuntos de dados extensos, em que cada subetapa é avaliada por seres humanos ou por modelos de IA mais avançados. A gestão destes fluxos de trabalho intensivos de anotação de dados é simplificada com ferramentas baseadas na nuvem, como a Ultralytics , que otimizam a organização e a implementação dos projetos.

Durante a inferência ou otimização do modelo, o PRM calcula uma perda ou recompensa acumulada com base na sequência de passos. O seguinte Python conceptual Python utilizando torch demonstra como as recompensas por etapa são penalizadas se uma etapa intermédia falhar, uma abordagem comum encontrada no PyTorch para a avaliação de sequências:

import torch

# Simulate reward scores from a PRM for 3 consecutive reasoning steps
# Scores represent the probability of correctness for each step (0.0 to 1.0)
step_rewards = torch.tensor([0.95, 0.80, 0.15], requires_grad=True)

# The PRM aggregates the scores, heavily penalizing the poor 3rd step
# Negative log-likelihood is commonly used to optimize the trajectory
prm_loss = -torch.log(step_rewards).mean()

print(f"Calculated PRM Loss: {prm_loss.item():.4f}")
# During RLHF, this loss would guide hyperparameter tuning and model updates

Ao garantir que cada etapa intermédia esteja alinhada com o comportamento esperado, os programadores podem implementar sistemas altamente fiáveis. A combinação da supervisão ao nível do processo com o ajuste contínuo dos hiperparâmetros permite que os modelos de última geração analisem verdadeiramente os problemas de forma segura e eficaz.

Vamos construir juntos o futuro da IA!

Comece sua jornada com o futuro do aprendizado de máquina