Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
Voltar para o Glossário da Ultralytics

Process Reward Model (PRM)

Explora como os Process Reward Models (PRM) melhoram o raciocínio de IA. Aprende como o feedback ao nível de passo no RLHF garante caminhos lógicos e seguros para LLMs e o Ultralytics YOLO26.

Avaliar modelos complexos de inteligência artificial requer mais do que apenas verificar se a resposta final está correta. Uma técnica altamente especializada de aprendizagem por reforço atribui pontuações matemáticas a cada passo intermédio que uma IA dá durante uma tarefa, fornecendo feedback denso e ao nível de passo. Esta abordagem granular garante que o modelo não só chegue ao destino certo, como também siga caminhos lógicos, seguros e verificáveis para lá chegar.

Link to this sectionProcess Reward Models vs. Outcome Reward Models#

No contexto mais amplo de Reward Modeling, é importante distinguir entre a supervisão baseada em processos e a baseada em resultados. Os Outcome Reward Models (ORMs) tradicionais fornecem uma recompensa única e esparsa no final de uma geração. Embora os ORMs sejam mais fáceis de treinar, sofrem de uma grande desvantagem em tarefas complexas: podem inadvertidamente recompensar modelos que chegam à resposta correta através de lógica falha ou alucinações.

Um Process Reward Model (PRM) resolve isto ao avaliar toda a trajetória de raciocínio. Como popularizado pela investigação fundamental da OpenAI em artigos como Let's Verify Step by Step, um PRM aplica supervisão passo a passo a cada pensamento ou ação. Este é um componente crítico dos pipelines avançados de Reinforcement Learning from Human Feedback (RLHF), uma vez que orienta ativamente a otimização de políticas utilizando algoritmos como o Proximal Policy Optimization (PPO).

Link to this sectionAplicações no Mundo Real#

Os PRMs estão a transformar a forma como os Large Language Models (LLMs) e os sistemas autónomos operam em ambientes de alto risco:

  • Raciocínio Matemático: Ao avaliar equações linha a linha, os PRMs permitem que os modelos utilizem algoritmos como Best-of-N (BoN) sampling ou Monte Carlo Tree Search (MCTS) para explorar múltiplos caminhos de solução e selecionar a sequência mais logicamente sólida.
  • Geração de Código: Ao gerar software, verificar apenas se o script final funciona é insuficiente. Os PRMs fornecem supervisão de processos, pontuando funções individuais e blocos lógicos para garantir que o código seja eficiente, seguro e sustentável.
  • Investigação Operacional e Agentes Visuais: Avanços recentes em 2025 e 2026 expandiram os PRMs para além do texto. Por exemplo, a investigação operacional utiliza agora PRMs para validar algoritmos de agendamento complexos. Da mesma forma, agentes de IA visuais equipados com motores robustos de visão computacional, como o Ultralytics YOLO26, recebem recompensas passo a passo por navegar em ambientes físicos, em vez de apenas uma única recompensa por chegar a um destino.

Link to this sectionImplementar Feedback ao Nível de Passo#

Treinar um PRM requer a gestão de conjuntos de dados extensos onde cada sub-passo é avaliado por humanos ou por modelos de IA mais fortes. A gestão destes fluxos de trabalho intensivos de anotação de dados é simplificada com ferramentas baseadas na cloud como a Ultralytics Platform, que otimizam a organização e implementação de projetos.

Durante a inferência ou otimização de modelos, o PRM calcula uma perda ou recompensa acumulada com base na cadeia de passos. O seguinte snippet conceptual em Python usando torch demonstra como as recompensas ao nível do passo são penalizadas se um passo intermédio falhar, uma abordagem comum encontrada na documentação do PyTorch para pontuação de sequências:

import torch

# Simulate reward scores from a PRM for 3 consecutive reasoning steps
# Scores represent the probability of correctness for each step (0.0 to 1.0)
step_rewards = torch.tensor([0.95, 0.80, 0.15], requires_grad=True)

# The PRM aggregates the scores, heavily penalizing the poor 3rd step
# Negative log-likelihood is commonly used to optimize the trajectory
prm_loss = -torch.log(step_rewards).mean()

print(f"Calculated PRM Loss: {prm_loss.item():.4f}")
# During RLHF, this loss would guide hyperparameter tuning and model updates

Ao garantir que cada passo intermédio está alinhado com o comportamento esperado, podes implementar sistemas altamente fiáveis. Combinar a supervisão ao nível do processo com o ajuste de hiperparâmetros contínuo permite que os modelos de próxima geração raciocinem verdadeiramente sobre problemas de forma segura e eficaz.

Explore solutions

Real-time AI tailored to your operation

IA na Agricultura

Leve a IA de visão para a agricultura inteligente com os modelos Ultralytics YOLO. Potencialize o monitoramento de colheitas, rastreamento de gado e agricultura de precisão para obter rendimentos maiores e mais inteligentes.

Saiba mais
Real-time AI that works with your operation

IA no Setor Automotivo

Aplica visão computacional no setor automotivo com modelos Ultralytics YOLO. A IA de visão eleva a segurança viária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Saiba mais
Real-time AI that works with your team

IA na Saúde

Crie soluções para a saúde com modelos Ultralytics YOLO. A IA de visão na saúde potencializa diagnósticos mais inteligentes, monitoramento de pacientes e exames médicos mais rápidos.

Saiba mais
Real-time AI that works with your team

IA no Varejo

Reinvente o varejo com os modelos YOLO da Ultralytics. A IA de visão potencializa o rastreamento de inventário, o monitoramento de prateleiras, a gestão de filas e insights mais inteligentes sobre os clientes.

Saiba mais
Real-time AI that works with your team

IA em Robótica

Impulsione máquinas mais inteligentes com os modelos Ultralytics YOLO. A visão computacional por IA na robótica impulsiona a navegação autônoma, a percepção, o rastreamento de objetos e o controle em tempo real.

Saiba mais
Real-time AI that works with your team

IA na Manufatura

Otimize a manufatura com os modelos Ultralytics YOLO. A visão computacional impulsiona o controle de qualidade, a detecção de defeitos, a conformidade com EPIs e a automação de linhas de montagem.

Saiba mais
Real-time AI that works with your team

IA na logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Saiba mais
Real-time AI tailored to your operation

IA na Agricultura

Leve a IA de visão para a agricultura inteligente com os modelos Ultralytics YOLO. Potencialize o monitoramento de colheitas, rastreamento de gado e agricultura de precisão para obter rendimentos maiores e mais inteligentes.

Saiba mais
Real-time AI that works with your operation

IA no Setor Automotivo

Aplica visão computacional no setor automotivo com modelos Ultralytics YOLO. A IA de visão eleva a segurança viária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Saiba mais
Real-time AI that works with your team

IA na Saúde

Crie soluções para a saúde com modelos Ultralytics YOLO. A IA de visão na saúde potencializa diagnósticos mais inteligentes, monitoramento de pacientes e exames médicos mais rápidos.

Saiba mais
Real-time AI that works with your team

IA no Varejo

Reinvente o varejo com os modelos YOLO da Ultralytics. A IA de visão potencializa o rastreamento de inventário, o monitoramento de prateleiras, a gestão de filas e insights mais inteligentes sobre os clientes.

Saiba mais
Real-time AI that works with your team

IA em Robótica

Impulsione máquinas mais inteligentes com os modelos Ultralytics YOLO. A visão computacional por IA na robótica impulsiona a navegação autônoma, a percepção, o rastreamento de objetos e o controle em tempo real.

Saiba mais
Real-time AI that works with your team

IA na Manufatura

Otimize a manufatura com os modelos Ultralytics YOLO. A visão computacional impulsiona o controle de qualidade, a detecção de defeitos, a conformidade com EPIs e a automação de linhas de montagem.

Saiba mais
Real-time AI that works with your team

IA na logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Saiba mais
Real-time AI tailored to your operation

IA na Agricultura

Leve a IA de visão para a agricultura inteligente com os modelos Ultralytics YOLO. Potencialize o monitoramento de colheitas, rastreamento de gado e agricultura de precisão para obter rendimentos maiores e mais inteligentes.

Saiba mais
Real-time AI that works with your operation

IA no Setor Automotivo

Aplica visão computacional no setor automotivo com modelos Ultralytics YOLO. A IA de visão eleva a segurança viária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Saiba mais
Real-time AI that works with your team

IA na Saúde

Crie soluções para a saúde com modelos Ultralytics YOLO. A IA de visão na saúde potencializa diagnósticos mais inteligentes, monitoramento de pacientes e exames médicos mais rápidos.

Saiba mais
Real-time AI that works with your team

IA no Varejo

Reinvente o varejo com os modelos YOLO da Ultralytics. A IA de visão potencializa o rastreamento de inventário, o monitoramento de prateleiras, a gestão de filas e insights mais inteligentes sobre os clientes.

Saiba mais
Real-time AI that works with your team

IA em Robótica

Impulsione máquinas mais inteligentes com os modelos Ultralytics YOLO. A visão computacional por IA na robótica impulsiona a navegação autônoma, a percepção, o rastreamento de objetos e o controle em tempo real.

Saiba mais
Real-time AI that works with your team

IA na Manufatura

Otimize a manufatura com os modelos Ultralytics YOLO. A visão computacional impulsiona o controle de qualidade, a detecção de defeitos, a conformidade com EPIs e a automação de linhas de montagem.

Saiba mais
Real-time AI that works with your team

IA na logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Saiba mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática