Descubra como os Modelos de Recompensa de Processo (PRM) melhoram o raciocínio da IA. Saiba como o feedback por etapas no RLHF garante percursos lógicos e seguros para os LLMs e Ultralytics .
A avaliação de modelos complexos de inteligência artificial requer mais do que apenas verificar se a resposta final está correta. Uma técnica altamente especializada de aprendizagem por reforço atribui pontuações matemáticas a cada passo intermédio que a IA dá durante uma tarefa, proporcionando um feedback detalhado, passo a passo. Esta abordagem granular garante que o modelo não só chega ao destino certo, como também segue percursos lógicos, seguros e verificáveis para lá chegar.
No contexto mais amplo da modelagem por recompensa, é importante distinguir entre supervisão baseada em processos e supervisão baseada em resultados. Os modelos tradicionais de recompensa por resultados (ORMs) fornecem uma única recompensa, de pouca frequência, no final de uma geração. Embora os ORMs sejam mais fáceis de treinar, apresentam uma grande desvantagem em tarefas complexas: podem, inadvertidamente, recompensar modelos que chegam à resposta correta através de uma lógica falha ou de alucinações.
Um Modelo de Recompensa de Processo (PRM) resolve esta questão através da avaliação de toda a trajetória do raciocínio. Tal como popularizado pela investigação fundamental da OpenAI em artigos como Vamos Verificar Passo a Passo, um PRM aplica supervisão passo a passo a cada pensamento ou ação. Este é um componente crítico dos fluxos de trabalho avançados de Aprendizagem por Reforço a partir de Feedback Humano (RLHF) , uma vez que orienta ativamente a otimização de políticas utilizando algoritmos como a Otimização de Políticas Proximais (PPO).
Os PRMs estão a transformar a forma como os Modelos de Linguagem de Grande Escala (LLMs) e os sistemas autónomos funcionam em ambientes de alto risco:
A formação de um PRM requer a gestão de conjuntos de dados extensos, em que cada subetapa é avaliada por seres humanos ou por modelos de IA mais avançados. A gestão destes fluxos de trabalho intensivos de anotação de dados é simplificada com ferramentas baseadas na nuvem, como a Ultralytics , que otimizam a organização e a implementação dos projetos.
Durante a inferência ou
otimização do modelo, o PRM
calcula uma perda ou recompensa acumulada com base na sequência de passos. O seguinte Python conceptual Python utilizando
torch demonstra como as recompensas por etapa são penalizadas se uma etapa intermédia falhar, uma abordagem comum
encontrada no PyTorch para a avaliação de sequências:
import torch
# Simulate reward scores from a PRM for 3 consecutive reasoning steps
# Scores represent the probability of correctness for each step (0.0 to 1.0)
step_rewards = torch.tensor([0.95, 0.80, 0.15], requires_grad=True)
# The PRM aggregates the scores, heavily penalizing the poor 3rd step
# Negative log-likelihood is commonly used to optimize the trajectory
prm_loss = -torch.log(step_rewards).mean()
print(f"Calculated PRM Loss: {prm_loss.item():.4f}")
# During RLHF, this loss would guide hyperparameter tuning and model updates
Ao garantir que cada etapa intermédia esteja alinhada com o comportamento esperado, os programadores podem implementar sistemas altamente fiáveis. A combinação da supervisão ao nível do processo com o ajuste contínuo dos hiperparâmetros permite que os modelos de última geração analisem verdadeiramente os problemas de forma segura e eficaz.
Comece sua jornada com o futuro do aprendizado de máquina