Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Torna al glossario Ultralytics

Process Reward Model (PRM)

Esplora come i Process Reward Models (PRM) migliorano il ragionamento dell'IA. Scopri come il feedback a livello di passaggio nel RLHF garantisce percorsi logici e sicuri per i LLM e Ultralytics YOLO26.

Valutare modelli di intelligenza artificiale complessi richiede molto più del semplice controllo della correttezza della risposta finale. Una tecnica altamente specializzata di reinforcement learning assegna punteggi matematici a ogni passaggio intermedio che un'IA compie durante un'attività, fornendo un feedback denso a livello di passaggio. Questo approccio granulare assicura che il modello non solo arrivi alla destinazione corretta, ma segua anche percorsi logici, sicuri e verificabili per arrivarci.

Link to this sectionProcess Reward Models vs. Outcome Reward Models#

Nel contesto più ampio del Reward Modeling, è importante distinguere tra supervisione basata sul processo e basata sul risultato. I tradizionali Outcome Reward Models (ORM) forniscono un singolo feedback sparso alla fine di una generazione. Sebbene gli ORM siano più facili da addestrare, soffrono di uno svantaggio significativo nelle attività complesse: possono inavvertitamente premiare modelli che arrivano alla risposta corretta attraverso una logica errata o allucinazioni.

Un Process Reward Model (PRM) risolve questo problema valutando l'intera traiettoria di ragionamento. Come reso popolare dalla ricerca fondamentale di OpenAI in articoli come Let's Verify Step by Step, un PRM applica una supervisione graduale a ogni pensiero o azione. Questo è un componente critico delle pipeline avanzate di Reinforcement Learning from Human Feedback (RLHF), poiché guida attivamente l'ottimizzazione della policy utilizzando algoritmi come Proximal Policy Optimization (PPO).

Link to this sectionApplicazioni nel mondo reale#

I PRM stanno trasformando il modo in cui i Large Language Models (LLM) e i sistemi autonomi operano in ambienti ad alto rischio:

  • Ragionamento matematico: Valutando le equazioni riga per riga, i PRM consentono ai modelli di utilizzare algoritmi come Best-of-N (BoN) sampling o Monte Carlo Tree Search (MCTS) per esplorare molteplici percorsi di soluzione e selezionare la sequenza logicamente più solida.
  • Generazione di codice: Quando si genera software, verificare semplicemente se lo script finale viene eseguito non è sufficiente. I PRM forniscono una supervisione del processo, valutando le singole funzioni e i blocchi logici per garantire che il codice sia efficiente, sicuro e manutenibile.
  • Ricerca operativa e agenti visivi: I recenti progressi nel 2025 e 2026 hanno esteso i PRM oltre il testo. Ad esempio, la ricerca operativa ora utilizza i PRM per convalidare algoritmi di pianificazione complessi. Allo stesso modo, gli agenti IA visivi dotati di robusti motori di computer vision come Ultralytics YOLO26 ricevono premi passo dopo passo per la navigazione in ambienti fisici, invece di un unico premio per aver raggiunto una destinazione.

Link to this sectionImplementazione del feedback a livello di passaggio#

L'addestramento di un PRM richiede la gestione di vasti dataset in cui ogni sotto-passaggio viene valutato da esseri umani o da modelli di IA più potenti. La gestione di questi intensi flussi di lavoro di data annotation è semplificata con strumenti basati su cloud come la Ultralytics Platform, che ottimizzano l'organizzazione e il deployment dei progetti.

Durante l'inferenza o l'ottimizzazione del modello, il PRM calcola una perdita o un premio cumulativo basato sulla catena di passaggi. Il seguente snippet concettuale in Python che utilizza torch mostra come i premi a livello di passaggio vengano penalizzati se un passaggio intermedio fallisce, un approccio comune presente nella documentazione di PyTorch per la valutazione delle sequenze:

import torch

# Simulate reward scores from a PRM for 3 consecutive reasoning steps
# Scores represent the probability of correctness for each step (0.0 to 1.0)
step_rewards = torch.tensor([0.95, 0.80, 0.15], requires_grad=True)

# The PRM aggregates the scores, heavily penalizing the poor 3rd step
# Negative log-likelihood is commonly used to optimize the trajectory
prm_loss = -torch.log(step_rewards).mean()

print(f"Calculated PRM Loss: {prm_loss.item():.4f}")
# During RLHF, this loss would guide hyperparameter tuning and model updates

Assicurando che ogni passaggio intermedio sia allineato con il comportamento atteso, gli sviluppatori possono distribuire sistemi altamente affidabili. Combinare la supervisione a livello di processo con una hyperparameter tuning continua consente ai modelli di nuova generazione di ragionare veramente sui problemi in modo sicuro ed efficace.

Explore solutions

Real-time AI tailored to your operation

IA in agricoltura

Porta l'IA visiva nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per raccolti più elevati e intelligenti.

Scopri di più
Real-time AI that works with your operation

IA nel settore automobilistico

Applica la computer vision nel settore automobilistico con i modelli Ultralytics YOLO. La Vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI that works with your team

IA nell'assistenza sanitaria

Sviluppa soluzioni sanitarie con i modelli Ultralytics YOLO. L'IA di visione nell'assistenza sanitaria potenzia l'imaging medico, la diagnostica più intelligente e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

AI nel settore retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI potenzia il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e offre insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

L'AI nella robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI potenzia il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della catena di montaggio.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. L'IA basata sulla visione artificiale consente l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio in tempo reale della sicurezza nei magazzini.

Scopri di più
Real-time AI tailored to your operation

IA in agricoltura

Porta l'IA visiva nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per raccolti più elevati e intelligenti.

Scopri di più
Real-time AI that works with your operation

IA nel settore automobilistico

Applica la computer vision nel settore automobilistico con i modelli Ultralytics YOLO. La Vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI that works with your team

IA nell'assistenza sanitaria

Sviluppa soluzioni sanitarie con i modelli Ultralytics YOLO. L'IA di visione nell'assistenza sanitaria potenzia l'imaging medico, la diagnostica più intelligente e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

AI nel settore retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI potenzia il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e offre insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

L'AI nella robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI potenzia il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della catena di montaggio.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. L'IA basata sulla visione artificiale consente l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio in tempo reale della sicurezza nei magazzini.

Scopri di più
Real-time AI tailored to your operation

IA in agricoltura

Porta l'IA visiva nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per raccolti più elevati e intelligenti.

Scopri di più
Real-time AI that works with your operation

IA nel settore automobilistico

Applica la computer vision nel settore automobilistico con i modelli Ultralytics YOLO. La Vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI that works with your team

IA nell'assistenza sanitaria

Sviluppa soluzioni sanitarie con i modelli Ultralytics YOLO. L'IA di visione nell'assistenza sanitaria potenzia l'imaging medico, la diagnostica più intelligente e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

AI nel settore retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI potenzia il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e offre insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

L'AI nella robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI potenzia il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della catena di montaggio.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. L'IA basata sulla visione artificiale consente l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio in tempo reale della sicurezza nei magazzini.

Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning