Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Torna al glossario Ultralytics

Reward Modeling

Esplora la reward modeling nel machine learning. Scopri come utilizza il feedback umano per allineare gli agenti AI e i modelli Ultralytics YOLO26 per prestazioni più sicure e precise.

La reward modeling è una tecnica di machine learning utilizzata per insegnare ai sistemi di intelligenza artificiale come valutare e dare priorità ai propri comportamenti in base alle preferenze umane. Nei tradizionali ambienti di reinforcement learning, un AI agent impara massimizzando una funzione di ricompensa matematicamente rigida e predefinita, come il punteggio in un videogioco. Tuttavia, per attività complesse del mondo reale in cui un comportamento "buono" è soggettivo o ricco di sfumature, come scrivere un'email educata o attraversare un incrocio in sicurezza, scrivere una funzione di ricompensa impeccabile a mano è quasi impossibile. La reward modeling risolve questo problema addestrando una neural network secondaria (il reward model) per fungere da proxy per il giudizio umano. Questo modello valuta gli output dell'AI primaria e assegna punteggi scalari, guidando dinamicamente il modello principale verso comportamenti sicuri, utili e precisi.

Link to this sectionCome funziona la Reward Modeling#

La pipeline per la creazione di un reward model si basa pesantemente sulla raccolta di feedback umano di alta qualità.

  • Data Labeling e Preferenze: Agli annotatori umani vengono forniti prompt insieme a molteplici risposte generate da un modello AI. I valutatori classificano queste risposte dalla migliore alla peggiore in base a criteri come utilità, innocuità e precisione. La gestione di questi flussi di lavoro di annotazione su larga scala può essere gestita senza problemi utilizzando la Ultralytics Platform.
  • Addestramento della rete proxy: Una rete neurale specializzata viene addestrata su questo dataset di confronti umani. Attraverso un processo di ottimizzazione, impara a prevedere quale output un essere umano preferirebbe, mappando gli embeddings di un'azione o di una risposta testuale su un singolo valore di ricompensa scalare. Puoi leggere di più sulla creazione di architetture di reti neurali nella PyTorch API documentation.
  • Ottimizzazione della policy: Il modello principale utilizza il feedback continuo dal reward model per affinare le proprie azioni, solitamente utilizzando algoritmi come Proximal Policy Optimization (PPO). Questo passaggio allinea iterativamente la policy del modello con l'intento umano appreso.

Link to this sectionReward Modeling vs. RLHF#

È importante distinguere la reward modeling dal Reinforcement Learning from Human Feedback (RLHF). Sebbene i due termini siano spesso discussi insieme, non sono sinonimi. L'RLHF è la pipeline end-to-end completa utilizzata per allineare i modelli, che comprende fine-tuning supervisionato, raccolta dati e aggiornamenti della policy. La reward modeling è uno componente specifico e cruciale all'interno della pipeline RLHF. Funge da ponte che traduce le classifiche umane discrete in un segnale matematico continuo rispetto al quale l'algoritmo di reinforcement learning può ottimizzare.

Link to this sectionApplicazioni nel mondo reale#

La reward modeling è strumentale nello sviluppo di moderni sistemi AI che interagiscono direttamente con gli esseri umani e il mondo fisico.

  • Large Language Models (LLMs): Gli assistenti AI conversazionali si affidano ai reward model per garantire che le loro risposte non siano solo fattualmente corrette ma anche educate, pertinenti e prive di linguaggio tossico. Le organizzazioni che esplorano l'AI safety fanno avanzare continuamente la reward modeling per costruire sistemi che riflettano l'helpful and harmless AI alignment.
  • Autonomous Vehicles e Robotica: Nell'automazione fisica, i reward model aiutano i robot a comprendere complesse etichette di guida o strategie di manipolazione degli oggetti. Un sistema di percezione alimentato da Ultralytics YOLO26 potrebbe rilevare pedoni e segnali stradali, mentre un reward model valuta la traiettoria pianificata del veicolo, garantendo che l'AI dia priorità al comfort e alla sicurezza dei passeggeri rispetto a una navigazione puramente aggressiva punto-a-punto.

Link to this sectionImplementazione di un concetto base di Reward Model#

Il seguente esempio in Python utilizza torch per dimostrare la struttura fondamentale di un reward model. In pratica, questa rete impara ad assegnare un punteggio scalare più alto a un output che si allinea con le preferenze umane.

import torch
import torch.nn as nn


# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
    def __init__(self):
        super().__init__()
        # Maps the AI's output embedding to a single reward score
        self.fc = nn.Linear(768, 1)

    def forward(self, embeddings):
        return self.fc(embeddings)


# Initialize the model
reward_model = SimpleRewardModel()

# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)

# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")

Per un approfondimento su come l'allineamento influenzi i foundation model open-source, esplora la ricerca fondamentale sull'allineamento dei modelli linguistici con l'intento umano e scopri come i sistemi di computer vision (CV) sfruttano cicli di feedback avanzati per interagire in modo sicuro con ambienti dinamici.

Explore solutions

Real-time AI tailored to your operation

IA in agricoltura

Porta l'IA visiva nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per raccolti più elevati e intelligenti.

Scopri di più
Real-time AI that works with your operation

IA nel settore automobilistico

Applica la computer vision nel settore automobilistico con i modelli Ultralytics YOLO. La Vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI that works with your team

IA nell'assistenza sanitaria

Sviluppa soluzioni sanitarie con i modelli Ultralytics YOLO. L'IA di visione nell'assistenza sanitaria potenzia l'imaging medico, la diagnostica più intelligente e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

AI nel settore retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI potenzia il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e offre insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

L'AI nella robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI potenzia il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della catena di montaggio.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. L'IA basata sulla visione artificiale consente l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio in tempo reale della sicurezza nei magazzini.

Scopri di più
Real-time AI tailored to your operation

IA in agricoltura

Porta l'IA visiva nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per raccolti più elevati e intelligenti.

Scopri di più
Real-time AI that works with your operation

IA nel settore automobilistico

Applica la computer vision nel settore automobilistico con i modelli Ultralytics YOLO. La Vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI that works with your team

IA nell'assistenza sanitaria

Sviluppa soluzioni sanitarie con i modelli Ultralytics YOLO. L'IA di visione nell'assistenza sanitaria potenzia l'imaging medico, la diagnostica più intelligente e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

AI nel settore retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI potenzia il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e offre insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

L'AI nella robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI potenzia il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della catena di montaggio.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. L'IA basata sulla visione artificiale consente l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio in tempo reale della sicurezza nei magazzini.

Scopri di più
Real-time AI tailored to your operation

IA in agricoltura

Porta l'IA visiva nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per raccolti più elevati e intelligenti.

Scopri di più
Real-time AI that works with your operation

IA nel settore automobilistico

Applica la computer vision nel settore automobilistico con i modelli Ultralytics YOLO. La Vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI that works with your team

IA nell'assistenza sanitaria

Sviluppa soluzioni sanitarie con i modelli Ultralytics YOLO. L'IA di visione nell'assistenza sanitaria potenzia l'imaging medico, la diagnostica più intelligente e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

AI nel settore retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI potenzia il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e offre insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

L'AI nella robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI potenzia il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della catena di montaggio.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. L'IA basata sulla visione artificiale consente l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio in tempo reale della sicurezza nei magazzini.

Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning