Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Modellizzazione dei premi

Esplora la modellazione dei premi nell'apprendimento automatico. Scopri come utilizza il feedback umano per allineare gli agenti AI e i modelli Ultralytics per prestazioni più sicure e accurate.

La modellazione dei premi è una tecnica di apprendimento automatico utilizzata per insegnare ai sistemi di intelligenza artificiale come valutare e dare priorità ai propri comportamenti in base alle preferenze umane. Negli ambienti tradizionali di apprendimento per rinforzo, un agente AI apprende massimizzando una funzione di ricompensa predefinita e matematicamente rigida, come il punteggio in un videogioco. Tuttavia, per compiti complessi del mondo reale in cui il comportamento "corretto" è soggettivo o sfumato, come scrivere un'e-mail educata o attraversare un incrocio in sicurezza, scrivere a mano una funzione di ricompensa impeccabile è quasi impossibile. La modellazione della ricompensa risolve questo problema addestrando una rete neurale secondaria (il modello di ricompensa) ad agire come proxy per il giudizio umano. Questo modello valuta i risultati dell'IA primaria e assegna punteggi scalari, guidando dinamicamente il modello principale verso comportamenti sicuri, utili e accurati.

Come funziona il modello di ricompensa

Il processo di creazione di un modello di ricompensa si basa in larga misura sulla raccolta di feedback umani di alta qualità.

  • Etichettatura dei dati e preferenze: Agli annotatori umani vengono fornite delle indicazioni insieme a diverse risposte generate da un modello di intelligenza artificiale. I valutatori classificano queste risposte dalla migliore alla peggiore in base a criteri quali utilità, innocuità e accuratezza. La gestione di questi flussi di lavoro di annotazione su larga scala può essere gestita in modo trasparente utilizzando Ultralytics .
  • Addestramento della rete proxy: una rete neurale specializzata viene addestrata su questo set di dati di confronti umani . Attraverso un processo di ottimizzazione, impara a prevedere quale output preferirebbe un essere umano, mappando gli embedding di un'azione o di una risposta testuale a un singolo valore di ricompensa scalare. Per ulteriori informazioni sulla creazione di architetture di reti neurali, consultare la documentazionePyTorch .
  • Ottimizzazione delle politiche: il modello primario utilizza il feedback continuo dal modello di ricompensa per perfezionare le sue azioni, utilizzando in genere algoritmi come la Proximal Policy Optimization (PPO). Questo passaggio allinea in modo iterativo la politica del modello con l'intento umano appreso.

Modellizzazione dei premi vs. RLHF

È importante distinguere la modellazione della ricompensa dal Reinforcement Learning from Human Feedback (RLHF). Sebbene i due termini siano spesso discussi insieme, non sono sinonimi. L'RLHF è la pipeline completa end-to-end utilizzata per allineare i modelli, che comprende la messa a punto supervisionata, la raccolta dei dati e gli aggiornamenti delle politiche. La modellazione della ricompensa è una componente specifica e cruciale all'interno della pipeline RLHF. Funge da ponte che traduce le classifiche umane discrete in un segnale matematico continuo che l'algoritmo di apprendimento rinforzato può ottimizzare.

Applicazioni nel mondo reale

La modellizzazione dei premi è fondamentale per lo sviluppo di moderni sistemi di IA che interagiscono direttamente con gli esseri umani e il mondo fisico .

  • Modelli linguistici di grandi dimensioni (LLM): Gli assistenti AI conversazionali si basano su modelli di ricompensa per garantire che le loro risposte non solo siano corrette dal punto di vista fattuale, ma anche educate, pertinenti e prive di linguaggio tossico. Le organizzazioni che esplorano la sicurezza dell'AI migliorano continuamente la modellizzazione delle ricompense per costruire sistemi che riflettano un allineamento dell'AI utile e innocuo.
  • Veicoli autonomi e robotica: Nell'automazione fisica, i modelli di ricompensa aiutano i robot a comprendere le complesse regole di guida o le strategie di manipolazione degli oggetti . Un sistema di percezione alimentato da Ultralytics potrebbe detect e i segnali stradali , mentre un modello di ricompensa valuta la traiettoria pianificata del veicolo, garantendo che l'IA dia la priorità al comfort e alla sicurezza dei passeggeri rispetto alla navigazione puramente aggressiva da punto a punto.

Implementazione di un modello di ricompensa di base

Il seguente Python utilizza torch per dimostrare la struttura fondamentale di un modello di ricompensa. In pratica, questa rete apprende ad assegnare un punteggio scalare più elevato a un output che si allinea con le preferenze umane.

import torch
import torch.nn as nn


# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
    def __init__(self):
        super().__init__()
        # Maps the AI's output embedding to a single reward score
        self.fc = nn.Linear(768, 1)

    def forward(self, embeddings):
        return self.fc(embeddings)


# Initialize the model
reward_model = SimpleRewardModel()

# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)

# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")

Per approfondire l'impatto dell'allineamento sui modelli di base open source, esplora la ricerca fondamentale sull' allineamento dei modelli linguistici con l'intento umano e scopri come i sistemi di visione artificiale (CV) sfruttano avanzati circuiti di feedback per interagire in modo sicuro con ambienti dinamici.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora