Esplora la modellazione dei premi nell'apprendimento automatico. Scopri come utilizza il feedback umano per allineare gli agenti AI e i modelli Ultralytics per prestazioni più sicure e accurate.
La modellazione dei premi è una tecnica di apprendimento automatico utilizzata per insegnare ai sistemi di intelligenza artificiale come valutare e dare priorità ai propri comportamenti in base alle preferenze umane. Negli ambienti tradizionali di apprendimento per rinforzo, un agente AI apprende massimizzando una funzione di ricompensa predefinita e matematicamente rigida, come il punteggio in un videogioco. Tuttavia, per compiti complessi del mondo reale in cui il comportamento "corretto" è soggettivo o sfumato, come scrivere un'e-mail educata o attraversare un incrocio in sicurezza, scrivere a mano una funzione di ricompensa impeccabile è quasi impossibile. La modellazione della ricompensa risolve questo problema addestrando una rete neurale secondaria (il modello di ricompensa) ad agire come proxy per il giudizio umano. Questo modello valuta i risultati dell'IA primaria e assegna punteggi scalari, guidando dinamicamente il modello principale verso comportamenti sicuri, utili e accurati.
Il processo di creazione di un modello di ricompensa si basa in larga misura sulla raccolta di feedback umani di alta qualità.
È importante distinguere la modellazione della ricompensa dal Reinforcement Learning from Human Feedback (RLHF). Sebbene i due termini siano spesso discussi insieme, non sono sinonimi. L'RLHF è la pipeline completa end-to-end utilizzata per allineare i modelli, che comprende la messa a punto supervisionata, la raccolta dei dati e gli aggiornamenti delle politiche. La modellazione della ricompensa è una componente specifica e cruciale all'interno della pipeline RLHF. Funge da ponte che traduce le classifiche umane discrete in un segnale matematico continuo che l'algoritmo di apprendimento rinforzato può ottimizzare.
La modellizzazione dei premi è fondamentale per lo sviluppo di moderni sistemi di IA che interagiscono direttamente con gli esseri umani e il mondo fisico .
Il seguente Python utilizza torch per dimostrare la struttura fondamentale di un modello di ricompensa. In
pratica, questa rete apprende ad assegnare un punteggio scalare più elevato a un output che si allinea con le preferenze umane.
import torch
import torch.nn as nn
# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
def __init__(self):
super().__init__()
# Maps the AI's output embedding to a single reward score
self.fc = nn.Linear(768, 1)
def forward(self, embeddings):
return self.fc(embeddings)
# Initialize the model
reward_model = SimpleRewardModel()
# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)
# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")
Per approfondire l'impatto dell'allineamento sui modelli di base open source, esplora la ricerca fondamentale sull' allineamento dei modelli linguistici con l'intento umano e scopri come i sistemi di visione artificiale (CV) sfruttano avanzati circuiti di feedback per interagire in modo sicuro con ambienti dinamici.