Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Apprendimento per Rinforzo tramite Feedback Umano (RLHF)

Scopri come il Reinforcement Learning from Human Feedback (RLHF) affina le prestazioni dell'IA allineando i modelli ai valori umani per un'IA più sicura e intelligente.

Il Reinforcement Learning from Human Feedback (RLHF) è un sofisticato framework di apprendimento automatico (ML) che allinea sistemi di intelligenza artificiale (AI) con i valori, le preferenze e le intenzioni umane. A differenza del tradizionale apprendimento supervisionato, che addestra i modelli a replicare insiemi di dati statici, RLHF introduce un ciclo di feedback dinamico in cui i valutatori umani classificano i risultati dei modelli. Questi dati Questi dati di classificazione vengono utilizzati per addestrare un "modello di ricompensa", che successivamente guida l'intelligenza artificiale a generare risposte più utili, sicure e accurate, risposte più utili, sicure e precise. Questa tecnica si è dimostrata essenziale per lo sviluppo dei moderni modelli linguistici di grandi dimensioni (LLM) e IA generativa, garantendo che i potenti modelli modelli di base agiscano in base alle aspettative dell'utente, anziché limitarsi a prevedere statisticamente la parola o il pixel successivo.

Il flusso di lavoro di RLHF

Il processo di allineamento di un modello tramite RLHF segue generalmente una pipeline in tre fasi che colma il divario tra la capacità predittiva grezza e l'interazione umana. capacità predittiva grezza e l'interazione umana sfumata.

  1. Messa a punto supervisionata (SFT): Il processo inizia tipicamente con un modello di base pre-addestrato. modello di base pre-addestrato. Gli sviluppatori utilizzano fine-tuning su un set di dati più piccolo e di alta qualità di esempi esempi curati (come dialoghi o dimostrazioni) per insegnare al modello il formato di base del compito desiderato.
  2. Formazione sul modello di ricompensa: È il cuore di RLHF. Gli annotatori umani esaminano i risultati multipli generati dal modello per lo stesso input e li classificano dal migliore al peggiore. Questo processo di etichettatura dei dati crea un set di preferenze. Una rete neurale separata, nota come modello di ricompensa, viene addestrata su questi dati di confronto per prevedere un punteggio scalare di ricompensa che imita il giudizio umano.
  3. Ottimizzazione dell'apprendimento per rinforzo: Il modello originale diventa effettivamente un agente AI all'interno di un apprendimento per rinforzo. Utilizzando il modello di ricompensa come guida, gli algoritmi come Ottimizzazione della politica prossimale (PPO) regolano i parametri dell'agente per massimizzare la ricompensa prevista. Questo passaggio altera fondamentalmente la politica del modello in modo da azioni, come il rifiuto cortese di richieste dannose, che si allineano alle preferenze umane apprese.

RLHF vs. Apprendimento per rinforzo standard

Sebbene entrambi gli approcci si basino sulla massimizzazione di una ricompensa, la fonte di tale ricompensa li differenzia in modo significativo.

  • Apprendimento per rinforzo (RL) standard: Nell'RL tradizionale, la funzione di ricompensa è spesso codificata o definita matematicamente dall'ambiente. matematicamente definita dall'ambiente. Per esempio, in una partita a scacchi, l'ambiente fornisce un chiaro segnale: +1 per una vittoria, -1 per una sconfitta. L'agente impara per tentativi ed errori all'interno di questo processo decisionale definito. Processo decisionale di Markov (MDP).
  • RLHF: In molti compiti del mondo reale, come scrivere un riassunto o guidare un'auto in modo educato, una formula matematica per il "successo" è impossibile da definire esplicitamente. formula matematica per il "successo" è impossibile da definire esplicitamente. RLHF risolve questo problema sostituendo la ricompensa con un modello di ricompensa appreso, derivato dal feedback umano. Questo permette di ottimizzare concetti astratti come come "disponibilità" o "sicurezza", che sono difficili da programmare direttamente.

Applicazioni nel mondo reale

L'RLHF ha trasformato il modo in cui i sistemi di intelligenza artificiale interagiscono con il mondo, in particolare nei domini che richiedono elevati standard di sicurezza e una comprensione ricca di sfumature.

  • IA conversazionale e chatbot: L'uso più importante della RLHF è quello di allineare i chatbot in modo da essere utili e innocui. Penalizzando gli output tossici, tendenziosi o di fatto errati, RLHF aiuta a mitigare le allucinazione nei LLM e riduce i algoritmici. Garantisce che gli assistenti possano rifiutare istruzioni pericolose, pur rimanendo utili per le interrogazioni legittime.
  • Robotica e agenti autonomi: Al di là del testo, la RLHF è applicata alla robotica per insegnare agli agenti compiti fisici complessi. Per esempio Ad esempio, un braccio robotico che impara ad afferrare oggetti fragili potrebbe ricevere un feedback da supervisori umani su quali tentativi di presa sono stati sicuri tentativi di presa sicuri rispetto ai fallimenti distinti. Questo feedback affina la politica di controllo in modo più efficace rispetto al semplice di un semplice apprendimento profondo basato basato esclusivamente sul completamento del compito. Metodi simili aiutano i veicoli autonomi nell'apprendimento di comportamenti di guida comportamenti di guida che risultano naturali ai passeggeri umani.

Integrare la percezione con la RLHF

Nelle applicazioni visive, gli agenti RLHF spesso si affidano alla computer vision (CV) per percepire lo stato dell'ambiente. dell'ambiente. Un rilevatore robusto, come YOLO11può occhi" del sistema, fornendo osservazioni strutturate (ad esempio, "rilevato un pedone a sinistra") che la rete di policy utilizza per selezionare un'azione. sinistra") che la rete di policy utilizza per selezionare un'azione.

L'esempio seguente illustra un concetto semplificato in cui un modello YOLO fornisce lo stato ambientale di un agente. agente. In un ciclo RLHF completo, la "ricompensa" sarebbe determinata da un modello addestrato in base alle preferenze umane umano in merito alla fiducia o all'accuratezza dell'agente.

from ultralytics import YOLO

# Load YOLO11 to act as the perception layer for an RL agent
model = YOLO("yolo11n.pt")

# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")

# In an RL loop, the agent's 'reward' might depend on detecting critical objects
# Here, we simulate a simple reward based on the confidence of detections
# In RLHF, this reward function would be a complex learned model
observed_reward = sum(box.conf.item() for box in results[0].boxes)

print(f"Agent Observation: Detected {len(results[0].boxes)} objects.")
print(f"Simulated Reward Signal: {observed_reward:.2f}")

Combinando potenti modelli di percezione con politiche allineate attraverso il feedback umano, gli sviluppatori possono costruire sistemi che non solo intelligenti, ma anche rigorosamente controllati per la sicurezza dell'intelligenza artificiale. La ricerca sulla supervisione scalabile, come la IA costituzionale, continua a far evolvere questo campo, con l'obiettivo di ridurre la pesante dipendenza dall'annotazione umana su larga scala.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora