Glossario

Apprendimento con rinforzo dal feedback umano (RLHF)

Scopri come il Reinforcement Learning from Human Feedback (RLHF) perfeziona le prestazioni dell'IA allineando i modelli ai valori umani per un'IA più sicura e intelligente.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

Il Reinforcement Learning from Human Feedback (RLHF) è una tecnica avanzata di apprendimento automatico (ML) progettata per allineare maggiormente i modelli di intelligenza artificiale, in particolare i modelli linguistici di grandi dimensioni (LLM) e altri sistemi generativi, alle intenzioni e alle preferenze umane. Raffina il paradigma standard dell'apprendimento per rinforzo (RL) incorporando il feedback umano direttamente nel ciclo di addestramento, guidando l'intelligenza artificiale (AI) ad apprendere comportamenti utili, innocui e onesti, anche quando queste qualità sono difficili da specificare attraverso le tradizionali funzioni di ricompensa. Questo approccio è fondamentale per sviluppare sistemi di intelligenza artificiale più sicuri e utili, andando oltre le semplici metriche di accuratezza per ottenere prestazioni sfumate e in linea con i valori umani.

Come funziona RLHF

L'RLHF comporta in genere un processo in più fasi che integra il giudizio umano per addestrare un modello di ricompensa, che poi guida la messa a punto del modello primario dell'intelligenza artificiale:

  1. Pre-training di un modello: Un modello iniziale (ad esempio, un LLM) viene addestrato con metodi standard, spesso con apprendimento supervisionato, su un ampio set di dati. Questo modello è in grado di generare contenuti rilevanti ma può mancare di un allineamento specifico.
  2. Raccolta del feedback umano: Il modello pre-addestrato genera diversi output per varie richieste. I valutatori umani classificano questi risultati in base alla qualità, all'utilità, all'innocuità o ad altri criteri desiderati. Questo feedback comparativo è spesso più affidabile e facile da fornire rispetto ai punteggi assoluti. Questi dati costituiscono un set di dati sulle preferenze.
  3. Formazione di un modello di ricompensa: Un modello separato, noto come modello di ricompensa, viene addestrato sui dati delle preferenze umane. Il suo obiettivo è quello di prevedere quale uscita preferirebbe un essere umano, imparando essenzialmente a imitare il giudizio umano e ad assegnare un segnale di ricompensa scalare.
  4. Messa a punto con l'apprendimento per rinforzo: Il modello originale dell'intelligenza artificiale viene poi perfezionato utilizzando la RL (in particolare, algoritmi come il Proximal Policy Optimization (PPO)). Il modello di ricompensa fornisce il segnale di ricompensa durante questa fase. Il modello di intelligenza artificiale esplora diversi output e quelli favoriti dal modello di ricompensa vengono rafforzati, guidando il comportamento del modello verso le preferenze umane. I concetti fondamentali della RL sono descritti in dettaglio in risorse come l'introduzione di Sutton & Barto.

Questo ciclo iterativo aiuta il modello di intelligenza artificiale ad apprendere obiettivi complessi e soggettivi che sono difficili da definire programmaticamente, migliorando aspetti come l'etica dell'intelligenza artificiale e riducendo i pregiudizi degli algoritmi.

RLHF vs. concetti correlati

  • Apprendimento per rinforzo (RL) standard: L'RL tradizionale si basa su funzioni di ricompensa esplicitamente programmate in base agli stati ambientali e alle azioni. L'RLHF lo sostituisce o lo integra con un modello di ricompensa appreso basato sulle preferenze umane, consentendo di cogliere obiettivi più sfumati o soggettivi. Esplora il deep reinforcement learning per tecniche di RL più avanzate.
  • IA costituzionale (CAI): Sviluppato da AnthropicCAI è una tecnica di allineamento alternativa. Mentre la RLHF utilizza il feedback umano per addestrare il modello di ricompensa sia per la disponibilità che per l'innocuità, la CAI utilizza il feedback dell'IA guidato da una "costituzione" predefinita (un insieme di regole o principi) per supervisionare il modello per l'innocuità, spesso utilizzando ancora il feedback umano per la disponibilità. Per saperne di più sulla CAI, leggi la ricerca diAnthropic.

Applicazioni chiave di RLHF

La RLHF è diventata sempre più importante nelle applicazioni in cui il comportamento dell'IA deve allinearsi strettamente ai valori e alle aspettative umane:

  • Migliorare i chatbot e gli assistenti virtuali: Rendere l'IA conversazionale più coinvolgente, utile e meno incline a generare risposte dannose, distorte o insensate. Ciò comporta la messa a punto di modelli come il GPT-4.
  • Generazione di contenuti: Affinare i modelli per attività come la sintesi di testi o la generazione di testi per produrre risultati che corrispondano meglio agli stili o agli standard di qualità desiderati.
  • Personalizzazione dei sistemi di raccomandazione: Regolare i motori di raccomandazione per suggerire contenuti che gli utenti trovano realmente interessanti o utili, al di là della semplice percentuale di click.
  • Sviluppare veicoli autonomi più sicuri: Incorporare le preferenze umane sullo stile di guida (ad esempio, scorrevolezza, assertività) insieme alle regole di sicurezza.

Esempi del mondo reale

Allineamento dei chatbot

Aziende come OpenAI e Anthropic utilizzano ampiamente RLHF per addestrare i loro modelli linguistici di grandi dimensioni (ad es, ChatGPT, Claude). Chiedendo agli esseri umani di classificare le diverse risposte generate dall'intelligenza artificiale in base all'utilità e all'innocuità, addestrano modelli di ricompensa che guidano i LLM a produrre testi più sicuri, più etici e più utili. Questo aiuta a mitigare i rischi associati a risultati dannosi o distorti e aderisce ai principi dello sviluppo responsabile dell'IA.

Preferenze di guida autonoma

Nello sviluppo dell'intelligenza artificiale per le auto a guida autonoma, la RLHF può incorporare il feedback dei conducenti o dei passeggeri sui comportamenti di guida simulati (ad esempio, il comfort durante i cambi di corsia, la fluidità dell'accelerazione, il processo decisionale in situazioni ambigue). Questo aiuta l'IA ad apprendere stili di guida che non solo sono sicuri in base a parametri oggettivi come la distanza o i limiti di velocità, ma che risultano anche confortevoli e intuitivi per gli esseri umani, aumentando la fiducia e l'accettazione da parte degli utenti. Questo integra le tradizionali attività di computer vision, come il rilevamento degli oggetti, eseguite da modelli come Ultralytics YOLO.

Vantaggi di RLHF

  • Miglioramento dell'allineamento: Incorpora direttamente le preferenze umane, portando a sistemi di intelligenza artificiale che corrispondono meglio alle intenzioni e ai valori degli utenti.
  • Gestione della soggettività: Efficace per compiti in cui la qualità è soggettiva e difficile da definire con una semplice metrica (ad esempio, creatività, cortesia, sicurezza).
  • Sicurezza migliorata: Aiuta a ridurre la probabilità che l'IA generi contenuti dannosi, non etici o tendenziosi, imparando dai giudizi umani sui risultati indesiderati.
  • Adattabilità: Permette di mettere a punto i modelli per domini o gruppi di utenti specifici sulla base di un feedback mirato.

Sfide e direzioni future

Nonostante i suoi punti di forza, RLHF deve affrontare delle sfide:

  • Scalabilità e costi: Raccogliere feedback umani di alta qualità può essere costoso e richiede molto tempo.
  • Qualità del feedback e distorsioni: le preferenze umane possono essere incoerenti, distorte o prive di esperienza, il che può portare a distorsioni nel modello di ricompensa. Garantire un feedback diversificato e rappresentativo è fondamentale.
  • Reward Hacking: L'IA potrebbe trovare il modo di massimizzare la ricompensa prevista dal modello di ricompensa senza soddisfare effettivamente la preferenza umana prevista (noto come reward hacking o gioco delle specifiche).
  • Complessità: l'implementazione dell'intera pipeline RLHF richiede competenze in diverse aree del ML, tra cui l'apprendimento supervisionato, l'apprendimento per rinforzo e la gestione della formazione di modelli su larga scala.

La ricerca futura si concentra su metodi di feedback più efficienti (ad esempio, utilizzando l'assistenza dell'IA per l'etichettatura), attenuando i pregiudizi, migliorando la robustezza dei modelli di ricompensa e applicando l'RLHF a una gamma più ampia di compiti di IA. Strumenti come la libreria TRL diHugging Face facilitano l'implementazione di RLHF. Piattaforme come Ultralytics HUB forniscono un'infrastruttura per la gestione dei dataset e dei modelli di addestramento, che in futuro potrebbero integrare meccanismi di feedback umano per compiti di allineamento specializzati in aree come la computer vision. Per maggiori dettagli su come iniziare a utilizzare queste piattaforme, consulta la guidaUltralytics HUB Quickstart. La comprensione dell'RLHF è sempre più importante per garantire l'efficacia delle operazioni di Machine Learning (MLOps) e la trasparenza dell'IA.

Leggi tutto