Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Torna al glossario Ultralytics

Reinforcement Learning from Human Feedback (RLHF)

Scopri come l'apprendimento per rinforzo da feedback umano (RLHF) allinea l'AI ai valori umani. Esplora i suoi componenti fondamentali e l'integrazione con Ultralytics YOLO26.

Il Reinforcement Learning from Human Feedback (RLHF) è una tecnica avanzata di machine learning che perfeziona i modelli di intelligenza artificiale incorporando l'input umano diretto nel ciclo di addestramento. A differenza del classico supervised learning, che si basa esclusivamente su dataset etichettati statici, l'RLHF introduce un meccanismo di feedback dinamico in cui i valutatori umani classificano o valutano gli output del modello. Questo processo consente all'IA di cogliere obiettivi complessi, soggettivi o sfumati, come "utilità", "sicurezza" o "creatività", che sono difficili da definire con una semplice funzione di perdita matematica. L'RLHF è diventato una pietra miliare nello sviluppo dei moderni large language models (LLMs) e dell'IA generativa, garantendo che i potenti modelli di base si allineino efficacemente ai valori umani e all'intento dell'utente.

Link to this sectionI componenti principali dell'RLHF#

Il processo RLHF segue generalmente una pipeline in tre fasi progettata per colmare il divario tra le capacità predittive grezze e il comportamento allineato all'uomo.

  1. Supervised Fine-Tuning (SFT): Il flusso di lavoro inizia tipicamente con un foundation model pre-addestrato. Gli sviluppatori eseguono un fine-tuning iniziale utilizzando un dataset più piccolo e di alta qualità composto da dimostrazioni (ad esempio, coppie domanda-risposta scritte da esperti). Questo passaggio stabilisce una policy di base, insegnando al modello il formato e il tono generali previsti per l'attività.

  2. Addestramento del modello di ricompensa: Questa fase è la caratteristica distintiva dell'RLHF. Gli annotatori umani esaminano molteplici output generati dal modello per lo stesso input e li classificano dal migliore al peggiore. Questo sforzo di data labeling genera un dataset di preferenze. Una neural network separata, chiamata modello di ricompensa, viene addestrata su questi dati di confronto per prevedere un punteggio scalare che rifletta il giudizio umano. Gli strumenti disponibili sulla Ultralytics Platform possono semplificare la gestione di tali flussi di lavoro di annotazione.

  3. Ottimizzazione tramite Reinforcement Learning: Infine, il modello originale agisce come un AI agent all'interno di un ambiente di apprendimento per rinforzo. Utilizzando il modello di ricompensa come guida, gli algoritmi di ottimizzazione come la Proximal Policy Optimization (PPO) regolano i parametri del modello per massimizzare la ricompensa prevista. Questo passaggio allinea la policy del modello alle preferenze umane apprese, incoraggiando comportamenti utili e sicuri e scoraggiando output tossici o privi di senso.

Link to this sectionApplicazioni nel mondo reale#

L'RLHF si è rivelato fondamentale nell'implementazione di sistemi di IA che richiedono elevati standard di sicurezza e una comprensione sfumata dell'interazione umana.

  • IA conversazionale e chatbot: L'applicazione più importante dell'RLHF consiste nell'allineare i chatbot affinché siano utili, innocui e onesti. Penalizzando gli output che risultano prevenuti, fattualmente errati o pericolosi, l'RLHF aiuta a mitigare l'hallucination in LLMs e riduce il rischio di algorithmic bias. Ciò garantisce che gli assistenti virtuali possano rifiutare istruzioni dannose pur rimanendo utili per richieste legittime.
  • Robotica e controllo fisico: L'RLHF si estende oltre il testo all'AI in robotics, dove definire una funzione di ricompensa perfetta per compiti fisici complessi è una sfida. Ad esempio, un robot che impara a navigare in un magazzino affollato potrebbe ricevere feedback dai supervisori umani su quali traiettorie fossero sicure rispetto a quelle che hanno causato interruzioni. Questo feedback perfeziona la policy di controllo del robot in modo più efficace rispetto al semplice deep reinforcement learning basato esclusivamente sul completamento di un obiettivo.

Link to this sectionRLHF vs. Reinforcement Learning standard#

È utile distinguere l'RLHF dal reinforcement learning (RL) tradizionale per comprenderne l'utilità specifica.

  • RL standard: In contesti tradizionali, la funzione di ricompensa è spesso hard-coded dall'ambiente. Ad esempio, in un videogioco, l'ambiente fornisce un segnale chiaro (+1 per una vittoria, -1 per una sconfitta). L'agente ottimizza le proprie azioni all'interno di questo Markov Decision Process (MDP) definito.
  • RLHF: In molti scenari del mondo reale, come scrivere una storia creativa o guidare in modo educato, il "successo" è soggettivo. L'RLHF risolve questo problema sostituendo la ricompensa hard-coded con un modello di ricompensa appreso derivato dalle preferenze umane. Ciò consente l'ottimizzazione di concetti astratti come "qualità" o "appropriatezza", che sono impossibili da programmare esplicitamente.

Link to this sectionIntegrazione della percezione con cicli di feedback#

Nelle applicazioni visive, gli agenti allineati tramite RLHF si affidano spesso alla computer vision (CV) per percepire lo stato del proprio ambiente prima di agire. Un rilevatore robusto, come YOLO26, funge da livello di percezione, fornendo osservazioni strutturate (ad esempio, "ostacolo rilevato a 3 metri") che la policy network utilizza per selezionare un'azione.

Il seguente esempio in Python illustra un concetto semplificato in cui un modello YOLO fornisce lo stato ambientale. In un ciclo RLHF completo, il segnale di "ricompensa" proverrebbe da un modello addestrato sul feedback umano riguardante le decisioni dell'agente basate su questi dati di rilevamento.

from ultralytics import YOLO

# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")

# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")

# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)

print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.

Combinando potenti modelli di percezione con policy perfezionate tramite il feedback umano, gli sviluppatori possono costruire sistemi che non siano solo intelligenti, ma anche rigorosamente allineati ai principi di AI safety. La ricerca continua sulla supervisione scalabile, come la Constitutional AI, continua a far evolvere questo campo, con l'obiettivo di ridurre il collo di bottiglia dell'annotazione umana su larga scala mantenendo elevate prestazioni del modello.

Explore solutions

Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning