Direct Preference Optimization (DPO)

Scopri come la Direct Preference Optimization (DPO) semplifica l'allineamento dell'AI. Scopri come questo metodo efficiente sostituisce l'RLHF per migliorare la sicurezza e le prestazioni del modello.

Direct Preference Optimization (DPO) è una tecnica algoritmica stabile ed efficiente utilizzata per ottimizzare i modelli di intelligenza artificiale, assicurando che siano allineati ai desideri umani, agli standard di sicurezza e alle linee guida etiche. A differenza dei metodi tradizionali che richiedono pipeline complesse a più stadi per catturare il feedback umano, DPO semplifica matematicamente il processo di allineamento trattando l'apprendimento delle preferenze direttamente come un task di classificazione standard nel machine learning. Ottimizzando direttamente il modello basandosi su un dataset di preferenze umane — in cui gli annotatori selezionano una risposta "vincente" rispetto a una "perdente" — puoi migliorare significativamente la utilità, la correttezza e la sicurezza dei modelli di base su larga scala e dei moderni sistemi di IA generativa.

Link to this sectionCome DPO semplifica l'allineamento dei modelli#

L'innovazione principale di Direct Preference Optimization risiede nella rimozione dell'"intermediario" architetturale. Storicamente, l'allineamento di un Large Language Model (LLM) o di un Vision-Language Model comportava un processo complesso noto come Reinforcement Learning from Human Feedback (RLHF). L'RLHF richiede l'addestramento di un modello di ricompensa separato per approssimare il punteggio umano, seguito dall'uso di un algoritmo di apprendimento per rinforzo soggetto a instabilità, come Proximal Policy Optimization, per aggiornare il modello principale.

DPO elimina matematicamente la necessità di questo modello di ricompensa separato. Invece, si basa su una funzione di perdita derivata che aumenta la probabilità di generare output "preferiti" diminuendo simultaneamente la probabilità di quelli "rifiutati". Utilizza un modello di riferimento per limitare la divergenza di Kullback-Leibler, garantendo che il modello aggiornato non si discosti troppo dalla sua distribuzione originale dei dati di addestramento. Questa semplificazione matematica fa sì che il processo si comporti in modo molto più simile al supervised learning standard, portando a una convergenza più rapida e a un minor utilizzo di memoria su hardware GPU. Ciò riduce intrinsecamente il rischio di collasso del modello ed elimina l'ampia ottimizzazione degli iperparametri.

Link to this sectionApplicazioni nel mondo reale#

Direct Preference Optimization sta cambiando radicalmente il modo in cui i sistemi di IA interattivi vengono costruiti e distribuiti in vari settori ad alto rischio, perseguendo una solida AI Safety.

Miglioramento degli agenti conversazionali: Nel campo dei chatbot e degli assistenti virtuali, DPO viene utilizzato per ridurre la tossicità e allineare le risposte alle rigorose best practice di sicurezza di OpenAI e alla ricerca di Anthropic sull'allineamento dell'IA. Gli annotatori umani esaminano due risposte a un prompt, contrassegnando la risposta educata e basata sui fatti come "scelta". DPO quindi aggiorna i pesi del modello per favorire questo specifico stile conversazionale, penalizzando al contempo le allucinazioni.
Perfezionamento dei modelli Vision-Language: Con l'evolversi del riconoscimento delle immagini, ai modelli viene sempre più richiesto di spiegare ciò che vedono agli operatori umani. Per applicazioni come il visual question answering, DPO consente ai ricercatori di allineare l'output testuale del modello con le dettagliate preferenze umane. Ad esempio, se un utente chiede a un sistema robotico basato su Ultralytics YOLO26 di descrivere un oggetto, DPO addestra il modello a dare priorità a descrizioni fattuali e concise rispetto a interpretazioni vaghe, aderendo strettamente alle rigorose linee guida dell'etica dell'IA.

Link to this sectionDPO in pratica#

L'implementazione di DPO richiede dati a coppie di alta qualità. I flussi di lavoro moderni utilizzano strumenti completi come la Ultralytics Platform per gestire senza problemi questi dataset, assicurando che il processo di annotazione dei dati produca chiari esempi di "vincitore" e "perdente". Puoi approfondire la ricerca fondamentale alla base di ciò nel documento Direct Preference Optimization: Your Language Model is Secretly a Reward Model o leggere informazioni su Alignment and Human Preferences dal Stanford HAI.

Il seguente snippet Python mostra la struttura dati fondamentale richiesta per un calcolo della perdita in stile DPO utilizzando funzioni presenti nel riferimento API di PyTorch.

import torch
import torch.nn.functional as F


def dpo_loss(chosen_logps, rejected_logps, beta=0.1):
    # DPO maximizes the margin between chosen and rejected log probabilities
    logits = beta * (chosen_logps - rejected_logps)
    # The loss minimizes the negative log sigmoid of this margin
    return -F.logsigmoid(logits).mean()


print(f"DPO Loss: {dpo_loss(torch.tensor([-0.5]), torch.tensor([-2.5])):.4f}")

Direct Preference Optimization (DPO)

Link to this sectionCome DPO semplifica l'allineamento dei modelli#

Link to this sectionApplicazioni nel mondo reale#

Link to this sectionDPO in pratica#

Explore solutions

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

Costruiamo insieme il futuro dell'AI!