Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Torna al glossario Ultralytics

Direct Preference Optimization (DPO)

Scopri come la Direct Preference Optimization (DPO) semplifica l'allineamento dell'IA. Scopri come questo metodo efficiente sostituisce l'RLHF per migliorare la sicurezza e le prestazioni del modello.

La Direct Preference Optimization (DPO) è una tecnica algoritmica stabile ed efficiente utilizzata per ottimizzare i modelli di intelligenza artificiale, assicurando che si allineino con i desideri umani, gli standard di sicurezza e le linee guida etiche. A differenza dei metodi tradizionali che richiedono pipeline complesse a più stadi per acquisire il feedback umano, la DPO semplifica matematicamente il processo di allineamento trattando l'apprendimento delle preferenze direttamente come un task di classificazione nel machine learning standard. Ottimizzando direttamente il modello basandosi su un dataset di preferenze umane — in cui gli annotatori selezionano una risposta "vincente" rispetto a una "perdente" — gli sviluppatori possono migliorare significativamente l'utilità, l'onestà e la sicurezza di modelli di base su larga scala e di moderni sistemi di IA generativa.

Link to this sectionCome la DPO semplifica l'allineamento dei modelli#

L'innovazione primaria della Direct Preference Optimization risiede nella rimozione dell'"intermediario" architetturale. Storicamente, l'allineamento di un Large Language Model (LLM) o di un Vision-Language Model comportava un processo complesso noto come Reinforcement Learning from Human Feedback (RLHF). L'RLHF richiede l'addestramento di un modello di ricompensa separato per approssimare il punteggio umano, seguito dall'uso di un algoritmo di apprendimento per rinforzo soggetto a instabilità come Proximal Policy Optimization per aggiornare il modello principale.

La DPO elimina matematicamente la necessità di questo modello di ricompensa separato. Invece, si affida a una funzione di perdita derivata che aumenta la probabilità di generare output "preferiti" diminuendo simultaneamente la probabilità di quelli "rifiutati". Utilizza un modello di riferimento per limitare la divergenza di Kullback-Leibler, assicurando che il modello aggiornato non si discosti troppo dalla sua distribuzione di dati di addestramento originale. Questa semplificazione matematica fa sì che il processo si comporti in modo molto più simile al supervised learning standard, portando a una convergenza più rapida e a un minor utilizzo di memoria sull'hardware GPU. Ciò riduce intrinsecamente il rischio di model collapse ed elimina l'estensiva ottimizzazione degli iperparametri.

Link to this sectionApplicazioni nel mondo reale#

La Direct Preference Optimization sta cambiando radicalmente il modo in cui i sistemi di IA interattivi vengono costruiti e distribuiti in vari settori ad alto rischio, nel perseguimento di una solida AI Safety.

  • Miglioramento degli agenti conversazionali: Nel campo dei chatbot e degli assistenti virtuali, la DPO viene utilizzata per ridurre la tossicità e allineare le risposte con le rigorose best practice di sicurezza di OpenAI e la ricerca di Anthropic sull'allineamento dell'IA. Gli annotatori umani esaminano due risposte a un prompt, contrassegnando come "scelta" la risposta educata e basata sui fatti. La DPO aggiorna quindi i pesi del modello per favorire questo stile conversazionale specifico, penalizzando al contempo le allucinazioni.
  • Perfezionamento dei modelli Vision-Language: Con l'evolversi del riconoscimento delle immagini, ai modelli viene sempre più richiesto di spiegare agli operatori umani ciò che vedono. Per applicazioni come il visual question answering, la DPO consente ai ricercatori di allineare l'output testuale del modello con le dettagliate preferenze umane. Ad esempio, se chiedi a un sistema robotico basato su Ultralytics YOLO26 di descrivere un oggetto, la DPO addestra il modello a dare priorità a descrizioni fattuali e concise rispetto a interpretazioni vaghe, aderendo strettamente alle rigorose linee guida sull'AI Ethics.

Link to this sectionLa DPO in pratica#

L'implementazione della DPO richiede dati a coppie di alta qualità. I flussi di lavoro moderni utilizzano strumenti completi come la Ultralytics Platform per gestire senza problemi questi dataset, assicurando che il processo di data annotation produca esempi chiari di "vincitori" e "perdenti". Puoi esplorare la ricerca fondamentale alla base di ciò nel documento Direct Preference Optimization: Your Language Model is Secretly a Reward Model o leggere informazioni su Alignment and Human Preferences dallo Stanford HAI.

Il seguente snippet Python dimostra la struttura dati fondamentale richiesta per un calcolo della perdita in stile DPO utilizzando funzioni presenti nel riferimento dell'API di PyTorch.

import torch
import torch.nn.functional as F


def dpo_loss(chosen_logps, rejected_logps, beta=0.1):
    # DPO maximizes the margin between chosen and rejected log probabilities
    logits = beta * (chosen_logps - rejected_logps)
    # The loss minimizes the negative log sigmoid of this margin
    return -F.logsigmoid(logits).mean()


print(f"DPO Loss: {dpo_loss(torch.tensor([-0.5]), torch.tensor([-2.5])):.4f}")

Explore solutions

Real-time AI tailored to your operation

IA in agricoltura

Porta l'IA visiva nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per raccolti più elevati e intelligenti.

Scopri di più
Real-time AI that works with your operation

IA nel settore automobilistico

Applica la computer vision nel settore automobilistico con i modelli Ultralytics YOLO. La Vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI that works with your team

IA nell'assistenza sanitaria

Sviluppa soluzioni sanitarie con i modelli Ultralytics YOLO. L'IA di visione nell'assistenza sanitaria potenzia l'imaging medico, la diagnostica più intelligente e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

AI nel settore retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI potenzia il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e offre insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

L'AI nella robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI potenzia il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della catena di montaggio.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. L'IA basata sulla visione artificiale consente l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio in tempo reale della sicurezza nei magazzini.

Scopri di più
Real-time AI tailored to your operation

IA in agricoltura

Porta l'IA visiva nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per raccolti più elevati e intelligenti.

Scopri di più
Real-time AI that works with your operation

IA nel settore automobilistico

Applica la computer vision nel settore automobilistico con i modelli Ultralytics YOLO. La Vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI that works with your team

IA nell'assistenza sanitaria

Sviluppa soluzioni sanitarie con i modelli Ultralytics YOLO. L'IA di visione nell'assistenza sanitaria potenzia l'imaging medico, la diagnostica più intelligente e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

AI nel settore retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI potenzia il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e offre insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

L'AI nella robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI potenzia il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della catena di montaggio.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. L'IA basata sulla visione artificiale consente l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio in tempo reale della sicurezza nei magazzini.

Scopri di più
Real-time AI tailored to your operation

IA in agricoltura

Porta l'IA visiva nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per raccolti più elevati e intelligenti.

Scopri di più
Real-time AI that works with your operation

IA nel settore automobilistico

Applica la computer vision nel settore automobilistico con i modelli Ultralytics YOLO. La Vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI that works with your team

IA nell'assistenza sanitaria

Sviluppa soluzioni sanitarie con i modelli Ultralytics YOLO. L'IA di visione nell'assistenza sanitaria potenzia l'imaging medico, la diagnostica più intelligente e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

AI nel settore retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI potenzia il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e offre insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

L'AI nella robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI potenzia il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della catena di montaggio.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. L'IA basata sulla visione artificiale consente l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio in tempo reale della sicurezza nei magazzini.

Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning