Direct Preference Optimization (DPO)

Aprenda como a Direct Preference Optimization (DPO) simplifica o alinhamento de IA. Descubra como esse método eficiente substitui o RLHF para melhorar a segurança e o desempenho do modelo.

A Direct Preference Optimization (DPO) é uma técnica algorítmica estável e eficiente usada para ajustar modelos de inteligência artificial, garantindo que eles se alinhem aos desejos humanos, padrões de segurança e diretrizes éticas. Ao contrário dos métodos tradicionais que exigem pipelines complexos e de várias etapas para capturar o feedback humano, a DPO simplifica matematicamente o processo de alinhamento ao tratar o aprendizado de preferência diretamente como uma tarefa de classificação em aprendizado de máquina padrão. Ao otimizar diretamente o modelo com base em um conjunto de dados de preferências humanas — onde os anotadores selecionam uma resposta "vencedora" em vez de uma "perdedora" —, os desenvolvedores podem melhorar significativamente a utilidade, a honestidade e a segurança de modelos de fundação de larga escala e sistemas modernos de IA generativa.

Link to this sectionComo a DPO simplifica o alinhamento de modelos#

A principal inovação da Direct Preference Optimization reside na remoção do "intermediário" arquitetural. Historicamente, alinhar um Large Language Model (LLM) ou um Vision-Language Model envolvia um processo complexo conhecido como Reinforcement Learning from Human Feedback (RLHF). O RLHF exige o treinamento de um modelo de recompensa separado para aproximar a pontuação humana, seguido pelo uso de um algoritmo de aprendizado por reforço propenso à instabilidade, como o Proximal Policy Optimization, para atualizar o modelo principal.

A DPO elimina matematicamente a necessidade desse modelo de recompensa separado. Em vez disso, ela se baseia em uma função de perda derivada que aumenta a probabilidade de gerar saídas "preferidas" enquanto diminui simultaneamente a probabilidade das "rejeitadas". Ela usa um modelo de referência para limitar a divergência de Kullback-Leibler, garantindo que o modelo atualizado não se desvie muito da sua distribuição original de dados de treinamento. Essa simplificação matemática faz com que o processo se comporte de forma muito mais próxima do aprendizado supervisionado padrão, resultando em convergência mais rápida e menor uso de memória em hardware GPU. Isso reduz inerentemente o risco de colapso do modelo e elimina o extenso ajuste de hiperparâmetros.

Link to this sectionAplicações no Mundo Real#

A Direct Preference Optimization está fundamentalmente remodelando a forma como os sistemas de IA interativos são criados e implantados em vários setores de alto risco em busca de uma Segurança de IA robusta.

Aprimorando agentes de conversação: No domínio de chatbots e assistentes virtuais, a DPO é usada para reduzir a toxicidade e alinhar as respostas com as rigorosas melhores práticas de segurança da OpenAI e pesquisas da Anthropic sobre alinhamento de IA. Anotadores humanos revisam duas respostas a um prompt, marcando a resposta educada e factual como "escolhida". A DPO então atualiza os pesos do modelo para favorecer esse estilo de conversação específico, penalizando as alucinações.
Refinando modelos de visão-linguagem: À medida que o reconhecimento de imagem evolui, os modelos são cada vez mais exigidos a explicar o que veem para operadores humanos. Para aplicações como respostas a perguntas visuais, a DPO permite que pesquisadores alinhem a saída textual do modelo com preferências humanas detalhadas. Por exemplo, se você pedir a um sistema robótico alimentado por Ultralytics YOLO26 para descrever um objeto, a DPO treina o modelo para priorizar descrições factuais e concisas em vez de interpretações vagas, aderindo rigorosamente às diretrizes de Ética em IA.

Link to this sectionA DPO na prática#

A implementação da DPO requer dados de pares de alta qualidade. Fluxos de trabalho modernos utilizam ferramentas abrangentes como a Ultralytics Platform para gerenciar perfeitamente esses conjuntos de dados, garantindo que o processo de anotação de dados produza exemplos claros de "vencedor" e "perdedor". Você pode explorar a pesquisa fundamental por trás disso no artigo Direct Preference Optimization: Your Language Model is Secretly a Reward Model ou ler sobre Alinhamento e Preferências Humanas do Stanford HAI.

O trecho de Python a seguir demonstra a estrutura de dados fundamental necessária para um cálculo de perda estilo DPO usando funções encontradas na referência da API do PyTorch.

import torch
import torch.nn.functional as F


def dpo_loss(chosen_logps, rejected_logps, beta=0.1):
    # DPO maximizes the margin between chosen and rejected log probabilities
    logits = beta * (chosen_logps - rejected_logps)
    # The loss minimizes the negative log sigmoid of this margin
    return -F.logsigmoid(logits).mean()


print(f"DPO Loss: {dpo_loss(torch.tensor([-0.5]), torch.tensor([-2.5])):.4f}")

Direct Preference Optimization (DPO)

Link to this sectionComo a DPO simplifica o alinhamento de modelos#

Link to this sectionAplicações no Mundo Real#

Link to this sectionA DPO na prática#

Explore solutions

IA em robótica

IA na Logística

IA no varejo

IA na Saúde

IA na Fabricação

IA no Setor Automóvel

IA na Agricultura

IA em robótica

IA na Logística

IA no varejo

IA na Saúde

IA na Fabricação

IA no Setor Automóvel

IA na Agricultura

IA em robótica

IA na Logística

IA no varejo

IA na Saúde

IA na Fabricação

IA no Setor Automóvel

IA na Agricultura

Vamos construir o futuro da IA juntos!