Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
Voltar para o Glossário da Ultralytics

Direct Preference Optimization (DPO)

Aprende como a Otimização Direta de Preferência (DPO) simplifica o alinhamento de IA. Descobre como este método eficiente substitui o RLHF para melhorar a segurança e o desempenho do modelo.

A Otimização Direta de Preferência (DPO) é uma técnica algorítmica estável e eficiente usada para ajustar modelos de inteligência artificial, garantindo que se alinhem com os desejos humanos, normas de segurança e diretrizes éticas. Ao contrário dos métodos tradicionais que exigem pipelines complexos de várias etapas para capturar o feedback humano, a DPO simplifica matematicamente o processo de alinhamento tratando a aprendizagem de preferência diretamente como uma tarefa de classificação em machine learning padrão. Ao otimizar o modelo diretamente com base num conjunto de dados de preferências humanas — onde os anotadores selecionam uma resposta "vencedora" em detrimento de uma "perdedora" — os programadores podem melhorar significativamente a utilidade, honestidade e segurança de modelos de fundação de grande escala e sistemas de IA generativa modernos.

Link to this sectionComo a DPO Simplifica o Alinhamento de Modelos#

A principal inovação da Otimização Direta de Preferência reside na remoção do "intermediário" arquitetural. Historicamente, alinhar um Large Language Model (LLM) ou um Vision-Language Model envolvia um processo complexo conhecido como Reinforcement Learning from Human Feedback (RLHF). O RLHF requer o treino de um modelo de recompensa separado para aproximar a pontuação humana, seguido pela utilização de um algoritmo de aprendizagem por reforço propenso a instabilidade, como a Proximal Policy Optimization, para atualizar o modelo principal.

A DPO elimina matematicamente a necessidade deste modelo de recompensa separado. Em vez disso, baseia-se numa função de perda derivada que aumenta a probabilidade de gerar resultados "preferidos" enquanto diminui simultaneamente a probabilidade dos "rejeitados". Utiliza um modelo de referência para limitar a divergência de Kullback-Leibler, garantindo que o modelo atualizado não se afaste demasiado da sua distribuição original de dados de treino. Esta simplificação matemática faz com que o processo se comporte de forma muito mais semelhante à aprendizagem supervisionada padrão, resultando numa convergência mais rápida e num menor consumo de memória em hardware GPU. Isto reduz inerentemente o risco de colapso do modelo e elimina o extenso ajuste de hiperparâmetros.

Link to this sectionAplicações no Mundo Real#

A Otimização Direta de Preferência está fundamentalmente a remodelar a forma como os sistemas de IA interativos são criados e implementados em várias indústrias de alto risco em busca de uma IA Segura robusta.

  • Melhoria de Agentes Conversacionais: No domínio dos chatbots e assistentes virtuais, a DPO é usada para reduzir a toxicidade e alinhar respostas com as rigorosas melhores práticas de segurança da OpenAI e a investigação da Anthropic sobre alinhamento de IA. Os anotadores humanos analisam duas respostas a um pedido, marcando a resposta educada e factual como "escolhida". A DPO atualiza então os pesos do modelo para favorecer este estilo de conversação específico, penalizando as alucinações.
  • Refinamento de Modelos de Visão-Linguagem: À medida que o reconhecimento de imagem evolui, os modelos são cada vez mais solicitados a explicar o que veem aos operadores humanos. Para aplicações como resposta visual a perguntas, a DPO permite aos investigadores alinhar a saída textual do modelo com as preferências humanas detalhadas. Por exemplo, se um utilizador pedir a um sistema de robótica alimentado por Ultralytics YOLO26 para descrever um objeto, a DPO treina o modelo para dar prioridade a descrições factuais e concisas em detrimento de interpretações vagas, aderindo rigorosamente às diretrizes de Ética em IA.

Link to this sectionDPO na Prática#

Implementar a DPO requer dados emparelhados de alta qualidade. Os fluxos de trabalho modernos utilizam ferramentas abrangentes como a Ultralytics Platform para gerir estes conjuntos de dados de forma perfeita, garantindo que o processo de anotação de dados produza exemplos claros de "vencedores" e "perdedores". Podes explorar a investigação fundamental por detrás disto no artigo Direct Preference Optimization: Your Language Model is Secretly a Reward Model ou ler sobre Alinhamento e Preferências Humanas do Stanford HAI.

O seguinte snippet de Python demonstra a estrutura de dados fundamental necessária para um cálculo de perda ao estilo DPO usando funções encontradas na referência da API do PyTorch.

import torch
import torch.nn.functional as F


def dpo_loss(chosen_logps, rejected_logps, beta=0.1):
    # DPO maximizes the margin between chosen and rejected log probabilities
    logits = beta * (chosen_logps - rejected_logps)
    # The loss minimizes the negative log sigmoid of this margin
    return -F.logsigmoid(logits).mean()


print(f"DPO Loss: {dpo_loss(torch.tensor([-0.5]), torch.tensor([-2.5])):.4f}")

Explore solutions

Real-time AI tailored to your operation

IA na Agricultura

Leve a IA de visão para a agricultura inteligente com os modelos Ultralytics YOLO. Potencialize o monitoramento de colheitas, rastreamento de gado e agricultura de precisão para obter rendimentos maiores e mais inteligentes.

Saiba mais
Real-time AI that works with your operation

IA no Setor Automotivo

Aplica visão computacional no setor automotivo com modelos Ultralytics YOLO. A IA de visão eleva a segurança viária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Saiba mais
Real-time AI that works with your team

IA na Saúde

Crie soluções para a saúde com modelos Ultralytics YOLO. A IA de visão na saúde potencializa diagnósticos mais inteligentes, monitoramento de pacientes e exames médicos mais rápidos.

Saiba mais
Real-time AI that works with your team

IA no Varejo

Reinvente o varejo com os modelos YOLO da Ultralytics. A IA de visão potencializa o rastreamento de inventário, o monitoramento de prateleiras, a gestão de filas e insights mais inteligentes sobre os clientes.

Saiba mais
Real-time AI that works with your team

IA em Robótica

Impulsione máquinas mais inteligentes com os modelos Ultralytics YOLO. A visão computacional por IA na robótica impulsiona a navegação autônoma, a percepção, o rastreamento de objetos e o controle em tempo real.

Saiba mais
Real-time AI that works with your team

IA na Manufatura

Otimize a manufatura com os modelos Ultralytics YOLO. A visão computacional impulsiona o controle de qualidade, a detecção de defeitos, a conformidade com EPIs e a automação de linhas de montagem.

Saiba mais
Real-time AI that works with your team

IA na logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Saiba mais
Real-time AI tailored to your operation

IA na Agricultura

Leve a IA de visão para a agricultura inteligente com os modelos Ultralytics YOLO. Potencialize o monitoramento de colheitas, rastreamento de gado e agricultura de precisão para obter rendimentos maiores e mais inteligentes.

Saiba mais
Real-time AI that works with your operation

IA no Setor Automotivo

Aplica visão computacional no setor automotivo com modelos Ultralytics YOLO. A IA de visão eleva a segurança viária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Saiba mais
Real-time AI that works with your team

IA na Saúde

Crie soluções para a saúde com modelos Ultralytics YOLO. A IA de visão na saúde potencializa diagnósticos mais inteligentes, monitoramento de pacientes e exames médicos mais rápidos.

Saiba mais
Real-time AI that works with your team

IA no Varejo

Reinvente o varejo com os modelos YOLO da Ultralytics. A IA de visão potencializa o rastreamento de inventário, o monitoramento de prateleiras, a gestão de filas e insights mais inteligentes sobre os clientes.

Saiba mais
Real-time AI that works with your team

IA em Robótica

Impulsione máquinas mais inteligentes com os modelos Ultralytics YOLO. A visão computacional por IA na robótica impulsiona a navegação autônoma, a percepção, o rastreamento de objetos e o controle em tempo real.

Saiba mais
Real-time AI that works with your team

IA na Manufatura

Otimize a manufatura com os modelos Ultralytics YOLO. A visão computacional impulsiona o controle de qualidade, a detecção de defeitos, a conformidade com EPIs e a automação de linhas de montagem.

Saiba mais
Real-time AI that works with your team

IA na logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Saiba mais
Real-time AI tailored to your operation

IA na Agricultura

Leve a IA de visão para a agricultura inteligente com os modelos Ultralytics YOLO. Potencialize o monitoramento de colheitas, rastreamento de gado e agricultura de precisão para obter rendimentos maiores e mais inteligentes.

Saiba mais
Real-time AI that works with your operation

IA no Setor Automotivo

Aplica visão computacional no setor automotivo com modelos Ultralytics YOLO. A IA de visão eleva a segurança viária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Saiba mais
Real-time AI that works with your team

IA na Saúde

Crie soluções para a saúde com modelos Ultralytics YOLO. A IA de visão na saúde potencializa diagnósticos mais inteligentes, monitoramento de pacientes e exames médicos mais rápidos.

Saiba mais
Real-time AI that works with your team

IA no Varejo

Reinvente o varejo com os modelos YOLO da Ultralytics. A IA de visão potencializa o rastreamento de inventário, o monitoramento de prateleiras, a gestão de filas e insights mais inteligentes sobre os clientes.

Saiba mais
Real-time AI that works with your team

IA em Robótica

Impulsione máquinas mais inteligentes com os modelos Ultralytics YOLO. A visão computacional por IA na robótica impulsiona a navegação autônoma, a percepção, o rastreamento de objetos e o controle em tempo real.

Saiba mais
Real-time AI that works with your team

IA na Manufatura

Otimize a manufatura com os modelos Ultralytics YOLO. A visão computacional impulsiona o controle de qualidade, a detecção de defeitos, a conformidade com EPIs e a automação de linhas de montagem.

Saiba mais
Real-time AI that works with your team

IA na logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Saiba mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática