Direct Preference Optimization (DPO)

了解直接偏好优化 (DPO) 如何简化 AI 对齐。发现这种高效方法如何取代 RLHF 以提高模型安全性和性能。

直接偏好优化 (DPO) 是一种用于微调人工智能模型的稳定且高效的算法技术，旨在确保模型符合人类意愿、安全标准和伦理准则。与传统需要复杂、多阶段流程来获取人类反馈的方法不同，DPO 通过将偏好学习直接视为标准的机器学习分类任务，从数学上简化了对齐过程。通过基于人类偏好数据集（标注者在其中选择“胜出”响应而非“失败”响应）直接优化模型，开发者能够显著提高大规模基础模型和现代生成式 AI 系统的帮助性、诚实性和安全性。

Link to this sectionDPO 如何简化模型对齐#

直接偏好优化的核心创新在于去除了架构上的“中间商”。以往，对齐大语言模型 (LLM) 或视觉语言模型涉及一种称为人类反馈强化学习 (RLHF) 的复杂过程。RLHF 需要训练一个单独的奖励模型来近似人类评分，然后使用像近端策略优化 (Proximal Policy Optimization) 这样容易不稳定的强化学习算法来更新主模型。

DPO 从数学上消除了对这种单独奖励模型的需求。相反，它依赖于一种导出的损失函数，该函数增加了生成“偏好”输出的可能性，同时降低了生成“拒绝”输出的可能性。它利用参考模型来限制库尔贝克-莱布勒散度 (Kullback-Leibler divergence)，确保更新后的模型不会偏离其原始训练数据分布太远。这种数学简化使得该过程的行为更接近标准的监督学习，从而在 GPU 硬件上实现更快的收敛和更低的内存使用。这从根本上降低了模型崩溃的风险，并消除了繁琐的超参数调整。

Link to this section实际应用#

直接偏好优化正在从根本上重塑交互式 AI 系统的构建和部署方式，旨在跨各种高风险行业追求稳健的AI 安全。

增强对话代理： 在聊天机器人和虚拟助手领域，DPO 被用于减少毒性内容，并使响应符合严格的OpenAI 安全最佳实践和 Anthropic 的 AI 对齐研究。人类标注者审查提示词的两个答案，并将礼貌、事实准确的答案标记为“选中”。随后，DPO 会更新模型权重以倾向于这种特定的对话风格，同时惩罚幻觉。
精炼视觉语言模型： 随着图像识别的发展，模型越来越需要向人类操作员解释它们所看到的内容。对于视觉问答等应用，DPO 允许研究人员将模型的文本输出与详细的人类偏好对齐。例如，如果用户要求一个由 Ultralytics YOLO26 驱动的机器人系统描述物体，DPO 会训练模型优先考虑事实准确、简洁的描述，而非模糊的解读，从而严格遵守AI 伦理准则。

Link to this sectionDPO 实践#

实现 DPO 需要高质量的成对数据。现代工作流程利用像 Ultralytics Platform 这样全面的工具来无缝管理这些数据集，确保数据标注过程能产出清晰的“胜出”和“失败”示例。你可以通过直接偏好优化：你的语言模型其实就是奖励模型这篇论文探索其背后的基础研究，或阅读斯坦福 HAI 关于对齐与人类偏好的内容。

以下 Python 代码片段演示了使用 PyTorch API 参考中的函数进行 DPO 式损失计算所需的基础数据结构。

import torch
import torch.nn.functional as F


def dpo_loss(chosen_logps, rejected_logps, beta=0.1):
    # DPO maximizes the margin between chosen and rejected log probabilities
    logits = beta * (chosen_logps - rejected_logps)
    # The loss minimizes the negative log sigmoid of this margin
    return -F.logsigmoid(logits).mean()


print(f"DPO Loss: {dpo_loss(torch.tensor([-0.5]), torch.tensor([-2.5])):.4f}")