遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Direct Preference Optimization (DPO)

了解直接偏好优化 (DPO) 如何简化 AI 对齐。探索这种高效方法如何取代 RLHF 以提高模型的安全性和性能。

直接偏好优化 (DPO) 是一种稳定且高效的算法技术,用于微调人工智能模型,确保其符合人类意愿、安全标准和道德准则。与需要复杂的多阶段流水线来捕获人类反馈的传统方法不同,DPO 通过将偏好学习直接视为标准的 机器学习分类任务,从数学上简化了对齐过程。通过基于人类偏好数据集(标注员在其中选择“胜出”响应而非“失败”响应)直接优化模型,开发者可以显著提高大型 基础模型 和现代 生成式 AI 系统 的有用性、诚实性和安全性。

Link to this sectionDPO 如何简化模型对齐#

直接偏好优化的主要创新在于去除了架构上的“中间人”。从历史上看,对齐 大语言模型 (LLM)视觉-语言模型 涉及一个称为 人类反馈强化学习 (RLHF) 的复杂过程。RLHF 需要训练一个单独的奖励模型来近似人类评分,然后使用像 近端策略优化 (Proximal Policy Optimization) 这样容易不稳定的强化学习算法来更新主模型。

DPO 从数学上消除了对这种单独奖励模型的需求。相反,它依赖于一个导出的 损失函数,该函数增加了生成“偏好”输出的可能性,同时降低了“拒绝”输出的可能性。它使用参考模型来限制 Kullback-Leibler 散度,确保更新后的模型不会偏离其原始 训练数据 分布太远。这种数学简化使得该过程的行为更接近标准的 监督学习,从而在 GPU 硬件 上实现更快的收敛和更低的内存占用。这从本质上降低了 模型崩溃 的风险,并消除了大量的 超参数调优

Link to this section实际应用#

直接偏好优化从根本上重塑了交互式 AI 系统的构建和部署方式,以在各种高风险行业中追求稳健的 AI 安全

  • 增强对话代理:聊天机器人 和虚拟助理领域,DPO 用于减少毒性并将响应与严格的 OpenAI 安全最佳实践Anthropic 的 AI 对齐研究 保持一致。人类标注员审查对提示的两个回答,将礼貌且符合事实的回答标记为“已选择”。随后,DPO 更新模型权重以偏向这种特定的对话风格,同时惩罚幻觉。
  • 优化视觉-语言模型: 随着 图像识别 的发展,模型越来越需要向人类操作员解释它们所看到的内容。对于视觉问答等应用,DPO 允许研究人员将模型的文本输出与详细的人类偏好对齐。例如,如果用户要求一个由 Ultralytics YOLO26 驱动的机器人系统描述一个物体,DPO 会训练模型优先选择事实性、简洁的描述,而非模糊的解读,并严格遵守 AI 伦理 准则。

Link to this sectionDPO 实战#

实现 DPO 需要高质量的成对数据。现代工作流程利用像 Ultralytics 平台 这样的综合工具来无缝管理这些数据集,确保 数据标注 过程产生清晰的“赢家”和“输家”示例。你可以在论文 直接偏好优化:你的语言模型秘密是一个奖励模型 中探索其背后的基础研究,或阅读斯坦福 HAI 关于 对齐与人类偏好 的文章。

以下 Python 代码片段演示了使用 PyTorch API 参考 中的函数进行 DPO 式损失计算所需的基础数据结构。

import torch
import torch.nn.functional as F


def dpo_loss(chosen_logps, rejected_logps, beta=0.1):
    # DPO maximizes the margin between chosen and rejected log probabilities
    logits = beta * (chosen_logps - rejected_logps)
    # The loss minimizes the negative log sigmoid of this margin
    return -F.logsigmoid(logits).mean()


print(f"DPO Loss: {dpo_loss(torch.tensor([-0.5]), torch.tensor([-2.5])):.4f}")

Explore solutions

Real-time AI tailored to your operation

农业中的 AI

利用 Ultralytics YOLO 模型将视觉 AI 引入智慧农业。为农作物监测、牲畜追踪和精准农业提供支持,实现更高、更智能的产量。

了解详情
Real-time AI that works with your operation

汽车领域的 AI

利用 Ultralytics YOLO 模型将计算机视觉应用于汽车领域。视觉 AI 能提升道路安全、驾驶辅助和车辆自动化水平,从而打造更智能的道路。

了解详情
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗解决方案。医疗保健中的视觉 AI 可加速医学影像处理、实现更智能的诊断并改善患者监护。

了解详情
Real-time AI that works with your team

零售业中的AI

利用Ultralytics YOLO模型重塑零售业。视觉AI助力库存追踪、货架监控、排队管理和更智能的客户洞察。

了解详情
Real-time AI that works with your team

机器人领域的 AI

利用 Ultralytics YOLO 模型为更智能的机器提供动力。机器人领域的视觉 AI 可驱动自主导航、感知、物体跟踪和实时控制。

了解详情
Real-time AI that works with your team

制造业中的 AI

利用 Ultralytics YOLO 模型优化制造业。视觉 AI 助力质量控制、缺陷检测、PPE 合规性监控以及装配线自动化。

了解详情
Real-time AI that works with your team

物流中的 AI

利用 Ultralytics YOLO 模型简化物流。视觉 AI 支持包裹检测、分类、车辆追踪和实时仓库安全监控。

了解详情
Real-time AI tailored to your operation

农业中的 AI

利用 Ultralytics YOLO 模型将视觉 AI 引入智慧农业。为农作物监测、牲畜追踪和精准农业提供支持,实现更高、更智能的产量。

了解详情
Real-time AI that works with your operation

汽车领域的 AI

利用 Ultralytics YOLO 模型将计算机视觉应用于汽车领域。视觉 AI 能提升道路安全、驾驶辅助和车辆自动化水平,从而打造更智能的道路。

了解详情
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗解决方案。医疗保健中的视觉 AI 可加速医学影像处理、实现更智能的诊断并改善患者监护。

了解详情
Real-time AI that works with your team

零售业中的AI

利用Ultralytics YOLO模型重塑零售业。视觉AI助力库存追踪、货架监控、排队管理和更智能的客户洞察。

了解详情
Real-time AI that works with your team

机器人领域的 AI

利用 Ultralytics YOLO 模型为更智能的机器提供动力。机器人领域的视觉 AI 可驱动自主导航、感知、物体跟踪和实时控制。

了解详情
Real-time AI that works with your team

制造业中的 AI

利用 Ultralytics YOLO 模型优化制造业。视觉 AI 助力质量控制、缺陷检测、PPE 合规性监控以及装配线自动化。

了解详情
Real-time AI that works with your team

物流中的 AI

利用 Ultralytics YOLO 模型简化物流。视觉 AI 支持包裹检测、分类、车辆追踪和实时仓库安全监控。

了解详情
Real-time AI tailored to your operation

农业中的 AI

利用 Ultralytics YOLO 模型将视觉 AI 引入智慧农业。为农作物监测、牲畜追踪和精准农业提供支持,实现更高、更智能的产量。

了解详情
Real-time AI that works with your operation

汽车领域的 AI

利用 Ultralytics YOLO 模型将计算机视觉应用于汽车领域。视觉 AI 能提升道路安全、驾驶辅助和车辆自动化水平,从而打造更智能的道路。

了解详情
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗解决方案。医疗保健中的视觉 AI 可加速医学影像处理、实现更智能的诊断并改善患者监护。

了解详情
Real-time AI that works with your team

零售业中的AI

利用Ultralytics YOLO模型重塑零售业。视觉AI助力库存追踪、货架监控、排队管理和更智能的客户洞察。

了解详情
Real-time AI that works with your team

机器人领域的 AI

利用 Ultralytics YOLO 模型为更智能的机器提供动力。机器人领域的视觉 AI 可驱动自主导航、感知、物体跟踪和实时控制。

了解详情
Real-time AI that works with your team

制造业中的 AI

利用 Ultralytics YOLO 模型优化制造业。视觉 AI 助力质量控制、缺陷检测、PPE 合规性监控以及装配线自动化。

了解详情
Real-time AI that works with your team

物流中的 AI

利用 Ultralytics YOLO 模型简化物流。视觉 AI 支持包裹检测、分类、车辆追踪和实时仓库安全监控。

了解详情

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅