遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Direct Preference Optimization

了解直接偏好优化 (DPO) 如何简化 AI 对齐。探索如何比传统的 RLHF 更高效地提升模型安全性和性能。

直接偏好优化 (DPO) 是一种稳定且高效的算法技术,用于微调人工智能模型,确保其符合人类意愿和安全标准。与需要复杂奖励建模的传统强化学习方法不同,DPO 将偏好学习问题视为分类任务,从而简化了对齐过程。通过基于人类偏好数据集(标注者在其中选择“胜出”响应而非“失败”响应)直接优化模型,开发者可以显著提高 基础模型生成式 AI 系统的有用性、诚实性和安全性。这种方法因其能以更低的计算开销实现最先进的性能,在 2024 年和 2025 年广受追捧。

Link to this sectionDPO 如何简化模型对齐#

直接偏好优化的主要创新在于去除了旧式对齐流程中的“中间人”。过去,对齐 大语言模型 (LLM)视觉语言模型 通常涉及一个多步流程,即 人类反馈强化学习 (RLHF)。RLHF 需要训练一个独立的奖励模型来近似人类评分,随后使用像 PPO (近端策略优化) 这样容易不稳定的算法来更新主模型。

DPO 从数学上消除了对这种独立奖励模型的需求。相反,它使用了一个派生的 损失函数,旨在增加生成“偏好”输出的可能性,同时降低生成“拒绝”输出的可能性。这依赖于一个参考模型,以确保更新后的模型不会过度偏离其原始 训练数据 分布。这种数学简化使该过程的行为更接近标准的 监督学习,从而在 GPU 硬件 上实现更快的收敛和更低的内存占用。

Link to this section与 RLHF 的区别#

尽管 DPO 和 RLHF 的目标都是 AI 安全 和对齐,但它们的实现方式有显著差异:

  • 复杂性: RLHF 在训练过程中需要同时维护多个模型(行动者、评论者、奖励模型、参考模型)。DPO 仅需要待训练模型和一个冻结的参考模型。
  • 稳定性: 强化学习以对 超参数调优 极为敏感而闻名。DPO 通常以标准分类任务的稳定性运行,降低了 模型崩溃 的风险。
  • 效率: 通过移除奖励模型推理步骤,DPO 降低了计算负担,使组织能够在较小的集群上对更大的模型进行对齐。

Link to this section实际应用#

直接偏好优化目前正在重塑各行业构建交互式 AI 系统的方式。

Link to this section增强对话智能体#

聊天机器人 和虚拟助手领域,DPO 被用于减少毒性并提高事实准确性。开发者整理数据集,让人类标注者回顾提示词的两个答案——一个包含幻觉或无礼,另一个准确且礼貌。标注者将礼貌的答案标记为“选中”。然后,DPO 会更新 模型权重 以倾向于选中的风格。这对于部署遵循严格 AI 伦理 指南的客户服务智能体至关重要。

Link to this section改进视觉语言模型#

随着计算机视觉的发展,模型越来越需要解释其所见内容。对于 图像标注 或视觉问答等应用,DPO 允许研究人员将模型的文本输出与详细的人类偏好对齐。例如,如果用户要求 安全系统 “描述入侵者”,DPO 可以训练模型优先生成事实描述(例如,“红衬衫,蓝帽子”)而非诗意或模糊的描述,从而增强 计算机视觉系统 的效用。

Link to this section现代 AI 工作流中的 DPO#

实施 DPO 需要高质量的成对数据。现代工作流通常利用 Ultralytics Platform 等工具来管理数据集,确保 数据标注 过程产生清晰的“胜出”和“失败”示例。虽然 DPO 最初是为文本开创的,但其原理正越来越多地应用于优化 目标检测架构 及其他模态,即将质量指标定义为偏好对。

以下使用 torch 的 Python 代码片段展示了 DPO 风格损失计算所需的基础数据结构。它展示了如何分批准备“选中”和“拒绝”的响应,这一概念对于现代 模型优化 至关重要。

import torch
import torch.nn.functional as F

# Simulate log probabilities for 'chosen' and 'rejected' responses
# In a real scenario, these come from your model (e.g., a VLM or LLM)
chosen_log_probs = torch.tensor([-0.5, -0.8, -0.2], requires_grad=True)
rejected_log_probs = torch.tensor([-2.5, -3.0, -1.5], requires_grad=True)

# DPO aims to maximize the margin between chosen and rejected
# This is a simplified conceptual look at the margin calculation
beta = 0.1  # A hyperparameter controlling deviation from the reference model
logits = beta * (chosen_log_probs - rejected_log_probs)

# The loss minimizes the negative log sigmoid of this margin
loss = -F.logsigmoid(logits).mean()

print(f"DPO Loss: {loss.item()}")
# Output demonstrates the penalty applied if the model doesn't prefer the chosen data

通过利用 DPO 等技术,开发者可以突破模型性能的极限,例如在 Ultralytics YOLO26 中,确保自动化决策不仅准确,而且符合人类意图。这对于 自动驾驶车辆医学图像分析 等高风险环境至关重要,在这些领域,可靠性是首要因素。

Link to this section外部资源#

Explore solutions

Real-time AI tailored to your operation

农业中的 AI

利用 Ultralytics YOLO 模型将视觉 AI 引入智慧农业。为农作物监测、牲畜追踪和精准农业提供支持,实现更高、更智能的产量。

了解详情
Real-time AI that works with your operation

汽车领域的 AI

利用 Ultralytics YOLO 模型将计算机视觉应用于汽车领域。视觉 AI 能提升道路安全、驾驶辅助和车辆自动化水平,从而打造更智能的道路。

了解详情
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗解决方案。医疗保健中的视觉 AI 可加速医学影像处理、实现更智能的诊断并改善患者监护。

了解详情
Real-time AI that works with your team

零售业中的AI

利用Ultralytics YOLO模型重塑零售业。视觉AI助力库存追踪、货架监控、排队管理和更智能的客户洞察。

了解详情
Real-time AI that works with your team

机器人领域的 AI

利用 Ultralytics YOLO 模型为更智能的机器提供动力。机器人领域的视觉 AI 可驱动自主导航、感知、物体跟踪和实时控制。

了解详情
Real-time AI that works with your team

制造业中的 AI

利用 Ultralytics YOLO 模型优化制造业。视觉 AI 助力质量控制、缺陷检测、PPE 合规性监控以及装配线自动化。

了解详情
Real-time AI that works with your team

物流中的 AI

利用 Ultralytics YOLO 模型简化物流。视觉 AI 支持包裹检测、分类、车辆追踪和实时仓库安全监控。

了解详情
Real-time AI tailored to your operation

农业中的 AI

利用 Ultralytics YOLO 模型将视觉 AI 引入智慧农业。为农作物监测、牲畜追踪和精准农业提供支持,实现更高、更智能的产量。

了解详情
Real-time AI that works with your operation

汽车领域的 AI

利用 Ultralytics YOLO 模型将计算机视觉应用于汽车领域。视觉 AI 能提升道路安全、驾驶辅助和车辆自动化水平,从而打造更智能的道路。

了解详情
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗解决方案。医疗保健中的视觉 AI 可加速医学影像处理、实现更智能的诊断并改善患者监护。

了解详情
Real-time AI that works with your team

零售业中的AI

利用Ultralytics YOLO模型重塑零售业。视觉AI助力库存追踪、货架监控、排队管理和更智能的客户洞察。

了解详情
Real-time AI that works with your team

机器人领域的 AI

利用 Ultralytics YOLO 模型为更智能的机器提供动力。机器人领域的视觉 AI 可驱动自主导航、感知、物体跟踪和实时控制。

了解详情
Real-time AI that works with your team

制造业中的 AI

利用 Ultralytics YOLO 模型优化制造业。视觉 AI 助力质量控制、缺陷检测、PPE 合规性监控以及装配线自动化。

了解详情
Real-time AI that works with your team

物流中的 AI

利用 Ultralytics YOLO 模型简化物流。视觉 AI 支持包裹检测、分类、车辆追踪和实时仓库安全监控。

了解详情
Real-time AI tailored to your operation

农业中的 AI

利用 Ultralytics YOLO 模型将视觉 AI 引入智慧农业。为农作物监测、牲畜追踪和精准农业提供支持,实现更高、更智能的产量。

了解详情
Real-time AI that works with your operation

汽车领域的 AI

利用 Ultralytics YOLO 模型将计算机视觉应用于汽车领域。视觉 AI 能提升道路安全、驾驶辅助和车辆自动化水平,从而打造更智能的道路。

了解详情
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗解决方案。医疗保健中的视觉 AI 可加速医学影像处理、实现更智能的诊断并改善患者监护。

了解详情
Real-time AI that works with your team

零售业中的AI

利用Ultralytics YOLO模型重塑零售业。视觉AI助力库存追踪、货架监控、排队管理和更智能的客户洞察。

了解详情
Real-time AI that works with your team

机器人领域的 AI

利用 Ultralytics YOLO 模型为更智能的机器提供动力。机器人领域的视觉 AI 可驱动自主导航、感知、物体跟踪和实时控制。

了解详情
Real-time AI that works with your team

制造业中的 AI

利用 Ultralytics YOLO 模型优化制造业。视觉 AI 助力质量控制、缺陷检测、PPE 合规性监控以及装配线自动化。

了解详情
Real-time AI that works with your team

物流中的 AI

利用 Ultralytics YOLO 模型简化物流。视觉 AI 支持包裹检测、分类、车辆追踪和实时仓库安全监控。

了解详情

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅