Direct Preference Optimization

Direct Preference Optimization (DPO) がAIアライメントをどのように簡素化するか解説します。従来のRLHFよりも効率的にモデルの安全性とパフォーマンスを向上させる方法を発見しましょう。

Direct Preference Optimization (DPO) は、人工知能モデルのファインチューニングに使用される安定的かつ効率的なアルゴリズム手法であり、特に人間の意図や安全基準への適合を確実にするものです。複雑な報酬モデリングを必要とする従来の強化学習手法とは異なり、DPOは選好学習問題を分類タスクとして扱うことでアライメントプロセスを簡素化します。アノテーターが「正解」の回答と「不正解」の回答を選択する人間の選好データセットに基づきモデルを直接最適化することで、開発者はfoundation modelsやgenerative AIシステムの有用性、誠実性、安全性を大幅に向上させることができます。このアプローチは、計算オーバーヘッドを大幅に抑えつつ最先端の結果を達成できるため、2024年および2025年に大きな注目を集めています。

Link to this sectionDPOがモデルの適合を簡素化する仕組み#

Direct Preference Optimizationの主な革新は、古いアライメントパイプラインに存在していた「仲介者」を排除した点にあります。歴史的に、Large Language Model (LLM)やVision-Language Modelをアライメントするには、Reinforcement Learning from Human Feedback (RLHF)として知られる多段階のプロセスが必要でした。RLHFでは、人間のスコアリングを近似するために別の報酬モデルを学習させ、その後にPPO (Proximal Policy Optimization) のような不安定になりやすいアルゴリズムを使用してメインモデルを更新する必要がありました。

DPOは数学的に、この個別の報酬モデルの必要性を排除します。代わりに、導出されたloss functionを使用することで、「好ましい」出力の生成確率を高め、「拒否された」出力の確率を下げます。これには、更新されたモデルが元のtraining dataの分布から大きく逸脱しないようにするために、参照モデルが使用されます。この数学的な簡素化により、プロセスは標準的なsupervised learningに近い挙動を示し、収束の高速化とGPU hardwareでのメモリ使用量の削減が実現します。

Link to this sectionRLHFとの違い#

DPOとRLHFはどちらもAI Safetyとアライメントを目的としていますが、実装方法は大きく異なります。

複雑性: RLHFでは、学習中に複数のモデル（アクター、クリティック、報酬モデル、参照モデル）を同時に維持する必要があります。DPOで必要なのは、学習対象のモデルと凍結された参照モデルのみです。
安定性: 強化学習はhyperparameter tuningに非常に敏感であることが知られています。DPOは通常、標準的な分類タスクと同等の安定性で動作するため、model collapseのリスクが軽減されます。
効率性: DPOは報酬モデルの推論ステップを排除することで計算負荷を軽減し、組織がより小規模なクラスタでより大規模なモデルをアライメントすることを可能にします。

Link to this section実社会での応用#

Direct Preference Optimizationは現在、さまざまな業界において対話型AIシステムの構築方法を再形成しています。

Link to this section会話型エージェントの強化#

chatbotsやバーチャルアシスタントの分野では、毒性を低減し事実の正確性を向上させるためにDPOが使用されています。開発者は、人間のアノテーターがプロンプトに対する2つの回答（一方には幻覚や失礼な表現が含まれ、もう一方には正確で丁寧な表現が含まれる）を確認するデータセットを作成します。人間が丁寧な回答を「選択済み」とマークすると、DPOがmodel weightsを更新して、選択されたスタイルを優先するように学習させます。これは、厳格なAI Ethicsガイドラインに従うカスタマーサービスエージェントをデプロイする上で非常に重要です。

Link to this sectionVision-Language Modelの洗練#

コンピュータビジョンの進化に伴い、モデルには視覚情報を説明する能力がますます求められています。image captioningや視覚的質問応答などのアプリケーションにおいて、DPOを使用することで、研究者はモデルのテキスト出力を詳細な人間の選好と一致させることができます。例えば、ユーザーがsecurity systemに対して「侵入者を説明して」と尋ねた場合、DPOを使用して、モデルが詩的または曖昧な表現よりも事実に基づく記述（例：「赤いシャツ、青い帽子」）を優先するように学習させることで、computer vision systemの有用性を高めることができます。

Link to this section現代のAIワークフローにおけるDPO#

DPOを実装するには、高品質なペアデータが必要です。現代のワークフローでは、Ultralytics Platformのようなツールを使用してデータセットを管理し、data annotationプロセスを通じて明確な「勝者」と「敗者」の例を得ることが一般的です。DPOはテキスト向けに開発されましたが、その原則は、品質指標を選好ペアとして定義することで、object detection architecturesやその他のモダリティを最適化するためにも広く適用されています。

torchを使用した以下のPythonスニペットは、DPO形式の損失計算に必要な基本的なデータ構造を示しています。これは、「選択された」回答と「拒否された」回答をどのようにバッチ形式で準備するかを示したもので、現代のmodel optimizationにおいて極めて重要な概念です。

import torch
import torch.nn.functional as F

# Simulate log probabilities for 'chosen' and 'rejected' responses
# In a real scenario, these come from your model (e.g., a VLM or LLM)
chosen_log_probs = torch.tensor([-0.5, -0.8, -0.2], requires_grad=True)
rejected_log_probs = torch.tensor([-2.5, -3.0, -1.5], requires_grad=True)

# DPO aims to maximize the margin between chosen and rejected
# This is a simplified conceptual look at the margin calculation
beta = 0.1  # A hyperparameter controlling deviation from the reference model
logits = beta * (chosen_log_probs - rejected_log_probs)

# The loss minimizes the negative log sigmoid of this margin
loss = -F.logsigmoid(logits).mean()

print(f"DPO Loss: {loss.item()}")
# Output demonstrates the penalty applied if the model doesn't prefer the chosen data

DPOのような手法を活用することで、開発者はUltralytics YOLO26のようなモデルのパフォーマンスの限界を押し広げ、自動化された判断が正確であるだけでなく、人間の意図に沿ったものであることを保証できます。これは、信頼性が最優先されるautonomous vehiclesやmedical image analysisのような、リスクの高い環境において不可欠です。

Link to this section外部リソース#

オリジナル論文: Rafailovら（2023）によるDirect Preference Optimization: Your Language Model is Secretly a Reward Modelの基礎研究をお読みください。
Stanford HAI: スタンフォード大学によるAlignment and Human Preferencesに関する知見をご覧ください。
PyTorchドキュメント: PyTorch API referenceにて、特定の損失関数の実装に関する技術的な詳細を確認してください。

Explore solutions

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。

Direct Preference Optimization

Link to this sectionDPOがモデルの適合を簡素化する仕組み#

Link to this sectionRLHFとの違い#

Link to this section実社会での応用#

Link to this section会話型エージェントの強化#

Link to this sectionVision-Language Modelの洗練#

Link to this section現代のAIワークフローにおけるDPO#

Link to this section外部リソース#

Explore solutions

ロボティクスにおけるAI

物流におけるAI

小売業界におけるAI

ヘルスケアにおけるAI

製造におけるAI

自動車におけるAI

農業におけるAI

ロボティクスにおけるAI

物流におけるAI

小売業界におけるAI

ヘルスケアにおけるAI

製造におけるAI

自動車におけるAI

農業におけるAI

ロボティクスにおけるAI

物流におけるAI

小売業界におけるAI

ヘルスケアにおけるAI

製造におけるAI

自動車におけるAI

農業におけるAI

AIの未来を共に築き上げましょう！