Direct Preference Optimization (DPO)

Direct Preference Optimization (DPO) がAIアライメントをどのように簡素化するか解説します。この効率的な手法がRLHFに代わって、いかにモデルの安全性とパフォーマンスを向上させるかを発見しましょう。

Direct Preference Optimization (DPO) は、人工知能モデルを微調整し、人間の意図、安全性基準、倫理ガイドラインに適合させるために使用される安定的かつ効率的なアルゴリズム手法です。人間のフィードバックを取得するために複雑な多段階パイプラインを必要とする従来の手法とは異なり、DPOは優先順位の学習を直接、標準的な機械学習における分類タスクとして扱うことで、適合プロセスを数学的に簡素化します。開発者は、注釈者が「勝利」した回答を「敗北」した回答よりも選択する人間の選好データセットに基づいてモデルを直接最適化することで、大規模なファウンデーションモデルや現代の生成AIシステムの有用性、誠実さ、安全性を大幅に向上させることができます。

Link to this sectionDPOがモデルの適合を簡素化する仕組み#

Direct Preference Optimizationの主な革新は、アーキテクチャ上の「仲介役」を排除したことにあります。歴史的に、Large Language Model (LLM)やVision-Language Modelの適合には、Reinforcement Learning from Human Feedback (RLHF)として知られる複雑なプロセスが必要でした。RLHFでは、人間のスコアリングを近似するために別の報酬モデルを学習させ、その後、Proximal Policy Optimizationのような不安定になりやすい強化学習アルゴリズムを使用してメインモデルを更新する必要があります。

DPOは、この別の報酬モデルの必要性を数学的に排除します。その代わりに、派生した損失関数に依存し、「推奨される」出力を生成する可能性を高めると同時に、「拒否された」出力を生成する可能性を減少させます。参照モデルを使用してカルバック・ライブラー情報量を制限し、更新されたモデルが元の学習データの分布から大きく逸脱しないようにします。この数学的な簡素化により、プロセスは標準的な教師あり学習に近い挙動をとるようになり、収束が速まり、GPUハードウェアでのメモリ使用量が削減されます。これは本質的にモデル崩壊のリスクを軽減し、広範なハイパーパラメータチューニングを不要にします。

Link to this section実社会での応用#

Direct Preference Optimizationは、堅牢なAI Safetyを追求する中で、さまざまな重要な業界においてインタラクティブなAIシステムが構築および展開される方法を根本的に作り変えています。

会話型エージェントの強化: チャットボットやバーチャルアシスタントの領域において、DPOは有害性を低減し、OpenAI safety best practicesおよびAnthropic research on AI alignmentに厳格に従って応答を適合させるために使用されます。人間の注釈者がプロンプトに対する2つの回答をレビューし、丁寧で事実に基づいた回答を「選択済み」とマークします。その後、DPOがモデルの重みを更新してこの特定の会話スタイルを優先させ、ハルシネーション（幻覚）をペナルティの対象とします。
視覚言語モデルの洗練: 画像認識の進化に伴い、モデルが人間に対して認識内容を説明することがますます求められています。視覚的質問応答のようなアプリケーションにおいて、DPOは研究者がモデルのテキスト出力を人間の詳細な好みに適合させることを可能にします。例えば、ユーザーがUltralytics YOLO26を搭載したロボットシステムにオブジェクトの説明を求めた場合、DPOはモデルを訓練し、曖昧な解釈よりも事実に基づいた簡潔な説明を優先させ、厳格なAI Ethicsガイドラインを忠実に遵守させるようにします。

Link to this sectionDPOの実践#

DPOの実装には、高品質なペアデータが必要です。現代のワークフローでは、Ultralytics Platformのような包括的なツールを活用してこれらのデータセットをシームレスに管理し、データアノテーションプロセスから明確な「勝利」と「敗北」の例が得られるようにします。これに関する基礎研究については、論文Direct Preference Optimization: Your Language Model is Secretly a Reward Modelを参照するか、Stanford HAIによるAlignment and Human Preferencesに関する記事をお読みください。

以下のPythonスニペットは、PyTorch API referenceにある関数を使用して、DPO形式の損失計算に必要な基本的なデータ構造を示しています。

import torch
import torch.nn.functional as F


def dpo_loss(chosen_logps, rejected_logps, beta=0.1):
    # DPO maximizes the margin between chosen and rejected log probabilities
    logits = beta * (chosen_logps - rejected_logps)
    # The loss minimizes the negative log sigmoid of this margin
    return -F.logsigmoid(logits).mean()


print(f"DPO Loss: {dpo_loss(torch.tensor([-0.5]), torch.tensor([-2.5])):.4f}")