YOLO26の紹介: 次世代のビジョンAI。
Ultralytics
Ultralytics用語集に戻る

Direct Preference Optimization (DPO)

Direct Preference Optimization (DPO) がどのようにAIの調整を簡素化するかを学びます。この効率的な手法がどのようにRLHFに取って代わり、モデルの安全性とパフォーマンスを向上させるかをご覧ください。

Direct Preference Optimization (DPO) は、人工知能モデルを微調整し、人間の意図、安全性基準、倫理ガイドラインに確実に合わせるために使用される、安定的かつ効率的なアルゴリズム手法です。人間のフィードバックを取得するために複雑な多段階パイプラインを必要とする従来の手法とは異なり、DPOは選好学習を直接標準的な 機械学習における分類タスク として扱うことで、調整プロセスを数学的に簡素化します。開発者は、アノテーターが「勝者」となる回答を「敗者」よりも選択した人間による選好のデータセットに基づいてモデルを直接最適化することで、大規模な ファンデーションモデル や最新の 生成AIシステム の有用性、誠実さ、安全性を大幅に向上させることができます。

Link to this sectionDPOがモデルの調整を簡素化する仕組み#

Direct Preference Optimization の主な革新性は、アーキテクチャ上の「仲介者」を排除したことにあります。これまで、大規模言語モデル (LLM)視覚言語モデル の調整には、人間によるフィードバックを用いた強化学習 (RLHF) として知られる複雑なプロセスが必要でした。RLHFでは、人間のスコアリングを近似するために別の報酬モデルを訓練する必要があり、その後、メインモデルを更新するために Proximal Policy Optimization のような不安定になりやすい強化学習アルゴリズムを使用する必要があります。

DPOは、この独立した報酬モデルの必要性を数学的に排除します。その代わり、生成される「好ましい」出力の尤度を高め、同時に「拒否された」出力の尤度を下げる派生的な 損失関数 に依存しています。参照モデルを使用して Kullback-Leibler情報量 を制限し、更新されたモデルが元の 訓練データ の分布から大きく乖離しないようにします。この数学的な簡素化により、プロセスは標準的な 教師あり学習 に近い挙動をするようになり、GPUハードウェア 上での収束が速くなり、メモリ使用量も削減されます。これは本質的に モデル崩壊 のリスクを低減し、広範な ハイパーパラメータチューニング を不要にします。

Link to this section実際の応用例#

Direct Preference Optimization は、堅牢な AIの安全性 を追求する様々な重要な産業において、インタラクティブなAIシステムがどのように構築・展開されるかを根本から変革しています。

  • 会話型エージェントの強化: チャットボット やバーチャルアシスタントの分野において、DPOは有害性を低減し、OpenAIの安全に関するベストプラクティスAIの調整に関するAnthropicの研究 に準拠した応答を実現するために使用されます。人間のアノテーターがプロンプトに対する2つの回答をレビューし、丁寧で事実に基づいた回答を「選択済み」とマークします。その後、DPOはモデルの重みを更新してこの特定の会話スタイルを優先させ、ハルシネーション(幻覚)を抑制します。
  • 視覚言語モデルの改善: 画像認識 が進化するにつれ、モデルが人間に対して認識内容を説明することがますます求められるようになっています。視覚的な質問応答のようなアプリケーションにおいて、DPOは研究者がモデルのテキスト出力を詳細な人間の選好に合わせることを可能にします。例えば、Ultralytics YOLO26 を搭載したロボットシステムがユーザーにオブジェクトの説明を求められた場合、DPOは曖昧な解釈よりも事実に基づいた簡潔な説明を優先するようにモデルを訓練し、厳格な AI倫理 ガイドラインを厳守します。

Link to this section実践におけるDPO#

DPOを実装するには、高品質なペアデータが必要です。最新のワークフローでは、Ultralytics Platform のような包括的なツールを活用してこれらのデータセットをシームレスに管理し、データアノテーション プロセスから明確な「勝者」と「敗者」の例を得られるようにします。これに関する基礎研究については、論文 Direct Preference Optimization: Your Language Model is Secretly a Reward Model を参照するか、Stanford HAIによる Alignment and Human Preferences について読んでみてください。

以下の Python コードスニペットは、PyTorch APIリファレンス にある関数を使用した、DPO形式の損失計算に必要な基本的なデータ構造を示しています。

import torch
import torch.nn.functional as F


def dpo_loss(chosen_logps, rejected_logps, beta=0.1):
    # DPO maximizes the margin between chosen and rejected log probabilities
    logits = beta * (chosen_logps - rejected_logps)
    # The loss minimizes the negative log sigmoid of this margin
    return -F.logsigmoid(logits).mean()


print(f"DPO Loss: {dpo_loss(torch.tensor([-0.5]), torch.tensor([-2.5])):.4f}")

Explore solutions

Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを活用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜トラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら
Real-time AI that works with your operation

自動車産業におけるAI

Ultralytics YOLOモデルを使用して、自動車産業にコンピュータビジョンを適用します。Vision AIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路環境を実現します。

詳細はこちら
Real-time AI that works with your team

医療におけるAI

Ultralytics YOLOモデルを使用して医療ソリューションを構築しましょう。医療におけるビジョンAIは、より迅速な医用画像処理、よりスマートな診断、そして患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

小売業におけるAI

Ultralytics YOLOモデルで小売業を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、行列管理、そしてよりスマートな顧客インサイトを強化します。

詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現します。ロボティクスにおけるVision AIは、自律航行、認識、物体追跡、そしてリアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

製造業におけるAI

Ultralytics YOLOモデルで製造プロセスを最適化します。ビジョンAIは、品質管理、欠陥検出、PPE(個人用保護具)コンプライアンス、および組立ラインの自動化を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、倉庫の安全性のリアルタイム監視が可能になります。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを活用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜トラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら
Real-time AI that works with your operation

自動車産業におけるAI

Ultralytics YOLOモデルを使用して、自動車産業にコンピュータビジョンを適用します。Vision AIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路環境を実現します。

詳細はこちら
Real-time AI that works with your team

医療におけるAI

Ultralytics YOLOモデルを使用して医療ソリューションを構築しましょう。医療におけるビジョンAIは、より迅速な医用画像処理、よりスマートな診断、そして患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

小売業におけるAI

Ultralytics YOLOモデルで小売業を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、行列管理、そしてよりスマートな顧客インサイトを強化します。

詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現します。ロボティクスにおけるVision AIは、自律航行、認識、物体追跡、そしてリアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

製造業におけるAI

Ultralytics YOLOモデルで製造プロセスを最適化します。ビジョンAIは、品質管理、欠陥検出、PPE(個人用保護具)コンプライアンス、および組立ラインの自動化を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、倉庫の安全性のリアルタイム監視が可能になります。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを活用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜トラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら
Real-time AI that works with your operation

自動車産業におけるAI

Ultralytics YOLOモデルを使用して、自動車産業にコンピュータビジョンを適用します。Vision AIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路環境を実現します。

詳細はこちら
Real-time AI that works with your team

医療におけるAI

Ultralytics YOLOモデルを使用して医療ソリューションを構築しましょう。医療におけるビジョンAIは、より迅速な医用画像処理、よりスマートな診断、そして患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

小売業におけるAI

Ultralytics YOLOモデルで小売業を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、行列管理、そしてよりスマートな顧客インサイトを強化します。

詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現します。ロボティクスにおけるVision AIは、自律航行、認識、物体追跡、そしてリアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

製造業におけるAI

Ultralytics YOLOモデルで製造プロセスを最適化します。ビジョンAIは、品質管理、欠陥検出、PPE(個人用保護具)コンプライアンス、および組立ラインの自動化を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、倉庫の安全性のリアルタイム監視が可能になります。

詳細はこちら

AIの未来を共に築き上げましょう!

機械学習の未来とともに旅を始めましょう