Direct Preference Optimization
تعرّف على كيفية تبسيط تحسين التفضيلات المباشر (DPO) لمحاذاة الذكاء الاصطناعي. واكتشف كيفية تحسين سلامة النماذج وأدائها بشكل أكثر كفاءة من طرق التعلم التعزيزي من التغذية الراجعة البشرية (RLHF) التقليدية.
تحسين التفضيلات المباشر (DPO) هو تقنية خوارزمية مستقرة وفعالة تُستخدم لضبط نماذج الذكاء الاصطناعي، وتضمن تحديداً محاذاتها مع الرغبات البشرية ومعايير السلامة. وعلى عكس طرق التعلم التعزيزي التقليدية التي تتطلب نمذجة مكافأة معقدة، يبسّط DPO عملية المحاذاة من خلال معاملة مشكلة تعلم التفضيلات كمهمة تصنيف. ومن خلال تحسين النموذج مباشرةً بناءً على مجموعة بيانات من التفضيلات البشرية—حيث يختار المقيمون استجابة "فائزة" بدلاً من استجابة "خاسرة"—يمكن للمطورين تحسين الفائدة والمصداقية والسلامة في النماذج الأساسية وأنظمة الذكاء الاصطناعي التوليدي بشكل كبير. وقد اكتسب هذا النهج زخماً هائلاً في عامي 2024 و2025 لقدرته على تحقيق نتائج متطورة مع استهلاك موارد حوسبة أقل بكثير.
Link to this sectionكيف يبسط DPO مواءمة النموذج#
يكمن الابتكار الرئيسي لتحسين التفضيلات المباشر في إزالة "الوسيط" الموجود في خطوط أنابيب المحاذاة القديمة. تاريخياً، كانت محاذاة نموذج لغوي كبير (LLM) أو نموذج رؤية لغوية تتضمن عملية متعددة الخطوات تُعرف بـ التعلم التعزيزي من التغذية الراجعة البشرية (RLHF). تتطلب RLHF تدريب نموذج مكافأة منفصل لتقريب التقييم البشري، متبوعاً باستخدام خوارزمية عرضة لعدم الاستقرار مثل PPO (تحسين السياسة القريب) لتحديث النموذج الرئيسي.
يقوم DPO رياضياً بإلغاء الحاجة إلى نموذج المكافأة المنفصل هذا. وبدلاً من ذلك، يستخدم دالة خسارة مشتقة تزيد من احتمالية توليد مخرجات "مُفضلة" مع تقليل احتمالية المخرجات "المرفوضة". يعتمد هذا على نموذج مرجعي لضمان عدم ابتعاد النموذج المُحدّث كثيراً عن توزيع بيانات التدريب الأصلية. هذا التبسيط الرياضي يجعل العملية تتصرف بشكل أقرب بكثير إلى التعلم الخاضع للإشراف القياسي، مما يؤدي إلى تقارب أسرع واستخدام أقل للذاكرة على أجهزة GPU.
Link to this sectionالتمييز عن RLHF#
بينما يشترك كل من DPO وRLHF في هدف سلامة الذكاء الاصطناعي والمحاذاة، فإن تنفيذهما يختلف بشكل كبير:
- التعقيد: تتضمن RLHF الحفاظ على نماذج متعددة (الممثل، والناقد، ونموذج المكافأة، والنموذج المرجعي) في وقت واحد أثناء التدريب. بينما يتطلب DPO فقط النموذج الذي يتم تدريبه ونموذجاً مرجعياً مجمداً.
- الاستقرار: يُعرف التعلم التعزيزي بحساسيته الشديدة لـ ضبط المعلمات الفائقة. يعمل DPO عادةً باستقرار مهمة تصنيف قياسية، مما يقلل من مخاطر انهيار النموذج.
- الكفاءة: من خلال إزالة خطوات استنتاج نموذج المكافأة، يقلل DPO من العبء الحسابي، مما يسمح للمؤسسات بمحاذاة نماذج أكبر على مجموعات حوسبة أصغر.
Link to this sectionالتطبيقات الواقعية#
يعيد تحسين التفضيلات المباشر حالياً تشكيل كيفية بناء أنظمة الذكاء الاصطناعي التفاعلية عبر مختلف الصناعات.
Link to this sectionتعزيز الوكلاء التفاعليين#
في مجال روبوتات الدردشة والمساعدين الافتراضيين، يُستخدم DPO لتقليل السمية وتحسين الدقة الواقعية. يقوم المطورون بتنظيم مجموعات بيانات حيث يقوم مقيّم بشري بمراجعة إجابتين لمطالبة معينة—واحدة مهلوسة أو وقحة، والأخرى دقيقة ومهذبة. يضع الإنسان علامة على الإجابة المهذبة كـ "مُختارة". يقوم DPO بعد ذلك بتحديث أوزان النموذج لتفضيل الأسلوب المُختار. وهذا أمر بالغ الأهمية لنشر وكلاء خدمة العملاء الذين يلتزمون بإرشادات أخلاقيات الذكاء الاصطناعي الصارمة.
Link to this sectionتنقيح نماذج الرؤية اللغوية#
مع تطور الرؤية الحاسوبية، أصبحت النماذج مطلوبة بشكل متزايد لشرح ما تراه. بالنسبة لتطبيقات مثل وصف الصور أو الإجابة على الأسئلة المرئية، يسمح DPO للباحثين بمحاذاة المخرجات النصية للنموذج مع التفضيلات البشرية التفصيلية. على سبيل المثال، إذا طلب مستخدم من نظام أمني "وصف المتسلل"، يمكن لـ DPO تدريب النموذج على إعطاء الأولوية للأوصاف الواقعية (مثل "قميص أحمر، قبعة زرقاء") بدلاً من الأوصاف الشعرية أو الغامضة، مما يعزز فائدة نظام الرؤية الحاسوبية.
Link to this sectionDPO في سير عمل الذكاء الاصطناعي الحديث#
يتطلب تنفيذ DPO بيانات زوجية عالية الجودة. غالباً ما تستخدم سير العمل الحديثة أدوات مثل منصة Ultralytics لإدارة مجموعات البيانات، مما يضمن أن عملية توسيم البيانات تنتج أمثلة واضحة لـ "الفائز" و"الخاسر". وبينما تم ابتكار DPO للنصوص، فإن مبادئه تُطبّق بشكل متزايد لتحسين بنيات اكتشاف الكائنات وطرق أخرى من خلال صياغة مقاييس الجودة كأزواج تفضيلية.
يوضح مقتطف Python التالي باستخدام torch بنية البيانات الأساسية المطلوبة لحساب الخسارة بأسلوب DPO. ويُظهر كيفية إعداد الاستجابات "المُختارة" و"المرفوضة" في دفعات، وهو مفهوم بالغ الأهمية لعملية تحسين النموذج الحديثة.
import torch
import torch.nn.functional as F
# Simulate log probabilities for 'chosen' and 'rejected' responses
# In a real scenario, these come from your model (e.g., a VLM or LLM)
chosen_log_probs = torch.tensor([-0.5, -0.8, -0.2], requires_grad=True)
rejected_log_probs = torch.tensor([-2.5, -3.0, -1.5], requires_grad=True)
# DPO aims to maximize the margin between chosen and rejected
# This is a simplified conceptual look at the margin calculation
beta = 0.1 # A hyperparameter controlling deviation from the reference model
logits = beta * (chosen_log_probs - rejected_log_probs)
# The loss minimizes the negative log sigmoid of this margin
loss = -F.logsigmoid(logits).mean()
print(f"DPO Loss: {loss.item()}")
# Output demonstrates the penalty applied if the model doesn't prefer the chosen dataمن خلال الاستفادة من تقنيات مثل DPO، يمكن للمطورين دفع حدود الأداء في نماذج مثل Ultralytics YOLO26، مما يضمن أن القرارات المؤتمتة ليست دقيقة فحسب، بل متوافقة أيضاً مع القصد البشري. وهذا حيوي للبيئات عالية المخاطر مثل المركبات ذاتية القيادة وتحليل الصور الطبية، حيث الموثوقية هي الأمر الأهم.
Link to this sectionموارد خارجية#
- الورقة البحثية الأصلية: اقرأ البحث التأسيسي حول تحسين التفضيلات المباشر: نموذجك اللغوي هو نموذج مكافأة سراً بقلم رافائيلوف وآخرون (2023).
- Stanford HAI: استكشف رؤى حول المحاذاة والتفضيلات البشرية من جامعة ستانفورد.
- توثيق PyTorch: راجع التفاصيل الفنية حول تنفيذ دوال خسارة محددة في مرجع API لـ PyTorch.






