Direct Preference Optimization

تعرف على كيفية تبسيط تحسين التفضيل المباشر (Direct Preference Optimization (DPO)) لمحاذاة الذكاء الاصطناعي. اكتشف كيفية تحسين سلامة النموذج وأدائه بكفاءة أكبر من RLHF التقليدي.

تحسين التفضيلات المباشر (DPO) هو تقنية خوارزمية مستقرة وفعالة تُستخدم لضبط نماذج الذكاء الاصطناعي، وتضمن تحديداً توافقها مع رغبات الإنسان ومعايير السلامة. على عكس طرق التعلم التعزيزي التقليدية التي تتطلب نمذجة معقدة للمكافآت، تعمل DPO على تبسيط عملية التوافق من خلال معاملة مشكلة تعلم التفضيلات كمهمة تصنيف. ومن خلال تحسين النموذج مباشرةً بناءً على مجموعة بيانات من تفضيلات البشر - حيث يختار المُقيّمون استجابة "فائزة" على أخرى "خاسرة" - يمكن للمطورين تحسين الفائدة والمصداقية والسلامة للنماذج التأسيسية وأنظمة الذكاء الاصطناعي التوليدي بشكل كبير. اكتسب هذا النهج زخماً هائلاً في عامي 2024 و2025 لقدرته على تحقيق نتائج متطورة مع عبء حسابي أقل بكثير.

Link to this sectionكيف يبسط DPO مواءمة النموذج#

يكمن الابتكار الرئيسي في تحسين التفضيلات المباشر في إزالة "الوسيط" الموجود في خطوط أنابيب التوافق القديمة. تاريخياً، كان مواءمة نموذج لغوي كبير (LLM) أو نموذج رؤية لغوية يتضمن عملية متعددة الخطوات تُعرف باسم التعلم التعزيزي من التغذية الراجعة البشرية (RLHF). تتطلب RLHF تدريب نموذج مكافأة منفصل لتقريب الدرجات البشرية، يليه استخدام خوارزمية عرضة لعدم الاستقرار مثل PPO (تحسين السياسة القريبة) لتحديث النموذج الرئيسي.

تعمل DPO رياضياً على التخلص من الحاجة إلى نموذج المكافأة المنفصل هذا. بدلاً من ذلك، تستخدم دالة خسارة مشتقة تزيد من احتمالية إنشاء مخرجات "مفضلة" مع تقليل احتمالية المخرجات "المرفوضة". يعتمد هذا على نموذج مرجعي لضمان عدم انحراف النموذج المحدث كثيراً عن توزيع بيانات التدريب الأصلية. هذا التبسيط الرياضي يجعل العملية تتصرف بشكل أقرب بكثير إلى التعلم الخاضع للإشراف القياسي، مما يؤدي إلى تقارب أسرع واستخدام أقل للذاكرة على عتاد GPU.

Link to this sectionالتمييز عن RLHF#

بينما تشترك كل من DPO وRLHF في هدف سلامة الذكاء الاصطناعي والتوافق، فإن تنفيذهما يختلف بشكل كبير:

التعقيد: تتضمن RLHF الحفاظ على نماذج متعددة (نموذج الممثل، الناقد، نموذج المكافأة، النموذج المرجعي) في وقت واحد أثناء التدريب. تتطلب DPO فقط النموذج الذي يتم تدريبه ونموذجاً مرجعياً مجمداً.
الاستقرار: يُعرف التعلم التعزيزي بحساسيته الشديدة لـ ضبط المعلمات الفائقة. تعمل DPO عادةً باستقرار مهمة تصنيف قياسية، مما يقلل من مخاطر انهيار النموذج.
الكفاءة: من خلال إزالة خطوات استنتاج نموذج المكافأة، تقلل DPO العبء الحسابي، مما يسمح للمؤسسات بمواءمة نماذج أكبر على مجموعات حوسبة أصغر.

Link to this sectionتطبيقات العالم الحقيقي#

يعيد تحسين التفضيلات المباشر حالياً تشكيل كيفية بناء أنظمة الذكاء الاصطناعي التفاعلية عبر مختلف الصناعات.

Link to this sectionتعزيز الوكلاء التخاطبيين#

في مجال روبوتات الدردشة والمساعدين الافتراضيين، تُستخدم DPO لتقليل السمية وتحسين الدقة الواقعية. يقوم المطورون برعاية مجموعات بيانات حيث يراجع المقيم البشري إجابتين لمطالبة ما - واحدة مهلوسة أو وقحة، وأخرى دقيقة ومهذبة. يضع الإنسان علامة على الإجابة المهذبة كـ "مختارة". ثم تقوم DPO بتحديث أوزان النموذج لتفضيل الأسلوب المختار. يعد هذا أمراً بالغ الأهمية لنشر وكلاء خدمة العملاء الذين يلتزمون بإرشادات أخلاقيات الذكاء الاصطناعي الصارمة.

Link to this sectionتنقيح نماذج الرؤية اللغوية#

مع تطور الرؤية الحاسوبية، يزداد الطلب على النماذج لشرح ما تراه. بالنسبة لتطبيقات مثل تسمية الصور أو الإجابة على الأسئلة المرئية، تسمح DPO للباحثين بمواءمة مخرجات النموذج النصية مع التفضيلات البشرية التفصيلية. على سبيل المثال، إذا طلب مستخدم من نظام أمني "وصف الدخيل"، يمكن لـ DPO تدريب النموذج على إعطاء الأولوية للأوصاف الواقعية (على سبيل المثال، "قميص أحمر، قبعة زرقاء") على الأوصاف الشاعرية أو الغامضة، مما يعزز فائدة نظام الرؤية الحاسوبية.

Link to this sectionDPO في سير عمل الذكاء الاصطناعي الحديث#

يتطلب تنفيذ DPO بيانات زوجية عالية الجودة. غالباً ما تستخدم سير العمل الحديثة أدوات مثل Ultralytics Platform لإدارة مجموعات البيانات، مما يضمن أن عملية توسيم البيانات تنتج أمثلة واضحة للـ "فائز" و"الخاسر". على الرغم من ريادة DPO في النصوص، يتم تطبيق مبادئها بشكل متزايد لتحسين بنيات كشف الكائنات والطرائق الأخرى من خلال تأطير مقاييس الجودة كأزواج تفضيل.

يوضح مقتطف Python التالي باستخدام torch بنية البيانات التأسيسية المطلوبة لحساب خسارة بأسلوب DPO. وهو يوضح كيفية إعداد الاستجابات "المختارة" و"المرفوضة" في دفعات، وهو مفهوم بالغ الأهمية لـ تحسين النموذج الحديث.

import torch
import torch.nn.functional as F

# Simulate log probabilities for 'chosen' and 'rejected' responses
# In a real scenario, these come from your model (e.g., a VLM or LLM)
chosen_log_probs = torch.tensor([-0.5, -0.8, -0.2], requires_grad=True)
rejected_log_probs = torch.tensor([-2.5, -3.0, -1.5], requires_grad=True)

# DPO aims to maximize the margin between chosen and rejected
# This is a simplified conceptual look at the margin calculation
beta = 0.1  # A hyperparameter controlling deviation from the reference model
logits = beta * (chosen_log_probs - rejected_log_probs)

# The loss minimizes the negative log sigmoid of this margin
loss = -F.logsigmoid(logits).mean()

print(f"DPO Loss: {loss.item()}")
# Output demonstrates the penalty applied if the model doesn't prefer the chosen data

من خلال الاستفادة من تقنيات مثل DPO، يمكن للمطورين دفع حدود الأداء في نماذج مثل Ultralytics YOLO26، مما يضمن أن القرارات المؤتمتة ليست دقيقة فحسب، بل متوافقة أيضاً مع النية البشرية. يعد هذا أمراً حيوياً للبيئات عالية المخاطر مثل المركبات المستقلة وتحليل الصور الطبية، حيث الموثوقية أمر بالغ الأهمية.

Link to this sectionالموارد الخارجية#

الورقة البحثية الأصلية: اقرأ البحث التأسيسي حول تحسين التفضيلات المباشر: نموذجك اللغوي هو سراً نموذج مكافأة بقلم رافايلوف وآخرون (2023).
معهد ستانفورد للذكاء الاصطناعي المتمحور حول الإنسان (HAI): استكشف رؤى حول التوافق والتفضيلات البشرية من جامعة ستانفورد.
وثائق PyTorch: راجع التفاصيل الفنية حول تنفيذ دوال خسارة محددة في مرجع API لـ PyTorch.