Direct Preference Optimization (DPO)

تعرف على كيفية تبسيط تحسين التفضيل المباشر (DPO) لمحاذاة الذكاء الاصطناعي. اكتشف كيف تحل هذه الطريقة الفعالة محل RLHF لتحسين سلامة النموذج وأدائه.

يُعد تحسين التفضيل المباشر (DPO) تقنية خوارزمية مستقرة وفعالة تُستخدم لضبط نماذج الذكاء الاصطناعي، مما يضمن توافقها مع الرغبات البشرية، ومعايير السلامة، والمبادئ التوجيهية الأخلاقية. على عكس الأساليب التقليدية التي تتطلب خطوط أنابيب معقدة ومتعددة المراحل لالتقاط الملاحظات البشرية، فإن DPO يبسط عملية المواءمة رياضيًا من خلال معاملة تعلم التفضيل مباشرة كـ مهمة تصنيف في التعلم الآلي. من خلال تحسين النموذج مباشرة بناءً على مجموعة بيانات من التفضيلات البشرية—حيث يختار المقيّمون استجابة "فائزة" مقابل "خاسرة"—يمكن للمطورين تحسين المساعدة، والصدق، والسلامة بشكل كبير لـ نماذج التأسيس واسعة النطاق وأنظمة الذكاء الاصطناعي التوليدي الحديثة.

Link to this sectionكيف يبسط DPO مواءمة النموذج#

يكمن الابتكار الرئيسي لتحسين التفضيل المباشر في إزالة "الوسيط" الهيكلي. تاريخيًا، تضمن مواءمة نموذج لغوي كبير (LLM) أو نموذج رؤية ولغة عملية معقدة تُعرف بـ التعلم التعزيزي من التغذية الراجعة البشرية (RLHF). تتطلب RLHF تدريب نموذج مكافأة منفصل لتقريب التقييم البشري، متبوعًا باستخدام خوارزمية تعلم تعزيزي عرضة لعدم الاستقرار مثل تحسين السياسة القريب لتحديث النموذج الرئيسي.

يُنهي DPO رياضيًا الحاجة إلى نموذج المكافأة المنفصل هذا. بدلاً من ذلك، فإنه يعتمد على دالة خسارة مشتقة تزيد من احتمالية توليد مخرجات "مفضلة" بينما تقلل في الوقت نفسه من احتمالية المخرجات "المرفوضة". ويستخدم نموذجًا مرجعيًا للحد من تباعد كولباك-ليبلر، مما يضمن عدم انحراف النموذج المحدث كثيرًا عن توزيع بيانات التدريب الأصلي. هذا التبسيط الرياضي يجعل العملية تتصرف بشكل أقرب بكثير إلى التعلم الخاضع للإشراف القياسي، مما يؤدي إلى تقارب أسرع واستهلاك أقل للذاكرة على أجهزة GPU. وهذا يقلل بطبيعته من خطر انهيار النموذج ويلغي الحاجة إلى ضبط المعلمات الفائقة المكثف.

Link to this sectionتطبيقات العالم الحقيقي#

يعيد تحسين التفضيل المباشر تشكيل كيفية بناء ونشر أنظمة الذكاء الاصطناعي التفاعلية بشكل أساسي عبر مختلف الصناعات عالية المخاطر سعيًا نحو تحقيق سلامة الذكاء الاصطناعي القوية.

تعزيز وكلاء المحادثة: في مجال روبوتات الدردشة والمساعدين الافتراضيين، يُستخدم DPO لتقليل السمية ومواءمة الردود مع أفضل ممارسات السلامة لـ OpenAI وأبحاث Anthropic حول مواءمة الذكاء الاصطناعي. يراجع المقيّمون البشريون إجابتين لمطالبة ما، ويضعون علامة على الإجابة المهذبة والواقعية كـ "مختارة". ثم يقوم DPO بتحديث أوزان النموذج لتفضيل أسلوب المحادثة هذا تحديدًا مع معاقبة الهلوسة.
تنقيح نماذج الرؤية واللغة: مع تطور التعرف على الصور، يزداد الطلب على النماذج لتفسير ما تراه للمشغلين البشريين. بالنسبة لتطبيقات مثل الإجابة على الأسئلة المرئية، يسمح DPO للباحثين بمواءمة مخرجات النموذج النصية مع التفضيلات البشرية المفصلة. على سبيل المثال، إذا طلب مستخدم من نظام روبوتات مدعوم بـ Ultralytics YOLO26 وصف كائن ما، يقوم DPO بتدريب النموذج على إعطاء الأولوية للأوصاف الواقعية والموجزة على التفسيرات الغامضة، مع الالتزام الوثيق بالمبادئ التوجيهية الصارمة لـ أخلاقيات الذكاء الاصطناعي.

Link to this sectionDPO في الممارسة العملية#

يتطلب تنفيذ DPO بيانات مزدوجة عالية الجودة. تستخدم سير العمل الحديثة أدوات شاملة مثل منصة Ultralytics لإدارة مجموعات البيانات هذه بسلاسة، مما يضمن أن عملية تعليق البيانات تسفر عن أمثلة واضحة لـ "الفائز" و"الخاسر". يمكنك استكشاف البحث التأسيسي وراء هذا في الورقة البحثية تحسين التفضيل المباشر: نموذجك اللغوي هو نموذج مكافأة سراً أو القراءة عن المواءمة والتفضيلات البشرية من ستانفورد HAI.

يوضح مقتطف Python التالي بنية البيانات التأسيسية المطلوبة لحساب خسارة بأسلوب DPO باستخدام الوظائف الموجودة في مرجع PyTorch API.

import torch
import torch.nn.functional as F


def dpo_loss(chosen_logps, rejected_logps, beta=0.1):
    # DPO maximizes the margin between chosen and rejected log probabilities
    logits = beta * (chosen_logps - rejected_logps)
    # The loss minimizes the negative log sigmoid of this margin
    return -F.logsigmoid(logits).mean()


print(f"DPO Loss: {dpo_loss(torch.tensor([-0.5]), torch.tensor([-2.5])):.4f}")

Explore solutions

الذكاء الاصطناعي في الروبوتات

شغّل آلات أكثر ذكاءً باستخدام نماذج Ultralytics YOLO. يدفع الذكاء الاصطناعي للرؤية في الروبوتات الملاحة الذاتية، والإدراك، وتتبع الكائنات، والتحكم في الوقت الفعلي.

Direct Preference Optimization (DPO)

Link to this sectionكيف يبسط DPO مواءمة النموذج#

Link to this sectionتطبيقات العالم الحقيقي#

Link to this sectionDPO في الممارسة العملية#

Explore solutions

الذكاء الاصطناعي في الروبوتات

الذكاء الاصطناعي في الخدمات اللوجستية

الذكاء الاصطناعي في التجزئة

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في مجال السيارات

الذكاء الاصطناعي في الزراعة

الذكاء الاصطناعي في الروبوتات

الذكاء الاصطناعي في الخدمات اللوجستية

الذكاء الاصطناعي في التجزئة

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في مجال السيارات

الذكاء الاصطناعي في الزراعة

الذكاء الاصطناعي في الروبوتات

الذكاء الاصطناعي في الخدمات اللوجستية

الذكاء الاصطناعي في التجزئة

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في مجال السيارات

الذكاء الاصطناعي في الزراعة

لنبنِ مستقبل الذكاء الاصطناعي معاً!