تعرف على YOLO26: جيل جديد من ذكاء الرؤية الاصطناعي.
Ultralytics
العودة إلى قاموس مصطلحات Ultralytics

Direct Preference Optimization

تعرّف على كيفية تبسيط تحسين التفضيلات المباشر (DPO) لمحاذاة الذكاء الاصطناعي. واكتشف كيفية تحسين سلامة النماذج وأدائها بشكل أكثر كفاءة من طرق التعلم التعزيزي من التغذية الراجعة البشرية (RLHF) التقليدية.

تحسين التفضيلات المباشر (DPO) هو تقنية خوارزمية مستقرة وفعالة تُستخدم لضبط نماذج الذكاء الاصطناعي، وتضمن تحديداً محاذاتها مع الرغبات البشرية ومعايير السلامة. وعلى عكس طرق التعلم التعزيزي التقليدية التي تتطلب نمذجة مكافأة معقدة، يبسّط DPO عملية المحاذاة من خلال معاملة مشكلة تعلم التفضيلات كمهمة تصنيف. ومن خلال تحسين النموذج مباشرةً بناءً على مجموعة بيانات من التفضيلات البشرية—حيث يختار المقيمون استجابة "فائزة" بدلاً من استجابة "خاسرة"—يمكن للمطورين تحسين الفائدة والمصداقية والسلامة في النماذج الأساسية وأنظمة الذكاء الاصطناعي التوليدي بشكل كبير. وقد اكتسب هذا النهج زخماً هائلاً في عامي 2024 و2025 لقدرته على تحقيق نتائج متطورة مع استهلاك موارد حوسبة أقل بكثير.

Link to this sectionكيف يبسط DPO مواءمة النموذج#

يكمن الابتكار الرئيسي لتحسين التفضيلات المباشر في إزالة "الوسيط" الموجود في خطوط أنابيب المحاذاة القديمة. تاريخياً، كانت محاذاة نموذج لغوي كبير (LLM) أو نموذج رؤية لغوية تتضمن عملية متعددة الخطوات تُعرف بـ التعلم التعزيزي من التغذية الراجعة البشرية (RLHF). تتطلب RLHF تدريب نموذج مكافأة منفصل لتقريب التقييم البشري، متبوعاً باستخدام خوارزمية عرضة لعدم الاستقرار مثل PPO (تحسين السياسة القريب) لتحديث النموذج الرئيسي.

يقوم DPO رياضياً بإلغاء الحاجة إلى نموذج المكافأة المنفصل هذا. وبدلاً من ذلك، يستخدم دالة خسارة مشتقة تزيد من احتمالية توليد مخرجات "مُفضلة" مع تقليل احتمالية المخرجات "المرفوضة". يعتمد هذا على نموذج مرجعي لضمان عدم ابتعاد النموذج المُحدّث كثيراً عن توزيع بيانات التدريب الأصلية. هذا التبسيط الرياضي يجعل العملية تتصرف بشكل أقرب بكثير إلى التعلم الخاضع للإشراف القياسي، مما يؤدي إلى تقارب أسرع واستخدام أقل للذاكرة على أجهزة GPU.

Link to this sectionالتمييز عن RLHF#

بينما يشترك كل من DPO وRLHF في هدف سلامة الذكاء الاصطناعي والمحاذاة، فإن تنفيذهما يختلف بشكل كبير:

  • التعقيد: تتضمن RLHF الحفاظ على نماذج متعددة (الممثل، والناقد، ونموذج المكافأة، والنموذج المرجعي) في وقت واحد أثناء التدريب. بينما يتطلب DPO فقط النموذج الذي يتم تدريبه ونموذجاً مرجعياً مجمداً.
  • الاستقرار: يُعرف التعلم التعزيزي بحساسيته الشديدة لـ ضبط المعلمات الفائقة. يعمل DPO عادةً باستقرار مهمة تصنيف قياسية، مما يقلل من مخاطر انهيار النموذج.
  • الكفاءة: من خلال إزالة خطوات استنتاج نموذج المكافأة، يقلل DPO من العبء الحسابي، مما يسمح للمؤسسات بمحاذاة نماذج أكبر على مجموعات حوسبة أصغر.

Link to this sectionالتطبيقات الواقعية#

يعيد تحسين التفضيلات المباشر حالياً تشكيل كيفية بناء أنظمة الذكاء الاصطناعي التفاعلية عبر مختلف الصناعات.

Link to this sectionتعزيز الوكلاء التفاعليين#

في مجال روبوتات الدردشة والمساعدين الافتراضيين، يُستخدم DPO لتقليل السمية وتحسين الدقة الواقعية. يقوم المطورون بتنظيم مجموعات بيانات حيث يقوم مقيّم بشري بمراجعة إجابتين لمطالبة معينة—واحدة مهلوسة أو وقحة، والأخرى دقيقة ومهذبة. يضع الإنسان علامة على الإجابة المهذبة كـ "مُختارة". يقوم DPO بعد ذلك بتحديث أوزان النموذج لتفضيل الأسلوب المُختار. وهذا أمر بالغ الأهمية لنشر وكلاء خدمة العملاء الذين يلتزمون بإرشادات أخلاقيات الذكاء الاصطناعي الصارمة.

Link to this sectionتنقيح نماذج الرؤية اللغوية#

مع تطور الرؤية الحاسوبية، أصبحت النماذج مطلوبة بشكل متزايد لشرح ما تراه. بالنسبة لتطبيقات مثل وصف الصور أو الإجابة على الأسئلة المرئية، يسمح DPO للباحثين بمحاذاة المخرجات النصية للنموذج مع التفضيلات البشرية التفصيلية. على سبيل المثال، إذا طلب مستخدم من نظام أمني "وصف المتسلل"، يمكن لـ DPO تدريب النموذج على إعطاء الأولوية للأوصاف الواقعية (مثل "قميص أحمر، قبعة زرقاء") بدلاً من الأوصاف الشعرية أو الغامضة، مما يعزز فائدة نظام الرؤية الحاسوبية.

Link to this sectionDPO في سير عمل الذكاء الاصطناعي الحديث#

يتطلب تنفيذ DPO بيانات زوجية عالية الجودة. غالباً ما تستخدم سير العمل الحديثة أدوات مثل منصة Ultralytics لإدارة مجموعات البيانات، مما يضمن أن عملية توسيم البيانات تنتج أمثلة واضحة لـ "الفائز" و"الخاسر". وبينما تم ابتكار DPO للنصوص، فإن مبادئه تُطبّق بشكل متزايد لتحسين بنيات اكتشاف الكائنات وطرق أخرى من خلال صياغة مقاييس الجودة كأزواج تفضيلية.

يوضح مقتطف Python التالي باستخدام torch بنية البيانات الأساسية المطلوبة لحساب الخسارة بأسلوب DPO. ويُظهر كيفية إعداد الاستجابات "المُختارة" و"المرفوضة" في دفعات، وهو مفهوم بالغ الأهمية لعملية تحسين النموذج الحديثة.

import torch
import torch.nn.functional as F

# Simulate log probabilities for 'chosen' and 'rejected' responses
# In a real scenario, these come from your model (e.g., a VLM or LLM)
chosen_log_probs = torch.tensor([-0.5, -0.8, -0.2], requires_grad=True)
rejected_log_probs = torch.tensor([-2.5, -3.0, -1.5], requires_grad=True)

# DPO aims to maximize the margin between chosen and rejected
# This is a simplified conceptual look at the margin calculation
beta = 0.1  # A hyperparameter controlling deviation from the reference model
logits = beta * (chosen_log_probs - rejected_log_probs)

# The loss minimizes the negative log sigmoid of this margin
loss = -F.logsigmoid(logits).mean()

print(f"DPO Loss: {loss.item()}")
# Output demonstrates the penalty applied if the model doesn't prefer the chosen data

من خلال الاستفادة من تقنيات مثل DPO، يمكن للمطورين دفع حدود الأداء في نماذج مثل Ultralytics YOLO26، مما يضمن أن القرارات المؤتمتة ليست دقيقة فحسب، بل متوافقة أيضاً مع القصد البشري. وهذا حيوي للبيئات عالية المخاطر مثل المركبات ذاتية القيادة وتحليل الصور الطبية، حيث الموثوقية هي الأمر الأهم.

Link to this sectionموارد خارجية#

Explore solutions

Real-time AI tailored to your operation

الذكاء الاصطناعي في الزراعة

استخدم الرؤية الحاسوبية القائمة على الذكاء الاصطناعي في الزراعة الذكية مع نماذج Ultralytics YOLO. عزز مراقبة المحاصيل وتتبع الماشية والزراعة الدقيقة للحصول على غلات أعلى وأكثر ذكاءً.

اعرف المزيد
Real-time AI that works with your operation

الذكاء الاصطناعي في قطاع السيارات

طبق الرؤية الحاسوبية في مجال السيارات باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري على تعزيز السلامة على الطرق، ومساعدة السائق، وأتمتة المركبات من أجل طرق أكثر ذكاءً.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الرعاية الصحية

بناء حلول الرعاية الصحية باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي المرئي في الرعاية الصحية على تسريع التصوير الطبي، وتعزيز دقة التشخيص، وتحسين مراقبة المرضى.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في قطاع التجزئة

أعد تصور تجارة التجزئة مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي للرؤية الحاسوبية على تعزيز تتبع المخزون، ومراقبة الأرفف، وإدارة طوابير الانتظار، وتقديم رؤى أذكى حول العملاء.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في مجال الروبوتات

عزز ذكاء الآلات باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري في الروبوتات على تعزيز الملاحة الذاتية، والإدراك، وتتبع الأجسام، والتحكم اللحظي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التصنيع

حسّن عمليات التصنيع باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي للرؤية الحاسوبية على تعزيز مراقبة الجودة، واكتشاف العيوب، والامتثال لمعدات الوقاية الشخصية، وأتمتة خطوط التجميع.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الخدمات اللوجستية

قم بتبسيط الخدمات اللوجستية باستخدام نماذج Ultralytics YOLO. يُمكّن الذكاء الاصطناعي البصري فحص الطرود، والفرز، وتتبع المركبات، ومراقبة سلامة المستودعات في الوقت الفعلي.

اعرف المزيد
Real-time AI tailored to your operation

الذكاء الاصطناعي في الزراعة

استخدم الرؤية الحاسوبية القائمة على الذكاء الاصطناعي في الزراعة الذكية مع نماذج Ultralytics YOLO. عزز مراقبة المحاصيل وتتبع الماشية والزراعة الدقيقة للحصول على غلات أعلى وأكثر ذكاءً.

اعرف المزيد
Real-time AI that works with your operation

الذكاء الاصطناعي في قطاع السيارات

طبق الرؤية الحاسوبية في مجال السيارات باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري على تعزيز السلامة على الطرق، ومساعدة السائق، وأتمتة المركبات من أجل طرق أكثر ذكاءً.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الرعاية الصحية

بناء حلول الرعاية الصحية باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي المرئي في الرعاية الصحية على تسريع التصوير الطبي، وتعزيز دقة التشخيص، وتحسين مراقبة المرضى.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في قطاع التجزئة

أعد تصور تجارة التجزئة مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي للرؤية الحاسوبية على تعزيز تتبع المخزون، ومراقبة الأرفف، وإدارة طوابير الانتظار، وتقديم رؤى أذكى حول العملاء.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في مجال الروبوتات

عزز ذكاء الآلات باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري في الروبوتات على تعزيز الملاحة الذاتية، والإدراك، وتتبع الأجسام، والتحكم اللحظي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التصنيع

حسّن عمليات التصنيع باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي للرؤية الحاسوبية على تعزيز مراقبة الجودة، واكتشاف العيوب، والامتثال لمعدات الوقاية الشخصية، وأتمتة خطوط التجميع.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الخدمات اللوجستية

قم بتبسيط الخدمات اللوجستية باستخدام نماذج Ultralytics YOLO. يُمكّن الذكاء الاصطناعي البصري فحص الطرود، والفرز، وتتبع المركبات، ومراقبة سلامة المستودعات في الوقت الفعلي.

اعرف المزيد
Real-time AI tailored to your operation

الذكاء الاصطناعي في الزراعة

استخدم الرؤية الحاسوبية القائمة على الذكاء الاصطناعي في الزراعة الذكية مع نماذج Ultralytics YOLO. عزز مراقبة المحاصيل وتتبع الماشية والزراعة الدقيقة للحصول على غلات أعلى وأكثر ذكاءً.

اعرف المزيد
Real-time AI that works with your operation

الذكاء الاصطناعي في قطاع السيارات

طبق الرؤية الحاسوبية في مجال السيارات باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري على تعزيز السلامة على الطرق، ومساعدة السائق، وأتمتة المركبات من أجل طرق أكثر ذكاءً.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الرعاية الصحية

بناء حلول الرعاية الصحية باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي المرئي في الرعاية الصحية على تسريع التصوير الطبي، وتعزيز دقة التشخيص، وتحسين مراقبة المرضى.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في قطاع التجزئة

أعد تصور تجارة التجزئة مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي للرؤية الحاسوبية على تعزيز تتبع المخزون، ومراقبة الأرفف، وإدارة طوابير الانتظار، وتقديم رؤى أذكى حول العملاء.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في مجال الروبوتات

عزز ذكاء الآلات باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري في الروبوتات على تعزيز الملاحة الذاتية، والإدراك، وتتبع الأجسام، والتحكم اللحظي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التصنيع

حسّن عمليات التصنيع باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي للرؤية الحاسوبية على تعزيز مراقبة الجودة، واكتشاف العيوب، والامتثال لمعدات الوقاية الشخصية، وأتمتة خطوط التجميع.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الخدمات اللوجستية

قم بتبسيط الخدمات اللوجستية باستخدام نماذج Ultralytics YOLO. يُمكّن الذكاء الاصطناعي البصري فحص الطرود، والفرز، وتتبع المركبات، ومراقبة سلامة المستودعات في الوقت الفعلي.

اعرف المزيد

لنبنِ مستقبل الذكاء الاصطناعي معاً!

ابدأ رحلتك مع مستقبل تعلم الآلة