اكتشف كيف تعمل نماذج مكافأة العمليات (PRM) على تحسين عملية الاستدلال في الذكاء الاصطناعي. تعرف على كيفية قيام التغذية الراجعة على مستوى الخطوات في نموذج RLHF بضمان مسارات منطقية وآمنة لنماذج اللغة الكبيرة (LLMs) Ultralytics .
يتطلب تقييم نماذج الذكاء الاصطناعي المعقدة أكثر من مجرد التحقق من صحة الإجابة النهائية. فهناك تقنية متخصصة للغاية في التعلم المعزز تُخصص درجات رياضية لكل خطوة وسيطة يتخذها الذكاء الاصطناعي أثناء أداء المهمة، مما يوفر تغذية راجعة مكثفة على مستوى كل خطوة. ويضمن هذا النهج التفصيلي أن النموذج لا يصل إلى الهدف الصحيح فحسب، بل يتبع أيضًا مسارات منطقية وآمنة وقابلة للتحقق للوصول إليه.
في السياق الأوسع لنمذجة المكافأة، من المهم التمييز بين الإشراف القائم على العملية والإشراف القائم على النتيجة. توفر نماذج المكافأة القائمة على النتيجة (ORMs) التقليدية مكافأة واحدة ومتفرقة في نهاية كل جيل. ورغم أن نماذج المكافأة القائمة على النتيجة أسهل في التدريب، إلا أنها تعاني من عيب كبير في المهام المعقدة: فهي قد تكافئ عن غير قصد النماذج التي تصل إلى الإجابة الصحيحة من خلال منطق معيب أو تخيلات خاطئة.
يحل نموذج مكافأة العملية (PRM) هذه المشكلة من خلال تقييم مسار الاستدلال بأكمله. وكما شاع ذلك بفضل الأبحاث التأسيسية التي أجرتها OpenAI في أوراق بحثية مثل "دعونا نتحقق خطوة بخطوة"، يطبق نموذج المكافأة العملية (PRM) الإشراف التدريجي على كل فكرة أو فعل. وهذا مكون أساسي في مسارات التعلم المعزز من ردود الفعل البشرية (RLHF) المتقدمة، حيث يوجه بشكل فعال تحسين السياسات باستخدام خوارزميات مثل تحسين السياسة القريبة (PPO).
تُحدث نماذج التعلم التكيفي (PRMs) تحولاً في الطريقة التي تعمل بها نماذج اللغة الكبيرة (LLMs) و الأنظمة المستقلة في البيئات عالية المخاطر:
يتطلب تدريب نموذج التعلم التوضيحي (PRM) إدارة مجموعات بيانات ضخمة، حيث يتم تقييم كل خطوة فرعية بواسطة البشر أو نماذج الذكاء الاصطناعي الأكثر قوة. وتصبح إدارة سير عمل تعليق البيانات المكثف هذا أكثر بساطة بفضل الأدوات المستندة إلى السحابة مثل Ultralytics التي تعمل على تبسيط تنظيم المشاريع ونشرها.
أثناء الاستدلال أو
تحسين النموذج، يقوم نموذج PRM
بحساب الخسارة أو المكافأة التراكمية استنادًا إلى سلسلة الخطوات. Python البرمجي التالي Python يستخدم
torch يوضح كيف يتم خصم المكافآت المخصصة لكل خطوة في حالة فشل خطوة وسيطة، وهو نهج شائع
يوجد في PyTorch لتقييم التسلسل:
import torch
# Simulate reward scores from a PRM for 3 consecutive reasoning steps
# Scores represent the probability of correctness for each step (0.0 to 1.0)
step_rewards = torch.tensor([0.95, 0.80, 0.15], requires_grad=True)
# The PRM aggregates the scores, heavily penalizing the poor 3rd step
# Negative log-likelihood is commonly used to optimize the trajectory
prm_loss = -torch.log(step_rewards).mean()
print(f"Calculated PRM Loss: {prm_loss.item():.4f}")
# During RLHF, this loss would guide hyperparameter tuning and model updates
من خلال ضمان توافق كل خطوة وسيطة مع السلوك المتوقع، يمكن للمطورين نشر أنظمة تتمتع بدرجة عالية من الموثوقية. ويتيح الجمع بين الإشراف على مستوى العمليات والضبط المستمر للمعلمات الفائقة لنماذج الجيل التالي التفكير المنطقي في المشكلات بأمان وفعالية.
ابدأ رحلتك مع مستقبل تعلم الآلة