Process Reward Model (PRM)
استكشف كيف تعمل نماذج مكافأة العملية (PRM) على تحسين الاستدلال بالذكاء الاصطناعي. تعرّف على كيفية ضمان التغذية الراجعة على مستوى الخطوات في RLHF لمسارات منطقية وآمنة لنماذج LLMs و Ultralytics YOLO26.
يتطلب تقييم نماذج الذكاء الاصطناعي المعقدة أكثر من مجرد التحقق مما إذا كانت الإجابة النهائية صحيحة. تقوم تقنية متخصصة للغاية في التعلم التعزيزي بتعيين درجات رياضية لكل خطوة وسيطة يتخذها الذكاء الاصطناعي أثناء المهمة، مما يوفر تغذية راجعة مكثفة على مستوى الخطوات. يضمن هذا النهج الدقيق أن النموذج لا يصل فقط إلى الوجهة الصحيحة، بل يتبع أيضاً مسارات منطقية وآمنة وقابلة للتحقق للوصول إلى هناك.
Link to this sectionنماذج مكافأة العملية مقابل نماذج مكافأة النتائج#
في السياق الأوسع لـ نمذجة المكافأة، من المهم التمييز بين الإشراف القائم على العملية والقائم على النتيجة. توفر نماذج مكافأة النتائج (ORMs) التقليدية مكافأة واحدة متناثرة في نهاية التوليد. على الرغم من أن ORMs أسهل في التدريب، إلا أنها تعاني من عيب كبير في المهام المعقدة: فهي قد تكافئ دون قصد النماذج التي تصل إلى الإجابة الصحيحة من خلال منطق معيب أو هلوسة.
يعالج نموذج مكافأة العملية (PRM) هذا الأمر من خلال تقييم مسار الاستدلال بأكمله. كما هو شائع في أبحاث OpenAI التأسيسية في أوراق بحثية مثل لن تحقق خطوة بخطوة، يطبق PRM إشرافاً تدريجياً على كل فكرة أو إجراء. يعد هذا مكوناً حاسماً في خطوط أنابيب التعلم التعزيزي من التغذية الراجعة البشرية (RLHF) المتقدمة، حيث يعمل بنشاط على توجيه تحسين السياسات باستخدام خوارزميات مثل تحسين السياسة القريبة (PPO).
Link to this sectionالتطبيقات الواقعية#
تُحدث PRMs تحولاً في كيفية عمل نماذج اللغة الكبيرة (LLMs) والأنظمة المستقلة في البيئات عالية المخاطر:
- الاستدلال الرياضي: من خلال تقييم المعادلات سطراً بسطر، تسمح PRMs للنماذج باستخدام خوارزميات مثل أخذ عينات الأفضل من N (BoN) أو بحث شجرة مونتي كارلو (MCTS) لاستكشاف مسارات حل متعددة واختيار التسلسل الأكثر منطقية.
- توليد الكود: عند توليد البرمجيات، لا يكفي مجرد التحقق مما إذا كان البرنامج النصي النهائي يعمل. توفر PRMs إشرافاً على العملية، حيث تقوم بتقييم الوظائف الفردية وكتل المنطق لضمان أن الكود فعال وآمن وقابل للصيانة.
- بحوث العمليات والوكلاء المرئيون: أدت التطورات الأخيرة في عامي 2025 و 2026 إلى توسيع نطاق PRMs لتتجاوز النص. على سبيل المثال، تستخدم بحوث العمليات الآن PRMs للتحقق من خوارزميات الجدولة المعقدة. وبالمثل، يتلقى وكلاء الذكاء الاصطناعي المرئيون المجهزون بمحركات رؤية حاسوبية قوية مثل Ultralytics YOLO26 مكافآت خطوة بخطوة للتنقل في البيئات المادية، بدلاً من مجرد مكافأة واحدة للوصول إلى الوجهة.
Link to this sectionتنفيذ التغذية الراجعة على مستوى الخطوات#
يتطلب تدريب PRM إدارة مجموعات بيانات واسعة حيث يتم تقييم كل خطوة فرعية بواسطة البشر أو نماذج ذكاء اصطناعي أقوى. تصبح إدارة سير عمل تعليق البيانات المكثفة هذه أبسط باستخدام أدوات سحابية مثل منصة Ultralytics، والتي تبسط تنظيم المشاريع ونشرها.
أثناء الاستدلال أو تحسين النموذج، يحسب PRM خسارة أو مكافأة تراكمية بناءً على سلسلة الخطوات. توضح مقتطفات Python المفاهيمية التالية باستخدام torch كيفية معاقبة مكافآت مستوى الخطوة إذا فشلت خطوة وسيطة، وهو نهج شائع موجود في توثيق PyTorch لتسجيل التسلسل:
import torch
# Simulate reward scores from a PRM for 3 consecutive reasoning steps
# Scores represent the probability of correctness for each step (0.0 to 1.0)
step_rewards = torch.tensor([0.95, 0.80, 0.15], requires_grad=True)
# The PRM aggregates the scores, heavily penalizing the poor 3rd step
# Negative log-likelihood is commonly used to optimize the trajectory
prm_loss = -torch.log(step_rewards).mean()
print(f"Calculated PRM Loss: {prm_loss.item():.4f}")
# During RLHF, this loss would guide hyperparameter tuning and model updatesمن خلال ضمان توافق كل خطوة وسيطة مع السلوك المتوقع، يمكن للمطورين نشر أنظمة موثوقة للغاية. يسمح الجمع بين الإشراف على مستوى العملية وضبط المعاملات التشعبية المستمر للنماذج من الجيل التالي بالاستدلال فعلياً من خلال المشكلات بأمان وفعالية.






