Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

نموذج مكافأة العمليات (PRM)

اكتشف كيف تعمل نماذج مكافأة العمليات (PRM) على تحسين عملية الاستدلال في الذكاء الاصطناعي. تعرف على كيفية قيام التغذية الراجعة على مستوى الخطوات في نموذج RLHF بضمان مسارات منطقية وآمنة لنماذج اللغة الكبيرة (LLMs) Ultralytics .

يتطلب تقييم نماذج الذكاء الاصطناعي المعقدة أكثر من مجرد التحقق من صحة الإجابة النهائية. فهناك تقنية متخصصة للغاية في التعلم المعزز تُخصص درجات رياضية لكل خطوة وسيطة يتخذها الذكاء الاصطناعي أثناء أداء المهمة، مما يوفر تغذية راجعة مكثفة على مستوى كل خطوة. ويضمن هذا النهج التفصيلي أن النموذج لا يصل إلى الهدف الصحيح فحسب، بل يتبع أيضًا مسارات منطقية وآمنة وقابلة للتحقق للوصول إليه.

نماذج المكافأة على أساس العملية مقابل نماذج المكافأة على أساس النتيجة

في السياق الأوسع لنمذجة المكافأة، من المهم التمييز بين الإشراف القائم على العملية والإشراف القائم على النتيجة. توفر نماذج المكافأة القائمة على النتيجة (ORMs) التقليدية مكافأة واحدة ومتفرقة في نهاية كل جيل. ورغم أن نماذج المكافأة القائمة على النتيجة أسهل في التدريب، إلا أنها تعاني من عيب كبير في المهام المعقدة: فهي قد تكافئ عن غير قصد النماذج التي تصل إلى الإجابة الصحيحة من خلال منطق معيب أو تخيلات خاطئة.

يحل نموذج مكافأة العملية (PRM) هذه المشكلة من خلال تقييم مسار الاستدلال بأكمله. وكما شاع ذلك بفضل الأبحاث التأسيسية التي أجرتها OpenAI في أوراق بحثية مثل "دعونا نتحقق خطوة بخطوة"، يطبق نموذج المكافأة العملية (PRM) الإشراف التدريجي على كل فكرة أو فعل. وهذا مكون أساسي في مسارات التعلم المعزز من ردود الفعل البشرية (RLHF) المتقدمة، حيث يوجه بشكل فعال تحسين السياسات باستخدام خوارزميات مثل تحسين السياسة القريبة (PPO).

تطبيقات واقعية

تُحدث نماذج التعلم التكيفي (PRMs) تحولاً في الطريقة التي تعمل بها نماذج اللغة الكبيرة (LLMs) و الأنظمة المستقلة في البيئات عالية المخاطر:

  • التفكير الرياضي: من خلال تقييم المعادلات سطراً سطراً، تتيح نماذج التفكير الرياضي (PRMs) استخدام خوارزميات مثل أخذ العينات "الأفضل من N" (BoN) أو البحث الشجري بمونت كارلو (MCTS) لاستكشاف مسارات حلول متعددة واختيار التسلسل الأكثر منطقية.
  • توليد الكود: عند إنشاء البرامج، لا يكفي مجرد التحقق من تشغيل البرنامج النهائي. توفر نماذج PRM مراقبة للعمليات، حيث تُقيّم الوظائف الفردية وكتل المنطق لضمان كفاءة الكود وأمانه وسهولة صيانته.
  • البحوث التشغيلية والوكلاء البصريون: أدت التطورات الحديثة في عامي 2025 و2026 إلى توسيع نطاق نماذج المكافأة (PRMs) لتتجاوز النصوص. على سبيل المثال، تستخدم البحوث التشغيلية الآن نماذج المكافأة للتحقق من صحة خوارزميات الجدولة المعقدة. وبالمثل، فإن الوكلاء البصريين المدعومين بالذكاء الاصطناعي والمزودين بمحركات رؤية حاسوبية قوية مثل Ultralytics يحصلون على مكافآت تدريجية للتنقل في البيئات المادية، بدلاً من مجرد مكافأة واحدة للوصول إلى الوجهة.

تطبيق التقييم على مستوى كل خطوة

يتطلب تدريب نموذج التعلم التوضيحي (PRM) إدارة مجموعات بيانات ضخمة، حيث يتم تقييم كل خطوة فرعية بواسطة البشر أو نماذج الذكاء الاصطناعي الأكثر قوة. وتصبح إدارة سير عمل تعليق البيانات المكثف هذا أكثر بساطة بفضل الأدوات المستندة إلى السحابة مثل Ultralytics التي تعمل على تبسيط تنظيم المشاريع ونشرها.

أثناء الاستدلال أو تحسين النموذج، يقوم نموذج PRM بحساب الخسارة أو المكافأة التراكمية استنادًا إلى سلسلة الخطوات. Python البرمجي التالي Python يستخدم torch يوضح كيف يتم خصم المكافآت المخصصة لكل خطوة في حالة فشل خطوة وسيطة، وهو نهج شائع يوجد في PyTorch لتقييم التسلسل:

import torch

# Simulate reward scores from a PRM for 3 consecutive reasoning steps
# Scores represent the probability of correctness for each step (0.0 to 1.0)
step_rewards = torch.tensor([0.95, 0.80, 0.15], requires_grad=True)

# The PRM aggregates the scores, heavily penalizing the poor 3rd step
# Negative log-likelihood is commonly used to optimize the trajectory
prm_loss = -torch.log(step_rewards).mean()

print(f"Calculated PRM Loss: {prm_loss.item():.4f}")
# During RLHF, this loss would guide hyperparameter tuning and model updates

من خلال ضمان توافق كل خطوة وسيطة مع السلوك المتوقع، يمكن للمطورين نشر أنظمة تتمتع بدرجة عالية من الموثوقية. ويتيح الجمع بين الإشراف على مستوى العمليات والضبط المستمر للمعلمات الفائقة لنماذج الجيل التالي التفكير المنطقي في المشكلات بأمان وفعالية.

لنبني مستقبل الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة