Reward Modeling
استكشف نمذجة المكافآت في التعلم الآلي. تعرف على كيفية استخدامها لتعليقات البشر لمواءمة وكلاء الذكاء الاصطناعي ونماذج Ultralytics YOLO26 لتحقيق أداء أكثر أماناً ودقة.
نمذجة المكافآت هي تقنية تعلم آلي تُستخدم لتعليم أنظمة الذكاء الاصطناعي كيفية تقييم وتحديد أولويات سلوكياتها بناءً على التفضيلات البشرية. في بيئات التعلم التعزيزي التقليدية، يتعلم وكيل الذكاء الاصطناعي من خلال تعظيم دالة مكافأة رياضية جامدة ومحددة مسبقاً، مثل النتيجة في لعبة فيديو. ومع ذلك، بالنسبة للمهام المعقدة في العالم الحقيقي حيث يكون السلوك "الجيد" ذاتياً أو دقيقاً - مثل كتابة بريد إلكتروني مهذب أو التنقل عبر تقاطع طرق بأمان - فإن كتابة دالة مكافأة خالية من العيوب يدوياً تعد أمراً شبه مستحيل. تحل نمذجة المكافآت هذه المشكلة من خلال تدريب شبكة عصبية ثانوية (نموذج المكافأة) لتعمل كبديل للحكم البشري. يقوم هذا النموذج بتقييم مخرجات الذكاء الاصطناعي الأولية وتعيين درجات قياسية، مما يوجه النموذج الرئيسي ديناميكياً نحو سلوكيات آمنة ومفيدة ودقيقة.
Link to this sectionكيف تعمل نمذجة المكافآت#
يعتمد خط أنابيب بناء نموذج المكافأة بشكل كبير على جمع تعليقات بشرية عالية الجودة.
- تصنيف البيانات والتفضيلات: يتم تزويد المقيمين البشريين بمطالبات إلى جانب ردود متعددة تم إنشاؤها بواسطة نموذج ذكاء اصطناعي. يقوم المقيمون بترتيب هذه الردود من الأفضل إلى الأسوأ بناءً على معايير مثل المساعدة وعدم الضرر والدقة. يمكن إدارة تدفقات عمل التصنيف واسعة النطاق هذه بسلاسة باستخدام منصة Ultralytics.
- تدريب الشبكة البديلة: يتم تدريب شبكة عصبية متخصصة على مجموعة البيانات هذه من المقارنات البشرية. من خلال عملية تحسين، تتعلم التنبؤ بالنتيجة التي يفضلها الإنسان، وتعيين تضمينات إجراء أو رد نصي إلى قيمة مكافأة قياسية واحدة. يمكنك قراءة المزيد حول بناء بنيات الشبكات العصبية في وثائق PyTorch API.
- تحسين السياسة: يستخدم النموذج الأولي التعليقات المستمرة من نموذج المكافأة لتحسين إجراءاته، وعادةً ما يستخدم خوارزميات مثل تحسين السياسة القريبة (PPO). تعمل هذه الخطوة بشكل تكراري على مواءمة سياسة النموذج مع النية البشرية المتعلمة.
Link to this sectionنمذجة المكافآت مقابل RLHF#
من المهم التمييز بين نمذجة المكافآت والتعلم التعزيزي من التعليقات البشرية (RLHF). على الرغم من مناقشة المصطلحين بشكل متكرر معاً، إلا أنهما ليسا مترادفين. RLHF هو خط الأنابيب الشامل من البداية إلى النهاية المستخدم لمواءمة النماذج، ويشمل الضبط الدقيق الخاضع للإشراف، وجمع البيانات، وتحديثات السياسة. نمذجة المكافآت هي مكون محدد وحاسم داخل خط أنابيب RLHF. وهي بمثابة الجسر الذي يترجم التصنيفات البشرية المنفصلة إلى إشارة رياضية مستمرة يمكن لخوارزمية التعلم التعزيزي التحسين بناءً عليها.
Link to this sectionالتطبيقات الواقعية#
تعد نمذجة المكافآت مفيدة في تطوير أنظمة ذكاء اصطناعي حديثة تتفاعل مباشرة مع البشر والعالم المادي.
- نماذج اللغات الكبيرة (LLMs): تعتمد مساعدات الذكاء الاصطناعي التخاطبية على نماذج المكافآت لضمان أن إجاباتها ليست صحيحة واقعياً فحسب، بل مهذبة وذات صلة وخالية من اللغة السامة. تعمل المنظمات التي تستكشف سلامة الذكاء الاصطناعي على تطوير نمذجة المكافآت باستمرار لبناء أنظمة تعكس مواءمة الذكاء الاصطناعي المفيد وغير الضار.
- المركبات ذاتية القيادة والروبوتات: في الأتمتة المادية، تساعد نماذج المكافآت الروبوتات على فهم آداب القيادة المعقدة أو استراتيجيات معالجة الأشياء. قد يكتشف نظام إدراك مدعوم بـ Ultralytics YOLO26 المشاة وإشارات الطرق، بينما يقوم نموذج المكافأة بتقييم مسار المركبة المخطط له، مما يضمن أن الذكاء الاصطناعي يعطي الأولوية لراحة الركاب وسلامتهم على الملاحة العدوانية من نقطة إلى نقطة.
Link to this sectionتنفيذ مفهوم نموذج مكافأة أساسي#
يستخدم مثال Python التالي torch لتوضيح البنية الأساسية لنموذج المكافأة. عملياً، تتعلم هذه الشبكة تعيين درجة قياسية أعلى لمخرجات تتوافق مع التفضيلات البشرية.
import torch
import torch.nn as nn
# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
def __init__(self):
super().__init__()
# Maps the AI's output embedding to a single reward score
self.fc = nn.Linear(768, 1)
def forward(self, embeddings):
return self.fc(embeddings)
# Initialize the model
reward_model = SimpleRewardModel()
# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)
# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")للحصول على فهم أعمق حول كيفية تأثير المواءمة على نماذج الأساس مفتوحة المصدر، استكشف الأبحاث التأسيسية حول مواءمة نماذج اللغة مع النية البشرية وتعلم كيف تستفيد أنظمة الرؤية الحاسوبية (CV) من حلقات التعليقات المتقدمة للتفاعل بأمان مع البيئات الديناميكية.






