استكشف نمذجة المكافآت في التعلم الآلي. تعرف على كيفية استخدامها لتعليقات البشر لمواءمة عوامل الذكاء الاصطناعي ونماذج Ultralytics من أجل أداء أكثر أمانًا ودقة.
نمذجة المكافأة هي تقنية تعلم آلي تُستخدم لتعليم أنظمة الذكاء الاصطناعي كيفية تقييم وترتيب أولويات سلوكياتها بناءً على تفضيلات البشر. في بيئات التعلم التقليدية المعززة، يتعلم وكيل الذكاء الاصطناعي من خلال تعظيم وظيفة مكافأة محددة مسبقًا و صارمة من الناحية الحسابية، مثل النقاط في لعبة الفيديو. ومع ذلك، بالنسبة للمهام المعقدة في العالم الحقيقي حيث يكون السلوك "الجيد" ذاتيًا أو دقيقًا — مثل كتابة بريد إلكتروني مهذب أو القيادة بأمان عند تقاطع الطرق — فإن كتابة وظيفة مكافأة خالية من العيوب يدويًا يكاد يكون مستحيلًا. يحل نمذجة المكافأة هذه المشكلة عن طريق تدريب شبكة عصبية ثانوية (نموذج المكافأة) لتعمل كبديل للحكم البشري. يقوم هذا النموذج بتقييم مخرجات الذكاء الاصطناعي الأساسي وتعيين درجات قياسية، مما يوجه النموذج الرئيسي ديناميكيًا نحو سلوكيات آمنة ومفيدة ودقيقة.
يعتمد مسار بناء نموذج المكافآت بشكل كبير على جمع تعليقات بشرية عالية الجودة.
من المهم التمييز بين نمذجة المكافأة و التعلم المعزز من ردود فعل البشر (RLHF). على الرغم من أن المصطلحين غالبًا ما يُناقشان معًا، إلا أنهما ليسا مترادفين. RLHF هو مسار شامل من البداية إلى النهاية يُستخدم لمواءمة النماذج، ويشمل الضبط الدقيق تحت الإشراف وجمع البيانات وتحديثات السياسات. نمذجة المكافأة هي مكون محدد وهام في خط أنابيب RLHF. وهي بمثابة الجسر الذي يحول التصنيفات البشرية المنفصلة إلى إشارة رياضية مستمرة يمكن لخوارزمية التعلم المعزز تحسينها.
تعد نمذجة المكافآت أداة فعالة في تطوير أنظمة الذكاء الاصطناعي الحديثة التي تتفاعل مباشرة مع البشر والعالم المادي .
يستخدم Python التالي Python torch لإظهار الهيكل الأساسي لنموذج المكافأة. في
الممارسة العملية، تتعلم هذه الشبكة تعيين درجة عددية أعلى للناتج الذي يتوافق مع تفضيلات الإنسان.
import torch
import torch.nn as nn
# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
def __init__(self):
super().__init__()
# Maps the AI's output embedding to a single reward score
self.fc = nn.Linear(768, 1)
def forward(self, embeddings):
return self.fc(embeddings)
# Initialize the model
reward_model = SimpleRewardModel()
# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)
# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")
للتعمق أكثر في كيفية تأثير التوافق على نماذج الأساس مفتوحة المصدر، استكشف الأبحاث الأساسية حول مواءمة نماذج اللغة مع نوايا الإنسان وتعلم كيفية استفادة أنظمة الرؤية الحاسوبية (CV) من حلقات التغذية الراجعة المتقدمة للتفاعل بأمان مع البيئات الديناميكية.