Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

نمذجة المكافآت

استكشف نمذجة المكافآت في التعلم الآلي. تعرف على كيفية استخدامها لتعليقات البشر لمواءمة عوامل الذكاء الاصطناعي ونماذج Ultralytics من أجل أداء أكثر أمانًا ودقة.

نمذجة المكافأة هي تقنية تعلم آلي تُستخدم لتعليم أنظمة الذكاء الاصطناعي كيفية تقييم وترتيب أولويات سلوكياتها بناءً على تفضيلات البشر. في بيئات التعلم التقليدية المعززة، يتعلم وكيل الذكاء الاصطناعي من خلال تعظيم وظيفة مكافأة محددة مسبقًا و صارمة من الناحية الحسابية، مثل النقاط في لعبة الفيديو. ومع ذلك، بالنسبة للمهام المعقدة في العالم الحقيقي حيث يكون السلوك "الجيد" ذاتيًا أو دقيقًا — مثل كتابة بريد إلكتروني مهذب أو القيادة بأمان عند تقاطع الطرق — فإن كتابة وظيفة مكافأة خالية من العيوب يدويًا يكاد يكون مستحيلًا. يحل نمذجة المكافأة هذه المشكلة عن طريق تدريب شبكة عصبية ثانوية (نموذج المكافأة) لتعمل كبديل للحكم البشري. يقوم هذا النموذج بتقييم مخرجات الذكاء الاصطناعي الأساسي وتعيين درجات قياسية، مما يوجه النموذج الرئيسي ديناميكيًا نحو سلوكيات آمنة ومفيدة ودقيقة.

كيف تعمل نماذج المكافآت

يعتمد مسار بناء نموذج المكافآت بشكل كبير على جمع تعليقات بشرية عالية الجودة.

  • تصنيف البيانات والتفضيلات: يتم تزويد المعلقين البشريين بمطالبات إلى جانب ردود متعددة تم إنشاؤها بواسطة نموذج الذكاء الاصطناعي. يقوم المقيّمون بترتيب هذه الردود من الأفضل إلى الأسوأ بناءً على معايير مثل الفائدة وعدم الإضرار والدقة. يمكن إدارة عمليات سير العمل الخاصة بالتعليقات التوضيحية على نطاق واسع بسلاسة باستخدام Ultralytics .
  • تدريب شبكة الوكيل: يتم تدريب شبكة عصبية متخصصة على مجموعة البيانات هذه من المقارنات البشرية. من خلال عملية تحسين، تتعلم الشبكة توقع النتيجة التي يفضلها الإنسان، وتربط تضمينات إجراء أو استجابة نصية بقيمة مكافأة قياسية واحدة. يمكنك قراءة المزيد عن بناء بنى الشبكات العصبية في وثائقPyTorch .
  • تحسين السياسة: يستخدم النموذج الأساسي التغذية الراجعة المستمرة من نموذج المكافأة لتحسين إجراءاته، وعادةً ما يستخدم خوارزميات مثل تحسين السياسة القريبة (PPO). تعمل هذه الخطوة على مواءمة سياسة النموذج بشكل متكرر مع النية البشرية المكتسبة.

نمذجة المكافأة مقابل RLHF

من المهم التمييز بين نمذجة المكافأة و التعلم المعزز من ردود فعل البشر (RLHF). على الرغم من أن المصطلحين غالبًا ما يُناقشان معًا، إلا أنهما ليسا مترادفين. RLHF هو مسار شامل من البداية إلى النهاية يُستخدم لمواءمة النماذج، ويشمل الضبط الدقيق تحت الإشراف وجمع البيانات وتحديثات السياسات. نمذجة المكافأة هي مكون محدد وهام في خط أنابيب RLHF. وهي بمثابة الجسر الذي يحول التصنيفات البشرية المنفصلة إلى إشارة رياضية مستمرة يمكن لخوارزمية التعلم المعزز تحسينها.

تطبيقات واقعية

تعد نمذجة المكافآت أداة فعالة في تطوير أنظمة الذكاء الاصطناعي الحديثة التي تتفاعل مباشرة مع البشر والعالم المادي .

  • نماذج اللغة الكبيرة (LLMs): تعتمد مساعدات الذكاء الاصطناعي التخاطبية على نماذج المكافأة لضمان أن تكون إجاباتها صحيحة من الناحية الواقعية، ولكنها أيضًا مهذبة وذات صلة وخالية من اللغة السامة. تعمل المؤسسات التي تستكشف سلامة الذكاء الاصطناعي باستمرار على تطوير نماذج المكافأة لبناء أنظمة تعكس توافق الذكاء الاصطناعي المفيد وغير الضار.
  • المركبات ذاتية القيادة والروبوتات: في الأتمتة المادية، تساعد نماذج المكافأة الروبوتات على فهم قواعد القيادة المعقدة أو استراتيجيات التعامل مع الأشياء. قد detect نظام الإدراك المدعوم بواسطة Ultralytics detect وعلامات الطريق، بينما يقوم نموذج المكافأة بتقييم المسار المخطط للمركبة، مما يضمن أن الذكاء الاصطناعي يعطي الأولوية لراحة الركاب وسلامتهم على حساب التنقل من نقطة إلى أخرى بشكل عدواني بحت.

تنفيذ مفهوم نموذج المكافأة الأساسي

يستخدم Python التالي Python torch لإظهار الهيكل الأساسي لنموذج المكافأة. في الممارسة العملية، تتعلم هذه الشبكة تعيين درجة عددية أعلى للناتج الذي يتوافق مع تفضيلات الإنسان.

import torch
import torch.nn as nn


# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
    def __init__(self):
        super().__init__()
        # Maps the AI's output embedding to a single reward score
        self.fc = nn.Linear(768, 1)

    def forward(self, embeddings):
        return self.fc(embeddings)


# Initialize the model
reward_model = SimpleRewardModel()

# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)

# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")

للتعمق أكثر في كيفية تأثير التوافق على نماذج الأساس مفتوحة المصدر، استكشف الأبحاث الأساسية حول مواءمة نماذج اللغة مع نوايا الإنسان وتعلم كيفية استفادة أنظمة الرؤية الحاسوبية (CV) من حلقات التغذية الراجعة المتقدمة للتفاعل بأمان مع البيئات الديناميكية.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن