Reward Modeling

استكشف نمذجة المكافأة في تعلم الآلة. تعلم كيف تستخدم التغذية الراجعة البشرية لمواءمة وكلاء الذكاء الاصطناعي ونماذج Ultralytics YOLO26 لأداء أكثر أماناً ودقة.

نمذجة المكافآت هي تقنية تعلم آلي تُستخدم لتعليم أنظمة الذكاء الاصطناعي كيفية تقييم وترتيب أولويات سلوكياتها بناءً على التفضيلات البشرية. في بيئات التعلم التعزيزي التقليدية، يتعلم وكيل الذكاء الاصطناعي من خلال تعظيم دالة مكافأة محددة مسبقًا وصارمة رياضيًا، مثل النتيجة في لعبة فيديو. ومع ذلك، بالنسبة للمهام المعقدة في العالم الحقيقي حيث يكون السلوك "الجيد" ذاتيًا أو دقيقًا - مثل كتابة بريد إلكتروني مهذب أو التنقل عبر تقاطع طرق بأمان - فإن كتابة دالة مكافأة خالية من العيوب يدويًا أمر شبه مستحيل. تعالج نمذجة المكافآت هذه المشكلة من خلال تدريب شبكة عصبية ثانوية (نموذج المكافأة) لتعمل كوكيل للحكم البشري. يقوم هذا النموذج بتقييم مخرجات الذكاء الاصطناعي الأساسي وتعيين درجات عددية، مما يوجه النموذج الرئيسي ديناميكيًا نحو سلوكيات آمنة ومفيدة ودقيقة.

Link to this sectionكيف تعمل نمذجة المكافآت#

تعتمد خطة العمل لبناء نموذج المكافأة بشكل كبير على جمع ملاحظات بشرية عالية الجودة.

تصنيف البيانات والتفضيلات: يتم تزويد المقيمين البشريين بمطالبات إلى جانب استجابات متعددة تم إنشاؤها بواسطة نموذج ذكاء اصطناعي. يقوم المقيمون بترتيب هذه الاستجابات من الأفضل إلى الأسوأ بناءً على معايير مثل الفائدة، وعدم الضرر، والدقة. يمكن إدارة تدفقات عمل التصنيف واسعة النطاق هذه بسلاسة باستخدام منصة Ultralytics.
تدريب الشبكة الوكيلة: يتم تدريب شبكة عصبية متخصصة على مجموعة البيانات هذه الخاصة بالمقارنات البشرية. من خلال عملية تحسين، تتعلم التنبؤ بالمخرجات التي قد يفضلها البشر، مع ربط تمثيلات المتجهات لإجراء أو استجابة نصية بقيمة مكافأة عددية واحدة. يمكنك قراءة المزيد حول بناء بنى الشبكات العصبية في توثيق PyTorch API.
تحسين السياسة: يستخدم النموذج الأساسي الملاحظات المستمرة من نموذج المكافأة لتحسين إجراءاته، وعادةً ما يستخدم خوارزميات مثل تحسين السياسة القريبة (PPO). تعمل هذه الخطوة على مواءمة سياسة النموذج بشكل متكرر مع القصد البشري المكتسب.

Link to this sectionنمذجة المكافآت مقابل RLHF#

من المهم التمييز بين نمذجة المكافآت والتعلم التعزيزي من الملاحظات البشرية (RLHF). على الرغم من مناقشة المصطلحين معًا بشكل متكرر، إلا أنهما ليسا مترادفين. RLHF هو خطة العمل الشاملة من البداية إلى النهاية المستخدمة لمواءمة النماذج، والتي تشمل الضبط الدقيق الخاضع للإشراف، وجمع البيانات، وتحديثات السياسة. نمذجة المكافآت هي مكون محدد وحاسم داخل خطة عمل RLHF. وهي تعمل كجسر يترجم التصنيفات البشرية المنفصلة إلى إشارة رياضية مستمرة يمكن لخوارزمية التعلم التعزيزي التحسين بناءً عليها.

Link to this sectionتطبيقات العالم الحقيقي#

تعتبر نمذجة المكافآت أداة فعالة في تطوير أنظمة الذكاء الاصطناعي الحديثة التي تتفاعل مباشرة مع البشر والعالم المادي.

نماذج اللغات الكبيرة (LLMs): تعتمد مساعدو الذكاء الاصطناعي التخاطبي على نماذج المكافآت لضمان أن إجاباتهم ليست صحيحة واقعيًا فحسب، بل مهذبة وذات صلة وخالية من اللغة السامة. تعمل المنظمات التي تستكشف سلامة الذكاء الاصطناعي باستمرار على تطوير نمذجة المكافآت لبناء أنظمة تعكس مواءمة الذكاء الاصطناعي المفيد وغير الضار.
المركبات ذاتية القيادة والروبوتات: في الأتمتة المادية، تساعد نماذج المكافآت الروبوتات على فهم آداب القيادة المعقدة أو استراتيجيات التعامل مع الأشياء. قد يكتشف نظام الإدراك المدعوم بواسطة Ultralytics YOLO26 المشاة وعلامات الطريق، بينما يقوم نموذج المكافأة بتقييم مسار المركبة المخطط له، مما يضمن أن الذكاء الاصطناعي يعطي الأولوية لراحة الركاب وسلامتهم على الملاحة العدوانية من نقطة إلى نقطة.

Link to this sectionتنفيذ مفهوم أساسي لنموذج المكافأة#

يستخدم مثال Python التالي torch لتوضيح الهيكل التأسيسي لنموذج المكافأة. من الناحية العملية، تتعلم هذه الشبكة تعيين درجة عددية أعلى للمخرجات التي تتوافق مع التفضيلات البشرية.

import torch
import torch.nn as nn


# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
    def __init__(self):
        super().__init__()
        # Maps the AI's output embedding to a single reward score
        self.fc = nn.Linear(768, 1)

    def forward(self, embeddings):
        return self.fc(embeddings)


# Initialize the model
reward_model = SimpleRewardModel()

# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)

# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")

للحصول على نظرة أعمق حول كيفية تأثير المواءمة على نماذج الأساس مفتوحة المصدر، استكشف الأبحاث التأسيسية حول مواءمة النماذج اللغوية مع القصد البشري وتعرف على كيفية استفادة أنظمة رؤية الحاسوب (CV) من حلقات التغذية الراجعة المتقدمة للتفاعل بأمان مع البيئات الديناميكية.

Explore solutions

الذكاء الاصطناعي في الروبوتات

شغّل آلات أكثر ذكاءً باستخدام نماذج Ultralytics YOLO. يدفع الذكاء الاصطناعي للرؤية في الروبوتات الملاحة الذاتية، والإدراك، وتتبع الكائنات، والتحكم في الوقت الفعلي.

Reward Modeling

Link to this sectionكيف تعمل نمذجة المكافآت#

Link to this sectionنمذجة المكافآت مقابل RLHF#

Link to this sectionتطبيقات العالم الحقيقي#

Link to this sectionتنفيذ مفهوم أساسي لنموذج المكافأة#

Explore solutions

الذكاء الاصطناعي في الروبوتات

الذكاء الاصطناعي في الخدمات اللوجستية

الذكاء الاصطناعي في التجزئة

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في مجال السيارات

الذكاء الاصطناعي في الزراعة

الذكاء الاصطناعي في الروبوتات

الذكاء الاصطناعي في الخدمات اللوجستية

الذكاء الاصطناعي في التجزئة

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في مجال السيارات

الذكاء الاصطناعي في الزراعة

الذكاء الاصطناعي في الروبوتات

الذكاء الاصطناعي في الخدمات اللوجستية

الذكاء الاصطناعي في التجزئة

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في مجال السيارات

الذكاء الاصطناعي في الزراعة

لنبنِ مستقبل الذكاء الاصطناعي معاً!