تعرف على YOLO26: جيل جديد من ذكاء الرؤية الاصطناعي.
Ultralytics
العودة إلى قاموس مصطلحات Ultralytics

Reward Modeling

استكشف نمذجة المكافأة في تعلم الآلة. تعلم كيف تستخدم التغذية الراجعة البشرية لمواءمة وكلاء الذكاء الاصطناعي ونماذج Ultralytics YOLO26 لأداء أكثر أماناً ودقة.

نمذجة المكافآت هي تقنية تعلم آلي تُستخدم لتعليم أنظمة الذكاء الاصطناعي كيفية تقييم وترتيب أولويات سلوكياتها بناءً على التفضيلات البشرية. في بيئات التعلم التعزيزي التقليدية، يتعلم وكيل الذكاء الاصطناعي من خلال تعظيم دالة مكافأة محددة مسبقًا وصارمة رياضيًا، مثل النتيجة في لعبة فيديو. ومع ذلك، بالنسبة للمهام المعقدة في العالم الحقيقي حيث يكون السلوك "الجيد" ذاتيًا أو دقيقًا - مثل كتابة بريد إلكتروني مهذب أو التنقل عبر تقاطع طرق بأمان - فإن كتابة دالة مكافأة خالية من العيوب يدويًا أمر شبه مستحيل. تعالج نمذجة المكافآت هذه المشكلة من خلال تدريب شبكة عصبية ثانوية (نموذج المكافأة) لتعمل كوكيل للحكم البشري. يقوم هذا النموذج بتقييم مخرجات الذكاء الاصطناعي الأساسي وتعيين درجات عددية، مما يوجه النموذج الرئيسي ديناميكيًا نحو سلوكيات آمنة ومفيدة ودقيقة.

Link to this sectionكيف تعمل نمذجة المكافآت#

تعتمد خطة العمل لبناء نموذج المكافأة بشكل كبير على جمع ملاحظات بشرية عالية الجودة.

  • تصنيف البيانات والتفضيلات: يتم تزويد المقيمين البشريين بمطالبات إلى جانب استجابات متعددة تم إنشاؤها بواسطة نموذج ذكاء اصطناعي. يقوم المقيمون بترتيب هذه الاستجابات من الأفضل إلى الأسوأ بناءً على معايير مثل الفائدة، وعدم الضرر، والدقة. يمكن إدارة تدفقات عمل التصنيف واسعة النطاق هذه بسلاسة باستخدام منصة Ultralytics.
  • تدريب الشبكة الوكيلة: يتم تدريب شبكة عصبية متخصصة على مجموعة البيانات هذه الخاصة بالمقارنات البشرية. من خلال عملية تحسين، تتعلم التنبؤ بالمخرجات التي قد يفضلها البشر، مع ربط تمثيلات المتجهات لإجراء أو استجابة نصية بقيمة مكافأة عددية واحدة. يمكنك قراءة المزيد حول بناء بنى الشبكات العصبية في توثيق PyTorch API.
  • تحسين السياسة: يستخدم النموذج الأساسي الملاحظات المستمرة من نموذج المكافأة لتحسين إجراءاته، وعادةً ما يستخدم خوارزميات مثل تحسين السياسة القريبة (PPO). تعمل هذه الخطوة على مواءمة سياسة النموذج بشكل متكرر مع القصد البشري المكتسب.

Link to this sectionنمذجة المكافآت مقابل RLHF#

من المهم التمييز بين نمذجة المكافآت والتعلم التعزيزي من الملاحظات البشرية (RLHF). على الرغم من مناقشة المصطلحين معًا بشكل متكرر، إلا أنهما ليسا مترادفين. RLHF هو خطة العمل الشاملة من البداية إلى النهاية المستخدمة لمواءمة النماذج، والتي تشمل الضبط الدقيق الخاضع للإشراف، وجمع البيانات، وتحديثات السياسة. نمذجة المكافآت هي مكون محدد وحاسم داخل خطة عمل RLHF. وهي تعمل كجسر يترجم التصنيفات البشرية المنفصلة إلى إشارة رياضية مستمرة يمكن لخوارزمية التعلم التعزيزي التحسين بناءً عليها.

Link to this sectionتطبيقات العالم الحقيقي#

تعتبر نمذجة المكافآت أداة فعالة في تطوير أنظمة الذكاء الاصطناعي الحديثة التي تتفاعل مباشرة مع البشر والعالم المادي.

  • نماذج اللغات الكبيرة (LLMs): تعتمد مساعدو الذكاء الاصطناعي التخاطبي على نماذج المكافآت لضمان أن إجاباتهم ليست صحيحة واقعيًا فحسب، بل مهذبة وذات صلة وخالية من اللغة السامة. تعمل المنظمات التي تستكشف سلامة الذكاء الاصطناعي باستمرار على تطوير نمذجة المكافآت لبناء أنظمة تعكس مواءمة الذكاء الاصطناعي المفيد وغير الضار.
  • المركبات ذاتية القيادة والروبوتات: في الأتمتة المادية، تساعد نماذج المكافآت الروبوتات على فهم آداب القيادة المعقدة أو استراتيجيات التعامل مع الأشياء. قد يكتشف نظام الإدراك المدعوم بواسطة Ultralytics YOLO26 المشاة وعلامات الطريق، بينما يقوم نموذج المكافأة بتقييم مسار المركبة المخطط له، مما يضمن أن الذكاء الاصطناعي يعطي الأولوية لراحة الركاب وسلامتهم على الملاحة العدوانية من نقطة إلى نقطة.

Link to this sectionتنفيذ مفهوم أساسي لنموذج المكافأة#

يستخدم مثال Python التالي torch لتوضيح الهيكل التأسيسي لنموذج المكافأة. من الناحية العملية، تتعلم هذه الشبكة تعيين درجة عددية أعلى للمخرجات التي تتوافق مع التفضيلات البشرية.

import torch
import torch.nn as nn


# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
    def __init__(self):
        super().__init__()
        # Maps the AI's output embedding to a single reward score
        self.fc = nn.Linear(768, 1)

    def forward(self, embeddings):
        return self.fc(embeddings)


# Initialize the model
reward_model = SimpleRewardModel()

# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)

# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")

للحصول على نظرة أعمق حول كيفية تأثير المواءمة على نماذج الأساس مفتوحة المصدر، استكشف الأبحاث التأسيسية حول مواءمة النماذج اللغوية مع القصد البشري وتعرف على كيفية استفادة أنظمة رؤية الحاسوب (CV) من حلقات التغذية الراجعة المتقدمة للتفاعل بأمان مع البيئات الديناميكية.

Explore solutions

Real-time AI that works with your team

الذكاء الاصطناعي في الروبوتات

شغّل آلات أكثر ذكاءً باستخدام نماذج Ultralytics YOLO. يدفع الذكاء الاصطناعي للرؤية في الروبوتات الملاحة الذاتية، والإدراك، وتتبع الكائنات، والتحكم في الوقت الفعلي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الخدمات اللوجستية

بسّط العمليات اللوجستية باستخدام نماذج Ultralytics YOLO. تُمكّن الرؤية بالذكاء الاصطناعي فحص الطرود، والفرز، وتتبع المركبات، ومراقبة السلامة في المستودعات في الوقت الفعلي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التجزئة

أعد تصور تجارة التجزئة مع نماذج Ultralytics YOLO. تعزز الرؤية بالذكاء الاصطناعي تتبع المخزون، ومراقبة الأرفف، وإدارة الطوابير، ورؤى أكثر ذكاءً للعملاء.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الرعاية الصحية

قم ببناء حلول الرعاية الصحية مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري في الرعاية الصحية على تعزيز سرعة التصوير الطبي، والتشخيص الأكثر ذكاءً، ومراقبة المرضى.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التصنيع

حسّن عمليات التصنيع باستخدام نماذج Ultralytics YOLO. تقود الرؤية بالذكاء الاصطناعي مراقبة الجودة، واكتشاف العيوب، والامتثال لمعدات الوقاية الشخصية (PPE)، وأتمتة خطوط التجميع.

اعرف المزيد
Real-time AI that works with your operation

الذكاء الاصطناعي في مجال السيارات

طبق رؤية الحاسوب في مجال السيارات مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري على تعزيز السلامة على الطرق، ومساعدة السائق، وأتمتة المركبات من أجل طرق أكثر ذكاءً.

اعرف المزيد
Real-time AI tailored to your operation

الذكاء الاصطناعي في الزراعة

ادمج الذكاء الاصطناعي البصري في الزراعة الذكية باستخدام نماذج Ultralytics YOLO. عزز مراقبة المحاصيل، وتتبع الماشية، والزراعة الدقيقة للحصول على إنتاجية أعلى وأكثر ذكاءً.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الروبوتات

شغّل آلات أكثر ذكاءً باستخدام نماذج Ultralytics YOLO. يدفع الذكاء الاصطناعي للرؤية في الروبوتات الملاحة الذاتية، والإدراك، وتتبع الكائنات، والتحكم في الوقت الفعلي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الخدمات اللوجستية

بسّط العمليات اللوجستية باستخدام نماذج Ultralytics YOLO. تُمكّن الرؤية بالذكاء الاصطناعي فحص الطرود، والفرز، وتتبع المركبات، ومراقبة السلامة في المستودعات في الوقت الفعلي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التجزئة

أعد تصور تجارة التجزئة مع نماذج Ultralytics YOLO. تعزز الرؤية بالذكاء الاصطناعي تتبع المخزون، ومراقبة الأرفف، وإدارة الطوابير، ورؤى أكثر ذكاءً للعملاء.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الرعاية الصحية

قم ببناء حلول الرعاية الصحية مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري في الرعاية الصحية على تعزيز سرعة التصوير الطبي، والتشخيص الأكثر ذكاءً، ومراقبة المرضى.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التصنيع

حسّن عمليات التصنيع باستخدام نماذج Ultralytics YOLO. تقود الرؤية بالذكاء الاصطناعي مراقبة الجودة، واكتشاف العيوب، والامتثال لمعدات الوقاية الشخصية (PPE)، وأتمتة خطوط التجميع.

اعرف المزيد
Real-time AI that works with your operation

الذكاء الاصطناعي في مجال السيارات

طبق رؤية الحاسوب في مجال السيارات مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري على تعزيز السلامة على الطرق، ومساعدة السائق، وأتمتة المركبات من أجل طرق أكثر ذكاءً.

اعرف المزيد
Real-time AI tailored to your operation

الذكاء الاصطناعي في الزراعة

ادمج الذكاء الاصطناعي البصري في الزراعة الذكية باستخدام نماذج Ultralytics YOLO. عزز مراقبة المحاصيل، وتتبع الماشية، والزراعة الدقيقة للحصول على إنتاجية أعلى وأكثر ذكاءً.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الروبوتات

شغّل آلات أكثر ذكاءً باستخدام نماذج Ultralytics YOLO. يدفع الذكاء الاصطناعي للرؤية في الروبوتات الملاحة الذاتية، والإدراك، وتتبع الكائنات، والتحكم في الوقت الفعلي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الخدمات اللوجستية

بسّط العمليات اللوجستية باستخدام نماذج Ultralytics YOLO. تُمكّن الرؤية بالذكاء الاصطناعي فحص الطرود، والفرز، وتتبع المركبات، ومراقبة السلامة في المستودعات في الوقت الفعلي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التجزئة

أعد تصور تجارة التجزئة مع نماذج Ultralytics YOLO. تعزز الرؤية بالذكاء الاصطناعي تتبع المخزون، ومراقبة الأرفف، وإدارة الطوابير، ورؤى أكثر ذكاءً للعملاء.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الرعاية الصحية

قم ببناء حلول الرعاية الصحية مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري في الرعاية الصحية على تعزيز سرعة التصوير الطبي، والتشخيص الأكثر ذكاءً، ومراقبة المرضى.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التصنيع

حسّن عمليات التصنيع باستخدام نماذج Ultralytics YOLO. تقود الرؤية بالذكاء الاصطناعي مراقبة الجودة، واكتشاف العيوب، والامتثال لمعدات الوقاية الشخصية (PPE)، وأتمتة خطوط التجميع.

اعرف المزيد
Real-time AI that works with your operation

الذكاء الاصطناعي في مجال السيارات

طبق رؤية الحاسوب في مجال السيارات مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري على تعزيز السلامة على الطرق، ومساعدة السائق، وأتمتة المركبات من أجل طرق أكثر ذكاءً.

اعرف المزيد
Real-time AI tailored to your operation

الذكاء الاصطناعي في الزراعة

ادمج الذكاء الاصطناعي البصري في الزراعة الذكية باستخدام نماذج Ultralytics YOLO. عزز مراقبة المحاصيل، وتتبع الماشية، والزراعة الدقيقة للحصول على إنتاجية أعلى وأكثر ذكاءً.

اعرف المزيد

لنبنِ مستقبل الذكاء الاصطناعي معاً!

ابدأ رحلتك مع مستقبل تعلم الآلة