تعرف على YOLO26: جيل جديد من ذكاء الرؤية الاصطناعي.
Ultralytics
العودة إلى قاموس مصطلحات Ultralytics

Reward Modeling

استكشف نمذجة المكافآت في التعلم الآلي. تعرف على كيفية استخدامها لتعليقات البشر لمواءمة وكلاء الذكاء الاصطناعي ونماذج Ultralytics YOLO26 لتحقيق أداء أكثر أماناً ودقة.

نمذجة المكافآت هي تقنية تعلم آلي تُستخدم لتعليم أنظمة الذكاء الاصطناعي كيفية تقييم وتحديد أولويات سلوكياتها بناءً على التفضيلات البشرية. في بيئات التعلم التعزيزي التقليدية، يتعلم وكيل الذكاء الاصطناعي من خلال تعظيم دالة مكافأة رياضية جامدة ومحددة مسبقاً، مثل النتيجة في لعبة فيديو. ومع ذلك، بالنسبة للمهام المعقدة في العالم الحقيقي حيث يكون السلوك "الجيد" ذاتياً أو دقيقاً - مثل كتابة بريد إلكتروني مهذب أو التنقل عبر تقاطع طرق بأمان - فإن كتابة دالة مكافأة خالية من العيوب يدوياً تعد أمراً شبه مستحيل. تحل نمذجة المكافآت هذه المشكلة من خلال تدريب شبكة عصبية ثانوية (نموذج المكافأة) لتعمل كبديل للحكم البشري. يقوم هذا النموذج بتقييم مخرجات الذكاء الاصطناعي الأولية وتعيين درجات قياسية، مما يوجه النموذج الرئيسي ديناميكياً نحو سلوكيات آمنة ومفيدة ودقيقة.

Link to this sectionكيف تعمل نمذجة المكافآت#

يعتمد خط أنابيب بناء نموذج المكافأة بشكل كبير على جمع تعليقات بشرية عالية الجودة.

  • تصنيف البيانات والتفضيلات: يتم تزويد المقيمين البشريين بمطالبات إلى جانب ردود متعددة تم إنشاؤها بواسطة نموذج ذكاء اصطناعي. يقوم المقيمون بترتيب هذه الردود من الأفضل إلى الأسوأ بناءً على معايير مثل المساعدة وعدم الضرر والدقة. يمكن إدارة تدفقات عمل التصنيف واسعة النطاق هذه بسلاسة باستخدام منصة Ultralytics.
  • تدريب الشبكة البديلة: يتم تدريب شبكة عصبية متخصصة على مجموعة البيانات هذه من المقارنات البشرية. من خلال عملية تحسين، تتعلم التنبؤ بالنتيجة التي يفضلها الإنسان، وتعيين تضمينات إجراء أو رد نصي إلى قيمة مكافأة قياسية واحدة. يمكنك قراءة المزيد حول بناء بنيات الشبكات العصبية في وثائق PyTorch API.
  • تحسين السياسة: يستخدم النموذج الأولي التعليقات المستمرة من نموذج المكافأة لتحسين إجراءاته، وعادةً ما يستخدم خوارزميات مثل تحسين السياسة القريبة (PPO). تعمل هذه الخطوة بشكل تكراري على مواءمة سياسة النموذج مع النية البشرية المتعلمة.

Link to this sectionنمذجة المكافآت مقابل RLHF#

من المهم التمييز بين نمذجة المكافآت والتعلم التعزيزي من التعليقات البشرية (RLHF). على الرغم من مناقشة المصطلحين بشكل متكرر معاً، إلا أنهما ليسا مترادفين. RLHF هو خط الأنابيب الشامل من البداية إلى النهاية المستخدم لمواءمة النماذج، ويشمل الضبط الدقيق الخاضع للإشراف، وجمع البيانات، وتحديثات السياسة. نمذجة المكافآت هي مكون محدد وحاسم داخل خط أنابيب RLHF. وهي بمثابة الجسر الذي يترجم التصنيفات البشرية المنفصلة إلى إشارة رياضية مستمرة يمكن لخوارزمية التعلم التعزيزي التحسين بناءً عليها.

Link to this sectionالتطبيقات الواقعية#

تعد نمذجة المكافآت مفيدة في تطوير أنظمة ذكاء اصطناعي حديثة تتفاعل مباشرة مع البشر والعالم المادي.

  • نماذج اللغات الكبيرة (LLMs): تعتمد مساعدات الذكاء الاصطناعي التخاطبية على نماذج المكافآت لضمان أن إجاباتها ليست صحيحة واقعياً فحسب، بل مهذبة وذات صلة وخالية من اللغة السامة. تعمل المنظمات التي تستكشف سلامة الذكاء الاصطناعي على تطوير نمذجة المكافآت باستمرار لبناء أنظمة تعكس مواءمة الذكاء الاصطناعي المفيد وغير الضار.
  • المركبات ذاتية القيادة والروبوتات: في الأتمتة المادية، تساعد نماذج المكافآت الروبوتات على فهم آداب القيادة المعقدة أو استراتيجيات معالجة الأشياء. قد يكتشف نظام إدراك مدعوم بـ Ultralytics YOLO26 المشاة وإشارات الطرق، بينما يقوم نموذج المكافأة بتقييم مسار المركبة المخطط له، مما يضمن أن الذكاء الاصطناعي يعطي الأولوية لراحة الركاب وسلامتهم على الملاحة العدوانية من نقطة إلى نقطة.

Link to this sectionتنفيذ مفهوم نموذج مكافأة أساسي#

يستخدم مثال Python التالي torch لتوضيح البنية الأساسية لنموذج المكافأة. عملياً، تتعلم هذه الشبكة تعيين درجة قياسية أعلى لمخرجات تتوافق مع التفضيلات البشرية.

import torch
import torch.nn as nn


# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
    def __init__(self):
        super().__init__()
        # Maps the AI's output embedding to a single reward score
        self.fc = nn.Linear(768, 1)

    def forward(self, embeddings):
        return self.fc(embeddings)


# Initialize the model
reward_model = SimpleRewardModel()

# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)

# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")

للحصول على فهم أعمق حول كيفية تأثير المواءمة على نماذج الأساس مفتوحة المصدر، استكشف الأبحاث التأسيسية حول مواءمة نماذج اللغة مع النية البشرية وتعلم كيف تستفيد أنظمة الرؤية الحاسوبية (CV) من حلقات التعليقات المتقدمة للتفاعل بأمان مع البيئات الديناميكية.

Explore solutions

Real-time AI tailored to your operation

الذكاء الاصطناعي في الزراعة

استخدم الرؤية الحاسوبية القائمة على الذكاء الاصطناعي في الزراعة الذكية مع نماذج Ultralytics YOLO. عزز مراقبة المحاصيل وتتبع الماشية والزراعة الدقيقة للحصول على غلات أعلى وأكثر ذكاءً.

اعرف المزيد
Real-time AI that works with your operation

الذكاء الاصطناعي في قطاع السيارات

طبق الرؤية الحاسوبية في مجال السيارات باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري على تعزيز السلامة على الطرق، ومساعدة السائق، وأتمتة المركبات من أجل طرق أكثر ذكاءً.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الرعاية الصحية

بناء حلول الرعاية الصحية باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي المرئي في الرعاية الصحية على تسريع التصوير الطبي، وتعزيز دقة التشخيص، وتحسين مراقبة المرضى.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في قطاع التجزئة

أعد تصور تجارة التجزئة مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي للرؤية الحاسوبية على تعزيز تتبع المخزون، ومراقبة الأرفف، وإدارة طوابير الانتظار، وتقديم رؤى أذكى حول العملاء.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في مجال الروبوتات

عزز ذكاء الآلات باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري في الروبوتات على تعزيز الملاحة الذاتية، والإدراك، وتتبع الأجسام، والتحكم اللحظي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التصنيع

حسّن عمليات التصنيع باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي للرؤية الحاسوبية على تعزيز مراقبة الجودة، واكتشاف العيوب، والامتثال لمعدات الوقاية الشخصية، وأتمتة خطوط التجميع.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الخدمات اللوجستية

قم بتبسيط الخدمات اللوجستية باستخدام نماذج Ultralytics YOLO. يُمكّن الذكاء الاصطناعي البصري فحص الطرود، والفرز، وتتبع المركبات، ومراقبة سلامة المستودعات في الوقت الفعلي.

اعرف المزيد
Real-time AI tailored to your operation

الذكاء الاصطناعي في الزراعة

استخدم الرؤية الحاسوبية القائمة على الذكاء الاصطناعي في الزراعة الذكية مع نماذج Ultralytics YOLO. عزز مراقبة المحاصيل وتتبع الماشية والزراعة الدقيقة للحصول على غلات أعلى وأكثر ذكاءً.

اعرف المزيد
Real-time AI that works with your operation

الذكاء الاصطناعي في قطاع السيارات

طبق الرؤية الحاسوبية في مجال السيارات باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري على تعزيز السلامة على الطرق، ومساعدة السائق، وأتمتة المركبات من أجل طرق أكثر ذكاءً.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الرعاية الصحية

بناء حلول الرعاية الصحية باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي المرئي في الرعاية الصحية على تسريع التصوير الطبي، وتعزيز دقة التشخيص، وتحسين مراقبة المرضى.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في قطاع التجزئة

أعد تصور تجارة التجزئة مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي للرؤية الحاسوبية على تعزيز تتبع المخزون، ومراقبة الأرفف، وإدارة طوابير الانتظار، وتقديم رؤى أذكى حول العملاء.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في مجال الروبوتات

عزز ذكاء الآلات باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري في الروبوتات على تعزيز الملاحة الذاتية، والإدراك، وتتبع الأجسام، والتحكم اللحظي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التصنيع

حسّن عمليات التصنيع باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي للرؤية الحاسوبية على تعزيز مراقبة الجودة، واكتشاف العيوب، والامتثال لمعدات الوقاية الشخصية، وأتمتة خطوط التجميع.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الخدمات اللوجستية

قم بتبسيط الخدمات اللوجستية باستخدام نماذج Ultralytics YOLO. يُمكّن الذكاء الاصطناعي البصري فحص الطرود، والفرز، وتتبع المركبات، ومراقبة سلامة المستودعات في الوقت الفعلي.

اعرف المزيد
Real-time AI tailored to your operation

الذكاء الاصطناعي في الزراعة

استخدم الرؤية الحاسوبية القائمة على الذكاء الاصطناعي في الزراعة الذكية مع نماذج Ultralytics YOLO. عزز مراقبة المحاصيل وتتبع الماشية والزراعة الدقيقة للحصول على غلات أعلى وأكثر ذكاءً.

اعرف المزيد
Real-time AI that works with your operation

الذكاء الاصطناعي في قطاع السيارات

طبق الرؤية الحاسوبية في مجال السيارات باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري على تعزيز السلامة على الطرق، ومساعدة السائق، وأتمتة المركبات من أجل طرق أكثر ذكاءً.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الرعاية الصحية

بناء حلول الرعاية الصحية باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي المرئي في الرعاية الصحية على تسريع التصوير الطبي، وتعزيز دقة التشخيص، وتحسين مراقبة المرضى.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في قطاع التجزئة

أعد تصور تجارة التجزئة مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي للرؤية الحاسوبية على تعزيز تتبع المخزون، ومراقبة الأرفف، وإدارة طوابير الانتظار، وتقديم رؤى أذكى حول العملاء.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في مجال الروبوتات

عزز ذكاء الآلات باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري في الروبوتات على تعزيز الملاحة الذاتية، والإدراك، وتتبع الأجسام، والتحكم اللحظي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التصنيع

حسّن عمليات التصنيع باستخدام نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي للرؤية الحاسوبية على تعزيز مراقبة الجودة، واكتشاف العيوب، والامتثال لمعدات الوقاية الشخصية، وأتمتة خطوط التجميع.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الخدمات اللوجستية

قم بتبسيط الخدمات اللوجستية باستخدام نماذج Ultralytics YOLO. يُمكّن الذكاء الاصطناعي البصري فحص الطرود، والفرز، وتتبع المركبات، ومراقبة سلامة المستودعات في الوقت الفعلي.

اعرف المزيد

لنبنِ مستقبل الذكاء الاصطناعي معاً!

ابدأ رحلتك مع مستقبل تعلم الآلة