Reinforcement Learning from Human Feedback (RLHF)
تعلم كيف يعمل التعلم التعزيزي من التغذية الراجعة البشرية (RLHF) على مواءمة الذكاء الاصطناعي مع القيم البشرية. استكشف مكوناته الأساسية وتكامله مع Ultralytics YOLO26.
التعلم التعزيزي من التغذية الراجعة البشرية (RLHF) هو تقنية متقدمة في تعلم الآلة تعمل على تحسين نماذج الذكاء الاصطناعي من خلال دمج المدخلات البشرية المباشرة في حلقة التدريب. على عكس التعلم الخاضع للإشراف القياسي، الذي يعتمد فقط على مجموعات بيانات مصنفة ثابتة، يقدم RLHF آلية تغذية راجعة ديناميكية يقوم فيها المقيمون البشر بترتيب أو تقييم مخرجات النموذج. تتيح هذه العملية للذكاء الاصطناعي التقاط أهداف معقدة أو ذاتية أو دقيقة - مثل "المساعدة"، أو "الأمان"، أو "الإبداع" - والتي يصعب تحديدها باستخدام دالة خسارة رياضية بسيطة. أصبح RLHF حجر الزاوية في تطوير نماذج اللغة الكبيرة (LLMs) الحديثة والذكاء الاصطناعي التوليدي، مما يضمن توافق نماذج الأساس القوية بفعالية مع القيم البشرية ونوايا المستخدم.
Link to this sectionالمكونات الأساسية لـ RLHF#
تتبع عملية RLHF بشكل عام خط أنابيب من ثلاث خطوات مصمم لسد الفجوة بين القدرات التنبؤية الخام والسلوك المتوافق مع البشر.
-
الضبط الدقيق الخاضع للإشراف (SFT): تبدأ سير العمل عادةً بـ نموذج أساس مدرب مسبقًا. يقوم المطورون بإجراء ضبط دقيق أولي باستخدام مجموعة بيانات أصغر وعالية الجودة من العروض التوضيحية (على سبيل المثال، أزواج أسئلة وأجوبة كتبها خبراء). تؤسس هذه الخطوة سياسة أساسية، حيث تعلم النموذج التنسيق والنبرة العامين المتوقعين للمهمة.
-
تدريب نموذج المكافأة: هذه المرحلة هي الميزة المميزة لـ RLHF. يقوم المقيمون البشريون بمراجعة مخرجات متعددة تم إنشاؤها بواسطة النموذج لنفس المدخلات وترتيبها من الأفضل إلى الأسوأ. يولد جهد تصنيف البيانات هذا مجموعة بيانات من التفضيلات. يتم تدريب شبكة عصبية منفصلة، تسمى نموذج المكافأة، على بيانات المقارنة هذه للتنبؤ بنتيجة قياسية تعكس الحكم البشري. يمكن للأدوات المتاحة على منصة Ultralytics تبسيط إدارة سير عمل التصنيف هذه.
-
تحسين التعلم التعزيزي: أخيرًا، يعمل النموذج الأصلي كـ وكيل ذكاء اصطناعي داخل بيئة تعلم تعزيزي. باستخدام نموذج المكافأة كدليل، تقوم خوارزميات التحسين مثل تحسين السياسة القريب (PPO) بتعديل معلمات النموذج لتعظيم المكافأة المتوقعة. تعمل هذه الخطوة على مواءمة سياسة النموذج مع التفضيلات البشرية المتعلمة، مما يشجع على السلوكيات المفيدة والآمنة مع تثبيط المخرجات السامة أو غير المنطقية.
Link to this sectionتطبيقات العالم الحقيقي#
لقد أثبت RLHF أهميته في نشر أنظمة الذكاء الاصطناعي التي تتطلب معايير أمان عالية وفهمًا دقيقًا للتفاعل البشري.
- الذكاء الاصطناعي التحادثي وروبوتات الدردشة: التطبيق الأكثر بروزًا لـ RLHF هو في مواءمة روبوتات الدردشة لتكون مفيدة وغير ضارة وصادقة. من خلال معاقبة المخرجات المتحيزة أو غير الصحيحة واقعيًا أو الخطيرة، يساعد RLHF في تخفيف الهلوسة في نماذج LLM ويقلل من مخاطر التحيز الخوارزمي. يضمن هذا قدرة المساعدين الافتراضيين على رفض التعليمات الضارة مع بقائهم مفيدين للاستفسارات المشروعة.
- الروبوتات والتحكم الفيزيائي: يمتد RLHF إلى ما هو أبعد من النص ليشمل الذكاء الاصطناعي في الروبوتات، حيث يعد تحديد دالة مكافأة مثالية للمهام الفيزيائية المعقدة أمرًا صعبًا. على سبيل المثال، قد يتلقى روبوت يتعلم التنقل في مستودع مزدحم تعليقات من مشرفين بشريين حول المسارات الآمنة مقابل تلك التي تسببت في اضطرابات. تعمل هذه التغذية الراجعة على تحسين سياسة تحكم الروبوت بشكل أكثر فعالية من مجرد التعلم التعزيزي العميق القائم فقط على إنجاز الهدف.
Link to this sectionRLHF مقابل التعلم التعزيزي القياسي#
من المفيد التمييز بين RLHF والتعلم التعزيزي (RL) التقليدي لفهم فائدته المحددة.
- التعلم التعزيزي القياسي: في البيئات التقليدية، غالبًا ما يتم ترميز دالة المكافأة برمجياً بواسطة البيئة. على سبيل المثال، في لعبة فيديو، توفر البيئة إشارة واضحة (+1 للفوز، -1 للخسارة). يقوم الوكيل بتحسين إجراءاته ضمن عملية قرار ماركوف (MDP) المحددة هذه.
- RLHF: في العديد من سيناريوهات العالم الحقيقي، مثل كتابة قصة إبداعية أو القيادة بتهذيب، يكون "النجاح" أمرًا ذاتيًا. يحل RLHF هذه المشكلة عن طريق استبدال المكافأة المرمزة برمجياً بنموذج مكافأة متعلم مشتق من التفضيلات البشرية. يتيح ذلك تحسين مفاهيم مجردة مثل "الجودة" أو "الملاءمة" التي يستحيل برمجتها بشكل صريح.
Link to this sectionدمج الإدراك مع حلقات التغذية الراجعة#
في التطبيقات المرئية، تعتمد الوكلاء الموائمة مع RLHF غالبًا على رؤية الكمبيوتر (CV) لإدراك حالة بيئتهم قبل التصرف. يعمل كاشف قوي، مثل YOLO26، كطبقة إدراك، مما يوفر ملاحظات منظمة (على سبيل المثال، "تم اكتشاف عائق على بعد 3 أمتار") تستخدمها شبكة السياسات لاختيار إجراء ما.
يوضح مثال Python التالي مفهومًا مبسطًا حيث يوفر نموذج YOLO حالة البيئة. في حلقة RLHF كاملة، ستأتي إشارة "المكافأة" من نموذج تم تدريبه على التغذية الراجعة البشرية فيما يتعلق بقرارات الوكيل بناءً على بيانات الكشف هذه.
from ultralytics import YOLO
# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")
# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")
# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)
print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.من خلال الجمع بين نماذج الإدراك القوية والسياسات التي تم تحسينها عبر التغذية الراجعة البشرية، يمكن للمطورين بناء أنظمة ليست ذكية فحسب، بل متوافقة أيضًا بدقة مع مبادئ أمان الذكاء الاصطناعي. يستمر البحث المستمر في الإشراف القابل للتطوير، مثل الذكاء الاصطناعي الدستوري، في تطوير هذا المجال، بهدف تقليل عنق الزجاجة المتمثل في التصنيف البشري واسع النطاق مع الحفاظ على أداء عالٍ للنموذج.






