مسرد المصطلحات

التعلم المعزز من التغذية الراجعة البشرية (RLHF)

اكتشف كيف يعمل التعلُّم المعزز من الملاحظات البشرية (RLHF) على تحسين أداء الذكاء الاصطناعي من خلال مواءمة النماذج مع القيم البشرية من أجل ذكاء اصطناعي أكثر أماناً وذكاءً.

التعلّم المعزز من التغذية الراجعة البشرية (RLHF) هو تقنية متقدمة للتعلّم الآلي مصممة لمواءمة نماذج الذكاء الاصطناعي مع القيم البشرية الذاتية المعقدة. وبدلاً من الاعتماد على دالة مكافأة محددة مسبقاً، تستخدم تقنية التعلُّم المعزز من التغذية الراجعة البشرية لتدريب "نموذج مكافأة" يوجه عملية تعلُّم الذكاء الاصطناعي. هذا النهج فعال بشكل خاص للمهام التي يكون فيها تعريف الأداء "الجيد" دقيقًا أو ذاتيًا أو يصعب تحديده بمقياس بسيط، مثل توليد حوار آمن ومفيد ومتماسك.

كيف تعمل مؤسسة RLHF؟

وعادةً ما تتضمن عملية التحويلات المالية إلى مصادر الطاقة المتجددة ثلاث خطوات رئيسية:

  1. التدريب المسبق لنموذج اللغة: يبدأ بنموذج لغوي أساسي كبير (LLM) تم تدريبه مسبقًا على مجموعة كبيرة من البيانات النصية. هذا النموذج الأولي، المشابه للنموذج التأسيسي، لديه فهم واسع للغة ولكنه غير متخصص بعد لأسلوب أو مهمة محددة. يمكن أن يتبع هذه الخطوة اختياريًا ضبط دقيق تحت الإشراف على مجموعة بيانات عالية الجودة.
  2. تدريب نموذج المكافأة: هذا هو جوهر RLHF. يتم تقديم العديد من النواتج التي تم إنشاؤها بواسطة نموذج مُدرَّب مسبقًا استجابةً لمطلب ما. ويقومون بترتيب هذه المخرجات من الأفضل إلى الأسوأ بناءً على معايير مثل الفائدة والصدق والأمان. ثم تُستخدم بيانات التفضيل هذه لتدريب نموذج مكافأة منفصل. يتعلم نموذج المكافأة التنبؤ بالمخرجات التي يفضلها الإنسان، مما يجسد الحكم البشري بشكل فعال.
  3. الضبط الدقيق باستخدام التعلّم المعزز: يتم ضبط النموذج المدرب مسبقًا بشكل أكبر باستخدام التعلم المعزز (RL). في هذه المرحلة، يولد النموذج (الذي يعمل كوكيل) مخرجات، ويوفر نموذج المكافأة درجة "مكافأة" لكل مخرج. هذه العملية، التي غالبًا ما تتم إدارتها باستخدام خوارزميات مثل التحسين الأمثل للسياسة التقريبية (PPO)، تشجع نموذج الذكاء الاصطناعي على ضبط معلماته لتوليد استجابات تزيد من المكافأة، وبالتالي مواءمة سلوكه مع التفضيلات البشرية المكتسبة. وقد أثبت العمل الرائد الذي قامت به مؤسسات مثل OpenAI وDebMind فعاليته.

التطبيقات الواقعية

كان لـ RLHF دور فعال في تطوير أنظمة الذكاء الاصطناعي الحديثة.

  • روبوتات الدردشة الآلية المتقدمة: تستخدم روبوتات الدردشة الآلية الرائدة في مجال الذكاء الاصطناعي مثل روبوتات الدردشة التفاعلية (ChatGPT) من OpenAI وClaude من Anthropic، وذلك لضمان أن ردودها ليست دقيقة فحسب، بل غير ضارة وأخلاقية ومتوافقة مع نية المستخدم. يساعد ذلك في التخفيف من مشاكل مثل توليد محتوى متحيز أو سام، وهو تحدٍ شائع في الذكاء الاصطناعي التوليدي واسع النطاق.
  • تفضيلات القيادة الذاتية: عند تطوير الذكاء الاصطناعي للسيارات ذاتية القيادة، يمكن أن يدمج الذكاء الاصطناعي في السيارات ذاتية القيادة التغذية الراجعة من السائقين حول سلوكيات المحاكاة، مثل الراحة أثناء تغيير المسار أو اتخاذ القرار في المواقف الغامضة. وهذا يساعد الذكاء الاصطناعي على تعلم أنماط القيادة التي تبدو بديهية وجديرة بالثقة بالنسبة للبشر، مما يكمل مهام الرؤية الحاسوبية التقليدية مثل اكتشاف الأجسام التي تقوم بها نماذج مثل Ultralytics YOLO.

الترددات الراديوية مقابل المفاهيم ذات الصلة

من المهم التفريق بين RLHF وتقنيات تعلم الذكاء الاصطناعي الأخرى.

  • التعلم المعزز: يتطلب التعلم المعزز القياسي من المطورين هندسة دالة المكافأة يدويًا لتحديد السلوك المطلوب. وهذا أمر بسيط بالنسبة للألعاب ذات النتائج الواضحة ولكنه صعب بالنسبة للمهام المعقدة في العالم الحقيقي. يحل RLHF هذه المشكلة من خلال تعلم دالة المكافأة من التغذية الراجعة البشرية، مما يجعلها مناسبة للمشاكل التي لا تحتوي على مقياس واضح للنجاح.
  • التعلّم الخاضع للإشراف: يقوم التعلّم الخاضع للإشراف بتدريب النماذج على مجموعات بيانات ذات إجابات "صحيحة" واحدة. هذا النهج أقل فعالية في المهام الإبداعية أو الذاتية حيث توجد إجابات جيدة متعددة. يسمح استخدام RLHF لتصنيفات التفضيل (على سبيل المثال، "أ أفضل من ب") بتجاوز الغموض وتعلم السلوكيات الدقيقة.

التحديات والتوجهات المستقبلية

على الرغم من قوتها، تواجه تقنية RLHF تحديات. فجمع التغذية الراجعة البشرية عالية الجودة أمر مكلف ويمكن أن يؤدي إلى تحيز مجموعة البيانات إذا لم يكن واضعو العلامات متنوعين. وبالإضافة إلى ذلك، قد يكتشف الذكاء الاصطناعي طرقاً "للتلاعب" بنموذج المكافأة، وهي ظاهرة تُعرف باسم اختراق المكافآت.

تعمل الأبحاث المستقبلية على استكشاف طرق وبدائل أكثر كفاءة للتغذية الراجعة مثل الذكاء الاصطناعي الدستوري، الذي يستخدم مبادئ مولدة من الذكاء الاصطناعي لتوجيه النموذج. يتطلب تطبيق RLHF خبرة في مجالات متعددة للتعلم الآلي، ولكن أدوات مثل مكتبة TRL الخاصة بـ Hugging Face تجعلها أكثر سهولة. وتوفر منصات مثل Ultralytics HUB بنية تحتية لإدارة مجموعات البيانات ونماذج التدريب، والتي تعتبر أساسية لمهام المواءمة المتقدمة وعمليات التعلم الآلي القوية.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون ونمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة