مسرد المصطلحات

التعلم المعزز من التغذية الراجعة البشرية (RLHF)

اكتشف كيف يعمل التعلُّم المعزز من الملاحظات البشرية (RLHF) على تحسين أداء الذكاء الاصطناعي من خلال مواءمة النماذج مع القيم البشرية من أجل ذكاء اصطناعي أكثر أماناً وذكاءً.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

التعلّم المعزز من التغذية الراجعة البشرية (RLHF) هو أسلوب متقدم للتعلّم الآلي (ML) مصمم لمواءمة نماذج الذكاء الاصطناعي، وخاصةً النماذج اللغوية الكبيرة (LLMs) والأنظمة التوليدية الأخرى، بشكل أوثق مع النوايا والتفضيلات البشرية. تعمل هذه التقنية على تحسين نموذج التعلّم المعزز (RL) القياسي من خلال دمج التغذية الراجعة البشرية مباشرةً في حلقة التدريب، وتوجيه الذكاء الاصطناعي لتعلم السلوكيات المفيدة وغير الضارة والصادقة، حتى عندما يصعب تحديد هذه الصفات من خلال وظائف المكافأة التقليدية. هذا النهج مهم للغاية لتطوير أنظمة ذكاء اصطناعي أكثر أماناً وفائدة، وتجاوز مقاييس الدقة البسيطة نحو أداء دقيق يتماشى مع القيم الإنسانية.

كيف تعمل مؤسسة RLHF

وعادةً ما ينطوي نموذج المكافأة على عملية متعددة الخطوات تدمج الحكم البشري لتدريب نموذج المكافأة، والذي يقوم بعد ذلك بتوجيه الضبط الدقيق لنموذج الذكاء الاصطناعي الأساسي:

  1. التدريب المسبق للنموذج: يتم تدريب نموذج أولي (على سبيل المثال، نموذج LLM) باستخدام أساليب قياسية، غالبًا ما تكون تحت الإشراف، على مجموعة بيانات كبيرة. يمكن لهذا النموذج توليد محتوى ذي صلة ولكن قد يفتقر إلى محاذاة محددة.
  2. جمع الملاحظات البشرية: يُنشئ النموذج المُدرَّب مسبقًا مخرجات متعددة لمختلف المطالبات. يقوم المقيّمون البشريون بترتيب هذه المخرجات بناءً على الجودة أو الفائدة أو عدم الضرر أو غيرها من المعايير المطلوبة. وغالباً ما تكون هذه الملاحظات المقارنة أكثر موثوقية وأسهل على البشر من الدرجات المطلقة. تشكل هذه البيانات مجموعة بيانات تفضيلية.
  3. تدريب نموذج المكافأة: يتم تدريب نموذج منفصل، يُعرف باسم نموذج المكافأة، على بيانات التفضيل البشري. ويتمثل هدفه في التنبؤ بالمخرجات التي يفضلها الإنسان، ويتعلم بشكل أساسي محاكاة الحكم البشري وتعيين إشارة مكافأة قياسية.
  4. الضبط الدقيق باستخدام التعلّم المعزز: ثم يتم بعد ذلك ضبط نموذج الذكاء الاصطناعي الأصلي باستخدام التعلم المعزز (على وجه التحديد، خوارزميات مثل تحسين السياسة التقريبية (PPO)). يوفر نموذج المكافأة إشارة المكافأة خلال هذه المرحلة. يستكشف نموذج الذكاء الاصطناعي مخرجات مختلفة، ويتم تعزيز المخرجات التي يفضلها نموذج المكافأة، وتوجيه سلوك النموذج نحو التفضيلات البشرية. يتم تفصيل المفاهيم التأسيسية لـ RL في مصادر مثل مقدمة ساتون وبارتو.

تساعد هذه الدورة التكرارية نموذج الذكاء الاصطناعي على تعلم الأهداف المعقدة والذاتية التي يصعب تحديدها برمجياً، مما يعزز جوانب مثل أخلاقيات الذكاء الاصطناعي ويقلل من التحيز الخوارزمي.

الترددات الراديوية مقابل المفاهيم ذات الصلة

  • التعلم المعزز القياسي (RL): يعتمد التعلّم المعزز التقليدي على وظائف المكافأة المبرمجة بشكل صريح بناءً على الحالات والإجراءات البيئية. يستبدل أو يكمل ذلك بنموذج مكافأة مكتسب يعتمد على التفضيلات البشرية، مما يسمح له بالتقاط أهداف أكثر دقة أو ذاتية. استكشف التعلُّم المعزز العميق لمزيد من تقنيات التعلُّم المعزز المتقدمة.
  • الذكاء الاصطناعي الدستوري (CAI): تم تطويره بواسطة AnthropicCAI هي تقنية محاذاة بديلة. في حين يستخدم RLHF التغذية الراجعة البشرية لتدريب نموذج المكافأة على كل من المساعدة وعدم الضرر، يستخدم الذكاء الاصطناعي الدستوري (CAI) التغذية الراجعة للذكاء الاصطناعي مسترشدًا ب "دستور" محدد مسبقًا (مجموعة من القواعد أو المبادئ) للإشراف على النموذج من أجل عدم الضرر، وغالبًا ما يستمر استخدام التغذية الراجعة البشرية للمساعدة. اقرأ المزيد عن الذكاء الاصطناعي للذكاء الاصطناعي في بحثAnthropic.

التطبيقات الرئيسية للترددات الراديوية ذات الترددات العالية

وقد ازدادت أهمية التعلّم عن بُعد في التطبيقات التي يحتاج فيها سلوك الذكاء الاصطناعي إلى التوافق بشكل وثيق مع القيم والتوقعات البشرية:

  • تحسين روبوتات المحادثة والمساعدين الافتراضيين: جعل الذكاء الاصطناعي التخاطبي أكثر جاذبية وفائدة وأقل عرضة لتوليد استجابات ضارة أو متحيزة أو غير منطقية. يتضمن ذلك ضبط النماذج مثل GPT-4.
  • توليد المحتوى: تنقيح النماذج لمهام مثل تلخيص النصوص أو توليد النصوص لإنتاج مخرجات تتطابق بشكل أفضل مع الأنماط أو معايير الجودة المطلوبة.
  • تخصيص أنظمة التوصيات: ضبط محركات التوصيات لاقتراح المحتوى الذي يجده المستخدمون مثيرًا للاهتمام أو مفيدًا حقًا، بما يتجاوز معدلات النقر البسيطة.
  • تطوير مركبات ذاتية القيادة أكثر أماناً: دمج التفضيلات البشرية حول أسلوب القيادة (على سبيل المثال، السلاسة والحزم) إلى جانب قواعد السلامة.

أمثلة من العالم الحقيقي

محاذاة روبوت المحادثة

شركات مثل OpenAI و Anthropic تستخدم RLHF على نطاق واسع لتدريب نماذجها اللغوية الكبيرة (مثل ChatGPT، كلود). ومن خلال جعل البشر يصنفون الاستجابات المختلفة التي يولدها الذكاء الاصطناعي بناءً على مدى فائدتها وعدم ضررها، فإنهم يدربون نماذج المكافآت التي توجه نماذج المكافآت لإنتاج نصوص أكثر أماناً وأخلاقية وفائدة. وهذا يساعد على التخفيف من المخاطر المرتبطة بالمخرجات الضارة أو المتحيزة ويلتزم بمبادئ تطوير الذكاء الاصطناعي المسؤول.

تفضيلات القيادة الذاتية

عند تطوير الذكاء الاصطناعي للسيارات ذاتية القيادة، يمكن أن يدمج الذكاء الاصطناعي للسيارات ذاتية القيادة التغذية الراجعة من السائقين أو الركاب حول سلوكيات القيادة المحاكاة (على سبيل المثال، الراحة أثناء تغيير المسار، وسلاسة التسارع، واتخاذ القرارات في المواقف الغامضة). يساعد ذلك الذكاء الاصطناعي على تعلم أساليب القيادة الآمنة ليس فقط وفقاً لمقاييس موضوعية مثل المسافة أو حدود السرعة، بل أيضاً تشعر بالراحة والسهولة بالنسبة للبشر، مما يعزز ثقة المستخدم وقبوله. وهذا يكمل مهام الرؤية الحاسوبية التقليدية مثل اكتشاف الأجسام التي تقوم بها نماذج مثل Ultralytics YOLO.

مزايا مؤسسة RLHF

  • تحسين المواءمة: يدمج التفضيلات البشرية بشكل مباشر، مما يؤدي إلى أنظمة ذكاء اصطناعي تتوافق بشكل أفضل مع نوايا المستخدم وقيمه.
  • التعامل مع الذاتية: فعالة للمهام التي تكون فيها الجودة ذاتية ويصعب تحديدها بمقياس بسيط (على سبيل المثال، الإبداع، والتهذيب، والسلامة).
  • تعزيز السلامة: يساعد على تقليل احتمالية توليد الذكاء الاصطناعي لمحتوى ضار أو غير أخلاقي أو متحيز من خلال التعلم من الأحكام البشرية حول المخرجات غير المرغوب فيها.
  • قابلية التكيف: تسمح بضبط النماذج بشكل دقيق لمجالات أو مجموعات مستخدمين محددة بناءً على الملاحظات المستهدفة.

التحديات والتوجهات المستقبلية

على الرغم من نقاط قوتها، تواجه المؤسسة تحديات:

  • قابلية التوسع والتكلفة: قد يكون جمع الملاحظات البشرية عالية الجودة مكلفاً ويستغرق وقتاً طويلاً.
  • جودة التغذية الراجعة والتحيز: يمكن أن تكون التفضيلات البشرية غير متسقة أو متحيزة أو تفتقر إلى الخبرة، مما قد يؤدي إلى تحيز مجموعة البيانات في نموذج المكافأة. يعد ضمان التغذية الراجعة المتنوعة والتمثيلية أمرًا بالغ الأهمية.
  • اختراق المكافأة: قد يجد الذكاء الاصطناعي طرقًا لتعظيم المكافأة التي تنبأ بها نموذج المكافأة دون تحقيق التفضيل البشري المقصود (المعروف باسم اختراق المكافأة أو التلاعب بالمواصفات).
  • التعقيد: يتطلب تنفيذ خط أنابيب RLHF الكامل خبرةً في مجالات متعددة من التعلم الآلي، بما في ذلك التعلم تحت الإشراف، والتعلم المعزز، وإدارة تدريب النماذج على نطاق واسع.

تركز الأبحاث المستقبلية على طرق تغذية راجعة أكثر كفاءة (على سبيل المثال، استخدام مساعدة الذكاء الاصطناعي في وضع العلامات)، والتخفيف من التحيز، وتحسين متانة نماذج المكافآت، وتطبيق RLHF على مجموعة أوسع من مهام الذكاء الاصطناعي. تعمل أدوات مثل مكتبة TRL TRL الخاصة بـHugging Face على تسهيل تطبيق RLHF. توفر المنصات مثل Ultralytics HUB بنية تحتية لإدارة مجموعات البيانات ونماذج التدريب، والتي يمكن أن تدمج آليات التغذية الراجعة البشرية في المستقبل لمهام المواءمة المتخصصة في مجالات مثل الرؤية الحاسوبية. لمزيد من التفاصيل حول بدء استخدام مثل هذه المنصات، راجع دليلUltralytics HUB Quickstart. تتزايد أهمية فهم RLHF لعمليات التعلم الآلي الفعالة وضمان الشفافية في الذكاء الاصطناعي.

قراءة الكل