Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

التعلم بالتعزيز من خلال التغذية الراجعة البشرية (RLHF)

اكتشف كيف يعمل التعلم بالتقوية من خلال الملاحظات البشرية (RLHF) على تحسين أداء الذكاء الاصطناعي من خلال مواءمة النماذج مع القيم الإنسانية للحصول على ذكاء اصطناعي أكثر أمانًا وذكاءً.

إن التعلم المعزز من التغذية الراجعة البشرية (RLHF) هو إطار عمل متطور في التعلم الآلي (ML) الذي يوائم أنظمة الذكاء الاصطناعي (AI) مع القيم والتفضيلات والنوايا البشرية. على عكس التعلّم التقليدي التعلم التقليدي الخاضع للإشراف، والذي يدرب النماذج على على تكرار مجموعات البيانات الثابتة، يقدم RLHF حلقة ديناميكية للتغذية الراجعة حيث يقوم المقيّمون البشريون بتصنيف مخرجات النموذج. تُستخدم بيانات تُستخدم بيانات التصنيف هذه لتدريب "نموذج المكافأة"، والذي يوجه الذكاء الاصطناعي لاحقًا لتوليد استجابات أكثر فائدة وآمنة ودقيقة. وقد أثبتت هذه التقنية أهميتها في تطوير النماذج اللغوية الحديثة نماذج اللغة الكبيرة الحديثة (LLMs) و والذكاء الاصطناعي التوليدي، مما يضمن أن القوية تعمل وفقًا لتوقعات المستخدم بدلاً من مجرد التنبؤ إحصائيًا بالكلمة أو البيكسل التالي.

سير عمل مؤسسة RLHF

عادةً ما تتبع عملية مواءمة نموذج ما عبر إطار عمل RLHF خطاً من ثلاث خطوات يسد الفجوة بين القدرة التنبؤية الخام والتفاعل البشري الدقيق.

  1. الضبط الدقيق الخاضع للإشراف (SFT): تبدأ العملية عادةً بنموذج أساسي مُدرَّب مسبقًا مُدرَّب مسبقًا. يستخدم المطورون الضبط الدقيق على مجموعة بيانات أصغر وعالية الجودة من من الأمثلة المنسقة (مثل الحوارات أو العروض التوضيحية) لتعليم النموذج الشكل الأساسي للمهمة المطلوبة.
  2. التدريب على نموذج المكافأة: هذا هو جوهر RLHF. يراجع الشارحون البشريون مخرجات متعددة تم إنشاؤها بواسطة النموذج لنفس المدخلات وترتيبها من الأفضل إلى الأسوأ. تُنشئ عملية عملية تصنيف البيانات هذه تنشئ مجموعة بيانات من التفضيلات. شبكة عصبية منفصلة، تُعرف بنموذج المكافأة، يتم تدريبها على بيانات المقارنة هذه للتنبؤ بدرجة مكافأة قياسية تحاكي الحكم البشري.
  3. تحسين التعلّم المعزز: يصبح النموذج الأصلي بشكل فعال عامل ذكاء اصطناعي ضمن بيئة التعلم المعزز. باستخدام نموذج المكافأة كدليل، فإن خوارزميات مثل سياسة التحسين الأمثل للسياسة التقريبية (PPO) ضبط معلمات الوكيل لتعظيم المكافأة المتوقعة. تعمل هذه الخطوة على تغيير سياسة النموذج بشكل أساسي من أجل لصالح الإجراءات - مثل الرفض المهذب للاستفسارات الضارة - التي تتماشى مع التفضيلات البشرية المكتسبة.

التعلُّم المعزز القياسي مقابل التعلُّم المعزز القياسي

في حين أن كلا النهجين يعتمدان على تعظيم المكافأة، إلا أن مصدر تلك المكافأة يميزهما بشكل كبير.

  • التعلم المعزز القياسي (RL): في التعلّم المعزز التقليدي، غالباً ما تكون دالة المكافأة مشفرة أو أو محددة رياضياً من قبل البيئة. على سبيل المثال، في لعبة الشطرنج، توفر البيئة إشارة واضحة إشارة واضحة: +1 للفوز و1-1 للخسارة. يتعلم العميل من خلال التجربة والخطأ ضمن هذه الإشارة المحددة عملية قرار ماركوف المحددة (MDP).
  • RLHF: في العديد من المهام الواقعية، مثل كتابة ملخص أو قيادة السيارة بأدب، من المستحيل تحديد ل "النجاح" من المستحيل تحديدها بشكل صريح. يحل RLHF هذه المشكلة عن طريق استبدال المكافأة المشفرة بنموذج مكافأة مكتسب مستمد من التغذية الراجعة البشرية. وهذا يسمح بتحسين المفاهيم المجردة مثل "المساعدة" أو "الأمان" التي يصعب برمجتها مباشرة.

تطبيقات واقعية

لقد أحدثت تقنية RLHF تحولاً في كيفية تفاعل أنظمة الذكاء الاصطناعي مع العالم، لا سيما في المجالات التي تتطلب معايير أمان عالية وفهم دقيق.

  • الذكاء الاصطناعي التحادثي وروبوتات المحادثة: يتمثل الاستخدام الأبرز للذكاء الاصطناعي للمحادثة في مواءمة روبوتات الدردشة لتكون مفيدة وغير ضارة. من خلال معاقبة المخرجات السامة أو المتحيزة أو غير الصحيحة واقعياً، يساعد RLHF على التخفيف من من الهلوسة في الروبوتات ذات المستوى المنخفض ويقلل من التحيز الخوارزمي. ويضمن أن المساعدين يمكنهم رفض التعليمات الخطيرة بينما تظل مفيدة للاستعلامات المشروعة.
  • الروبوتات والوكلاء المستقلون: ما وراء النص، يتم تطبيق RLHF في الروبوتات لتعليم الوكلاء مهام فيزيائية معقدة. على سبيل المثال على سبيل المثال، قد تتلقى ذراع الروبوت التي تتعلم الإمساك بالأشياء الهشة تغذية راجعة من المشرفين البشريين حول أي من محاولات الإمساك الآمنة مقابل الإخفاقات المميزة. تعمل هذه التغذية الراجعة على تحسين سياسة التحكم بفعالية أكبر من مجرد التعلم المعزز البسيط القائم على فقط على إكمال المهمة. تساعد أساليب مماثلة المركبات ذاتية القيادة في تعلم القيادة السلوكيات التي تبدو طبيعية للركاب من البشر.

دمج الإدراك الحسي مع RLHF

في التطبيقات المرئية، غالبًا ما يعتمد وكلاء RLHF على الرؤية الحاسوبية (CV) لإدراك حالة بيئتهم. كاشف قوي، مثل YOLO11يمكن أن أن يعمل بمثابة "عيون" للنظام، حيث يقدم ملاحظات منظمة (على سبيل المثال، "تم اكتشاف مشاة على على اليسار") التي تستخدمها شبكة السياسة لتحديد إجراء ما.

يوضح المثال التالي مفهومًا مبسطًا حيث يوفر نموذج YOLO الحالة البيئية لـ للوكيل. في حلقة كاملة من RLHF، سيتم تحديد "المكافأة" من خلال نموذج مدرب على التفضيلات البشرية فيما يتعلق بثقة الوكيل أو دقته.

from ultralytics import YOLO

# Load YOLO11 to act as the perception layer for an RL agent
model = YOLO("yolo11n.pt")

# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")

# In an RL loop, the agent's 'reward' might depend on detecting critical objects
# Here, we simulate a simple reward based on the confidence of detections
# In RLHF, this reward function would be a complex learned model
observed_reward = sum(box.conf.item() for box in results[0].boxes)

print(f"Agent Observation: Detected {len(results[0].boxes)} objects.")
print(f"Simulated Reward Signal: {observed_reward:.2f}")

من خلال الجمع بين النماذج الإدراكية القوية والسياسات المتوائمة عبر التغذية الراجعة البشرية، يمكن للمطورين بناء أنظمة لا تتسم بالذكاء فحسب، بل يمكن أيضاً التحقق بدقة من سلامة الذكاء الاصطناعي. البحث في الرقابة القابلة للتطوير، مثل الذكاء الاصطناعي الدستوري, تواصل تطوير هذا المجال، بهدف تقليل الاعتماد الكبير على الشرح البشري واسع النطاق.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن