Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

التعلم بالتعزيز من خلال التغذية الراجعة البشرية (RLHF)

اكتشف كيف يعمل التعلم بالتقوية من خلال الملاحظات البشرية (RLHF) على تحسين أداء الذكاء الاصطناعي من خلال مواءمة النماذج مع القيم الإنسانية للحصول على ذكاء اصطناعي أكثر أمانًا وذكاءً.

Reinforcement Learning from Human Feedback (RLHF) is an advanced machine learning technique that refines artificial intelligence models by incorporating direct human input into the training loop. Unlike standard supervised learning, which relies solely on static labeled datasets, RLHF introduces a dynamic feedback mechanism where human evaluators rank or rate the model's outputs. This process allows the AI to capture complex, subjective, or nuanced goals—such as "helpfulness," "safety," or "creativity"—that are difficult to define with a simple mathematical loss function. RLHF has become a cornerstone in the development of modern large language models (LLMs) and generative AI, ensuring that powerful foundation models align effectively with human values and user intent.

المكونات الأساسية لـ RLHF

تتبع عملية RLHF عمومًا خطوات ثلاثية مصممة لسد الفجوة بين القدرات التنبؤية الأولية والسلوك المتوافق مع البشر.

  1. الضبط الدقيق تحت الإشراف (SFT): يبدأ سير العمل عادةً بنموذج أساسي مدرب مسبقًا. يقوم المطورون بإجراء الضبط الدقيق الأولي باستخدام مجموعة بيانات أصغر حجمًا وعالية الجودة من الأمثلة (مثل أزواج الأسئلة والأجوبة المكتوبة من قبل الخبراء). تحدد هذه الخطوة سياسة أساسية، وتعلم النموذج الشكل العام والنبرة المتوقعة للمهمة.
  2. Reward Model Training: This phase is the distinguishing feature of RLHF. Human annotators review multiple outputs generated by the model for the same input and rank them from best to worst. This data labeling effort generates a dataset of preferences. A separate neural network, called the reward model, is trained on this comparison data to predict a scalar score that reflects human judgment. Tools available on the Ultralytics Platform can streamline the management of such annotation workflows.
  3. Reinforcement Learning Optimization: Finally, the original model acts as an AI agent within a reinforcement learning environment. Using the reward model as a guide, optimization algorithms like Proximal Policy Optimization (PPO) adjust the model's parameters to maximize the expected reward. This step aligns the model's policy with the learned human preferences, encouraging behaviors that are helpful and safe while discouraging toxic or nonsensical outputs.

تطبيقات واقعية

RLHF has proven critical in deploying AI systems that require high safety standards and a nuanced understanding of human interaction.

  • الذكاء الاصطناعي التخاطبي وبرامج الدردشة الآلية: يتمثل التطبيق الأبرز لـ RLHF في مواءمة برامج الدردشة الآلية بحيث تكون مفيدة وغير ضارة وصادقة. من خلال معاقبة المخرجات المتحيزة أو غير الصحيحة من الناحية الواقعية أو الخطرة، يساعد RLHF في التخفيف من الهلوسة في LLMs ويقلل من خطر التحيز الخوارزمي. وهذا يضمن أن المساعدين الافتراضيين يمكنهم رفض التعليمات الضارة مع الحفاظ على فائدتهم في الاستفسارات المشروعة.
  • الروبوتات والتحكم المادي: يتجاوز RLHF النص إلى الذكاء الاصطناعي في الروبوتات، حيث يمثل تحديد وظيفة المكافأة المثالية للمهام المادية المعقدة تحديًا. على سبيل المثال، قد يتلقى الروبوت الذي يتعلم التنقل في مستودع مزدحم تعليقات من المشرفين البشريين حول المسارات الآمنة مقابل تلك التي تسببت في اضطرابات. تعمل هذه التعليقات على تحسين سياسة التحكم في الروبوت بشكل أكثر فعالية من التعلم العميق المعزز البسيط الذي يعتمد فقط على إكمال الهدف.

التعلُّم المعزز القياسي مقابل التعلُّم المعزز القياسي

من المفيد التمييز بين RLHF والتعلم التقليدي التعزيز (RL) لفهم فائدته المحددة.

  • RL القياسي: في البيئات التقليدية، غالبًا ما تكون وظيفة المكافأة مبرمجة بشكل ثابت من قبل البيئة. على سبيل المثال، في لعبة فيديو، توفر البيئة إشارة واضحة (+1 للفوز، -1 للخسارة). يقوم الوكيل بتحسين إجراءاته ضمن عملية اتخاذ القرار المحددة هذه (MDP).
  • RLHF: في العديد من السيناريوهات الواقعية، مثل كتابة قصة إبداعية أو القيادة بلطف، يكون "النجاح" أمرًا ذاتيًا. يحل RLHF هذه المشكلة عن طريق استبدال المكافأة المبرمجة بنموذج مكافأة مستمد من تفضيلات البشر. وهذا يسمح بتحسين المفاهيم المجردة مثل "الجودة" أو "الملاءمة" التي يستحيل برمجتها بشكل صريح.

دمج الإدراك مع حلقات التغذية الراجعة

في التطبيقات المرئية، غالبًا ما تعتمد الوكالات المتوافقة مع RLHF على الرؤية الحاسوبية (CV) لإدراك حالة بيئتها قبل التصرف. يعمل كاشف قوي، مثل YOLO26، كطبقة إدراك، ويوفر ملاحظات منظمة (على سبيل المثال، "تم الكشف عن عائق على بعد 3 أمتار") تستخدمها شبكة السياسات لاختيار إجراء.

The following Python example illustrates a simplified concept where a YOLO model provides the environmental state. In a full RLHF loop, the "reward" signal would come from a model trained on human feedback regarding the agent's decisions based on this detection data.

from ultralytics import YOLO

# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")

# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")

# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)

print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.

من خلال الجمع بين نماذج الإدراك القوية والسياسات المُحسّنة بفضل تعليقات البشر، يمكن للمطورين بناء أنظمة ليست ذكية فحسب، بل تتوافق أيضًا بشكل صارم مع مبادئ سلامة الذكاء الاصطناعي. وتواصل الأبحاث الجارية في مجال الرقابة القابلة للتطوير ، مثل الذكاء الاصطناعي الدستوري، تطوير هذا المجال، بهدف تقليل الاختناقات الناتجة عن التعليقات البشرية واسعة النطاق مع الحفاظ على أداء عالٍ للنماذج.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن