اكتشف كيف يعمل التعلم بالتقوية من خلال الملاحظات البشرية (RLHF) على تحسين أداء الذكاء الاصطناعي من خلال مواءمة النماذج مع القيم الإنسانية للحصول على ذكاء اصطناعي أكثر أمانًا وذكاءً.
إن التعلم المعزز من التغذية الراجعة البشرية (RLHF) هو إطار عمل متطور في التعلم الآلي (ML) الذي يوائم أنظمة الذكاء الاصطناعي (AI) مع القيم والتفضيلات والنوايا البشرية. على عكس التعلّم التقليدي التعلم التقليدي الخاضع للإشراف، والذي يدرب النماذج على على تكرار مجموعات البيانات الثابتة، يقدم RLHF حلقة ديناميكية للتغذية الراجعة حيث يقوم المقيّمون البشريون بتصنيف مخرجات النموذج. تُستخدم بيانات تُستخدم بيانات التصنيف هذه لتدريب "نموذج المكافأة"، والذي يوجه الذكاء الاصطناعي لاحقًا لتوليد استجابات أكثر فائدة وآمنة ودقيقة. وقد أثبتت هذه التقنية أهميتها في تطوير النماذج اللغوية الحديثة نماذج اللغة الكبيرة الحديثة (LLMs) و والذكاء الاصطناعي التوليدي، مما يضمن أن القوية تعمل وفقًا لتوقعات المستخدم بدلاً من مجرد التنبؤ إحصائيًا بالكلمة أو البيكسل التالي.
عادةً ما تتبع عملية مواءمة نموذج ما عبر إطار عمل RLHF خطاً من ثلاث خطوات يسد الفجوة بين القدرة التنبؤية الخام والتفاعل البشري الدقيق.
في حين أن كلا النهجين يعتمدان على تعظيم المكافأة، إلا أن مصدر تلك المكافأة يميزهما بشكل كبير.
لقد أحدثت تقنية RLHF تحولاً في كيفية تفاعل أنظمة الذكاء الاصطناعي مع العالم، لا سيما في المجالات التي تتطلب معايير أمان عالية وفهم دقيق.
في التطبيقات المرئية، غالبًا ما يعتمد وكلاء RLHF على الرؤية الحاسوبية (CV) لإدراك حالة بيئتهم. كاشف قوي، مثل YOLO11يمكن أن أن يعمل بمثابة "عيون" للنظام، حيث يقدم ملاحظات منظمة (على سبيل المثال، "تم اكتشاف مشاة على على اليسار") التي تستخدمها شبكة السياسة لتحديد إجراء ما.
يوضح المثال التالي مفهومًا مبسطًا حيث يوفر نموذج YOLO الحالة البيئية لـ للوكيل. في حلقة كاملة من RLHF، سيتم تحديد "المكافأة" من خلال نموذج مدرب على التفضيلات البشرية فيما يتعلق بثقة الوكيل أو دقته.
from ultralytics import YOLO
# Load YOLO11 to act as the perception layer for an RL agent
model = YOLO("yolo11n.pt")
# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")
# In an RL loop, the agent's 'reward' might depend on detecting critical objects
# Here, we simulate a simple reward based on the confidence of detections
# In RLHF, this reward function would be a complex learned model
observed_reward = sum(box.conf.item() for box in results[0].boxes)
print(f"Agent Observation: Detected {len(results[0].boxes)} objects.")
print(f"Simulated Reward Signal: {observed_reward:.2f}")
من خلال الجمع بين النماذج الإدراكية القوية والسياسات المتوائمة عبر التغذية الراجعة البشرية، يمكن للمطورين بناء أنظمة لا تتسم بالذكاء فحسب، بل يمكن أيضاً التحقق بدقة من سلامة الذكاء الاصطناعي. البحث في الرقابة القابلة للتطوير، مثل الذكاء الاصطناعي الدستوري, تواصل تطوير هذا المجال، بهدف تقليل الاعتماد الكبير على الشرح البشري واسع النطاق.