التعلم بالتقوية
اكتشف التعلم بالتقوية، حيث تقوم الوكلاء بتحسين الإجراءات من خلال التجربة والخطأ لتعظيم المكافآت. استكشف المفاهيم والتطبيقات والفوائد!
التعلُّم المعزز (RL) هو مجموعة فرعية ديناميكية من
التعلم الآلي (ML) الذي يركز على تعليم
وكيل ذكاء اصطناعي مستقل كيفية اتخاذ القرارات المثلى من خلال
التجربة والخطأ. وعلى عكس نماذج التعلم الأخرى التي تعتمد على مجموعات البيانات الثابتة، فإن التعلم المعزز يتضمن وكيلًا يتفاعل مع
بيئة ديناميكية لتحقيق هدف محدد. يتلقى العميل تغذية راجعة على شكل مكافآت أو عقوبات على أساس
على أفعاله، مما يؤدي إلى تحسين استراتيجيته تدريجيًا لتعظيم المكافأة التراكمية مع مرور الوقت. تعكس هذه العملية مفهوم
مفهوم
التكييف الفعال في علم النفس السلوكي، حيث يتم تعزيز السلوكيات من خلال العواقب.
المفاهيم والميكانيكيات الأساسية
غالبًا ما يوصف إطار التعلم المعزز رياضيًا على أنه
عملية قرار ماركوف (MDP). لفهم
لفهم كيفية عمل هذه الحلقة، من المفيد تحليل المكونات الأساسية المتضمنة في حلقة التعلم:
-
وكيل الذكاء الاصطناعي: المتعلم أو صانع القرار
الذي يدرك البيئة وينفذ الإجراءات.
-
البيئة: العالم المادي أو الافتراضي الذي يعمل فيه الوكيل. في سياق
الذكاء الاصطناعي في ألعاب الفيديو
هذا هو عالم اللعبة؛ في الروبوتات، هو الفضاء المادي.
-
الحالة: لقطة للوضع الحالي مقدمة للوكيل. يتضمن هذا غالبًا مدخلات حسية
مثل البيانات من
أنظمة الرؤية الحاسوبية (CV).
-
الإجراء: الحركة أو القرار المحدد الذي يتخذه الوكيل. مجموعة جميع الحركات الممكنة تسمى
مساحة الحركة.
-
المكافأة: إشارة رقمية يتم تلقيها من البيئة بعد اتخاذ إجراء ما. المكافآت الإيجابية
تشجع السلوك، بينما المكافآت السلبية (العقوبات) تثبط السلوك.
-
السياسة: الاستراتيجية أو مجموعة القواعد التي يستخدمها الوكيل لتحديد الإجراء التالي بناءً على
الحالة الحالية.
التطبيقات الواقعية للتعلم المعزز في العالم الحقيقي
لقد تجاوزت تقنية RL حدود البحث النظري وهي الآن تعمل على تشغيل أنظمة معقدة وواقعية في مختلف الصناعات.
-
الذكاء الاصطناعي في الروبوتات: في التصنيع
والخدمات اللوجستية، تستخدم الروبوتات الذكاء الاصطناعي في التصنيع والخدمات اللوجستية، حيث تستخدم الروبوتات الذكاء الاصطناعي لتعلم مهام التلاعب المعقدة، مثل الإمساك بالأشياء ذات الأشكال المختلفة.
وبدلاً من الترميز الثابت لكل حركة، يتعلم الروبوت ضبط قبضته بناءً على التغذية الراجعة المادية، مما يؤدي إلى
تحسين الكفاءة بشكل كبير في
بيئات التصنيع الذكية.
-
السيارات ذاتية القيادة:
تستخدم السيارات ذاتية القيادة تقنية RL لاتخاذ قرارات القيادة عالية المستوى. بينما تقوم
تحدد نماذج اكتشاف الأجسام المشاة و
والإشارات، تساعد خوارزميات RL في تحديد المناورات الأكثر أماناً وفعالية، مثل وقت الاندماج في حركة المرور أو
أو كيفية التنقل في تقاطع مزدحم.
-
التحكم في حركة المرور: يستخدم مخططو المدن تقنية RL لتحسين توقيت إشارات المرور. من خلال التعامل مع حركة المرور
التدفق المروري كدالة مكافأة، يمكن للأنظمة أن تتكيف ديناميكيًا لتقليل الازدحام، وهو عنصر أساسي من عناصر
الذكاء الاصطناعي في إدارة حركة المرور.
التعلم المعزز مقابل المصطلحات ذات الصلة
من المهم التمييز بين منهجية التعلُّم الآلي عن مناهج التعلُّم الآلي الأخرى، حيث تختلف منهجيات التدريب الخاصة بها
بشكل كبير.
-
التعلّم تحت الإشراف: تعتمد هذه الطريقة
تعتمد هذه الطريقة على مجموعة بيانات تدريبية تحتوي على
مدخلات مقترنة بمخرجات صحيحة (تسميات). يتعلم النموذج من خلال تقليل الخطأ بين تنبؤاته و
التسمية المعروفة. على النقيض من ذلك، لا يملك RL إمكانية الوصول إلى الإجابات "الصحيحة" مسبقًا؛ يجب أن يكتشفها
من خلال التفاعل.
-
التعلّم غير الخاضع للإشراف:
يتضمن ذلك العثور على أنماط أو تراكيب مخفية في البيانات غير الموسومة، مثل تجميع العملاء عبر
التجميع بالوسائل k-means. يختلف التعلّم غير الخاضع للإشراف لأن
هدفه هو تعظيم إشارة المكافأة، وليس مجرد تحليل توزيع البيانات.
-
التعلم المعزز العميق (DRL):
بينما يحدد التعلم المعزز نموذج التعلم، فإن التعلم المعزز العميق (DRL) يجمعه مع
التعلم العميق. في DRL,
تُستخدم الشبكات العصبية لتقريب
السياسة أو دالة القيمة، مما يمكّن العامل من التعامل مع المدخلات عالية الأبعاد مثل بيكسلات الصور الخام.
تكامل الرؤية الحاسوبية مع RL
في العديد من التطبيقات، تكون "الحالة" التي يراقبها الوكيل مرئية. نماذج الرؤية عالية الأداء مثل
YOLO11 تُستخدم بشكل متكرر كطبقة إدراكية لعوامل RL
للوكلاء. يعالج نموذج الرؤية المشهد detect الأجسام، ويتم تمرير هذه المعلومات المنظمة إلى عامل RL
لتحديد الإجراء التالي.
يوضِّح المثال التالي كيفية استخدام نموذج YOLO لتوليد الحالة (الكائنات المكتشفة) التي يمكن تغذيتها
في حلقة اتخاذ القرار في RL.
from ultralytics import YOLO
# Load the YOLO11 model to serve as the perception system
model = YOLO("yolo11n.pt")
# The agent observes the environment (an image frame)
# In a real RL loop, this frame comes from a simulation or camera
observation_frame = "https://docs.ultralytics.com/modes/predict/"
# Process the frame to get the current 'state' (detected objects)
results = model(observation_frame)
# The detections (boxes, classes) act as the state for the RL agent
for result in results:
print(f"Detected {len(result.boxes)} objects for the agent to analyze.")
# This state data would next be passed to the RL policy network
لاستكشاف كيفية توسيع نطاق هذه المفاهيم، غالبًا ما يستخدم الباحثون بيئات مثل
OpenAI Gym (الآن Gymnasium) لتوحيد اختبار خوارزميات الذكاء الاصطناعي. مع
تنمو القوة الحاسوبية، فإن تقنيات مثل
التعلم المعزز من ردود الفعل البشرية (RLHF)
تعمل على تحسين كيفية توافق الوكلاء مع القيم البشرية.