يولو فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

التعلم بالتقوية

اكتشف التعلم بالتقوية، حيث تقوم الوكلاء بتحسين الإجراءات من خلال التجربة والخطأ لتعظيم المكافآت. استكشف المفاهيم والتطبيقات والفوائد!

التعلم بالتعزيز (Reinforcement Learning (RL)) هو مجال من مجالات التعلم الآلي (ML) حيث يتعلم الوكيل الذكي اتخاذ قرارات مثالية من خلال التجربة والخطأ. على عكس نماذج التعلم الأخرى، لا يتم إخبار الوكيل بالإجراءات التي يجب اتخاذها. بدلاً من ذلك، فإنه يتفاعل مع بيئة ويتلقى ملاحظات في شكل مكافآت أو عقوبات. الهدف الأساسي للوكيل هو تعلم استراتيجية، تُعرف باسم السياسة، تزيد من مكافأتها التراكمية بمرور الوقت. هذا النهج مستوحى من علم النفس السلوكي وهو قوي بشكل خاص لحل مشاكل اتخاذ القرارات المتسلسلة، كما هو موضح في النص التأسيسي بواسطة Sutton and Barto.

كيف يعمل التعلم بالتعزيز (Reinforcement Learning)

تتم نمذجة عملية التعلم بالتقوية (RL) على أنها حلقة تغذية راجعة مستمرة تتضمن عدة مكونات رئيسية:

  • العميل (Agent): المتعلم وصانع القرار، مثل الروبوت أو برنامج تشغيل الألعاب.
  • البيئة: العالم الخارجي الذي يتفاعل معه الوكيل.
  • الحالة: لقطة للبيئة في لحظة معينة، تزود العامل بالمعلومات التي يحتاجها لاتخاذ قرار.
  • الإجراء: خطوة يختارها الوكيل من مجموعة الخيارات الممكنة.
  • المكافأة: إشارة رقمية تُرسل من البيئة إلى الوكيل بعد كل إجراء، مما يشير إلى مدى استصواب الإجراء.

يراقب الوكيل الحالة الراهنة للبيئة، وينفذ إجراءً، ويتلقى مكافأة جنبًا إلى جنب مع الحالة التالية. وتتكرر هذه الدورة، ومن خلال هذه التجربة، يقوم الوكيل تدريجيًا بتحسين سياسته لتفضيل الإجراءات التي تؤدي إلى مكافآت أعلى على المدى الطويل. غالبًا ما يوصف الإطار الرسمي لهذه المشكلة بأنه عملية قرار ماركوف (MDP). تتضمن خوارزميات التعلم المعزز الشائعة التعلم كيو (Q-learning) وتدرجات السياسة.

مقارنة مع نماذج التعلم الأخرى

يختلف التعلم بالتقوية عن الأنواع الرئيسية الأخرى للتعلم الآلي:

تطبيقات واقعية

لقد حقق التعلم بالتقوية نجاحًا ملحوظًا في مجموعة متنوعة من المجالات المعقدة:

  • Game Playing: حققت وكلاء RL أداءً فائقًا في الألعاب المعقدة. مثال بارز هو AlphaGo من DeepMind، الذي تعلم هزيمة أفضل لاعبي Go في العالم. مثال آخر هو عمل OpenAI على Dota 2، حيث تعلم الوكيل استراتيجيات فريق معقدة.
  • الروبوتات: يستخدم التعلم بالتعزيز (RL) لتدريب الروبوتات على أداء مهام معقدة مثل معالجة الأشياء والتجميع والحركة. بدلاً من أن تتم برمجته بشكل صريح، يمكن للروبوت أن يتعلم المشي أو الإمساك بالأشياء من خلال مكافأته على المحاولات الناجحة في بيئة محاكاة أو حقيقية. هذا مجال رئيسي للبحث في مؤسسات مثل مختبر أبحاث الذكاء الاصطناعي في بيركلي (BAIR).
  • إدارة الموارد: تحسين العمليات في الأنظمة المعقدة، مثل إدارة تدفق حركة المرور في المدن، وموازنة الحمل في شبكات الطاقة، وتحسين التفاعلات الكيميائية.
  • أنظمة التوصية (Recommendation Systems): يمكن استخدام RL لتحسين تسلسل العناصر الموصى بها للمستخدم لزيادة المشاركة والرضا على المدى الطويل، بدلاً من مجرد النقرات الفورية.

الأهمية في النظام البيئي للذكاء الاصطناعي

يعد التعلم بالتعزيز (Reinforcement Learning) مكونًا حاسمًا في مشهد الذكاء الاصطناعي (AI) الأوسع، خاصة لإنشاء أنظمة مستقلة. في حين أن شركات مثل Ultralytics متخصصة في نماذج رؤية الذكاء الاصطناعي مثل Ultralytics YOLO لمهام مثل اكتشاف الكائنات (Object Detection) و تقسيم المثيلات (Instance Segmentation) باستخدام التعلم الخاضع للإشراف، فإن قدرات الإدراك لهذه النماذج هي مدخلات أساسية لوكلاء RL.

على سبيل المثال، قد يستخدم الروبوت نموذج YOLO للإدراك، يتم نشره عبر Ultralytics HUB، لفهم محيطه (الـ "state"). ثم تستخدم سياسة RL هذه المعلومات لتحديد حركتها التالية. هذا التآزر بين رؤية الكمبيوتر (CV) للإدراك و RL لاتخاذ القرار أمر أساسي لبناء أنظمة ذكية. غالبًا ما يتم تطوير هذه الأنظمة باستخدام أطر عمل مثل PyTorch و TensorFlow ويتم اختبارها بشكل متكرر في بيئات محاكاة موحدة مثل Gymnasium (المعروفة سابقًا باسم OpenAI Gym). لتحسين توافق النموذج مع التفضيلات البشرية، أصبحت تقنيات مثل التعلم المعزز من ردود الفعل البشرية (RLHF) ذات أهمية متزايدة أيضًا في هذا المجال. يتم دفع التقدم في RL باستمرار من قبل منظمات مثل DeepMind والمؤتمرات الأكاديمية مثل NeurIPS.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة