مسرد المصطلحات

التعلم بالتقوية

اكتشف التعلم بالتقوية، حيث تقوم الوكلاء بتحسين الإجراءات من خلال التجربة والخطأ لتعظيم المكافآت. استكشف المفاهيم والتطبيقات والفوائد!

التعلم بالتعزيز (Reinforcement Learning (RL)) هو مجال من مجالات التعلم الآلي (ML) حيث يتعلم الوكيل الذكي اتخاذ قرارات مثالية من خلال التجربة والخطأ. على عكس نماذج التعلم الأخرى، لا يتم إخبار الوكيل بالإجراءات التي يجب اتخاذها. بدلاً من ذلك، فإنه يتفاعل مع بيئة ويتلقى ملاحظات في شكل مكافآت أو عقوبات. الهدف الأساسي للوكيل هو تعلم استراتيجية، تُعرف باسم السياسة، تزيد من مكافأتها التراكمية بمرور الوقت. هذا النهج مستوحى من علم النفس السلوكي وهو قوي بشكل خاص لحل مشاكل اتخاذ القرارات المتسلسلة، كما هو موضح في النص التأسيسي بواسطة Sutton and Barto.

كيف يعمل التعلم بالتعزيز (Reinforcement Learning)

تتم نمذجة عملية التعلم بالتقوية (RL) على أنها حلقة تغذية راجعة مستمرة تتضمن عدة مكونات رئيسية:

العميل (Agent): المتعلم وصانع القرار، مثل الروبوت أو برنامج تشغيل الألعاب.
البيئة: العالم الخارجي الذي يتفاعل معه الوكيل.
الحالة: لقطة للبيئة في لحظة معينة، تزود العامل بالمعلومات التي يحتاجها لاتخاذ قرار.
الإجراء: خطوة يختارها الوكيل من مجموعة الخيارات الممكنة.
المكافأة: إشارة رقمية تُرسل من البيئة إلى الوكيل بعد كل إجراء، مما يشير إلى مدى استصواب الإجراء.

يراقب الوكيل الحالة الراهنة للبيئة، وينفذ إجراءً، ويتلقى مكافأة جنبًا إلى جنب مع الحالة التالية. وتتكرر هذه الدورة، ومن خلال هذه التجربة، يقوم الوكيل تدريجيًا بتحسين سياسته لتفضيل الإجراءات التي تؤدي إلى مكافآت أعلى على المدى الطويل. غالبًا ما يوصف الإطار الرسمي لهذه المشكلة بأنه عملية قرار ماركوف (MDP). تتضمن خوارزميات التعلم المعزز الشائعة التعلم كيو (Q-learning) وتدرجات السياسة.

مقارنة مع نماذج التعلم الأخرى

يختلف التعلم بالتقوية عن الأنواع الرئيسية الأخرى للتعلم الآلي:

التعلم الخاضع للإشراف (Supervised Learning): في التعلم الخاضع للإشراف، يتعلم النموذج من مجموعة بيانات مصنفة بالكامل بإجابات صحيحة. على سبيل المثال، يتم تدريب نموذج تصنيف الصور على صور ذات تسميات صريحة. في المقابل، يتعلم RL من إشارات المكافأة دون إشراف صريح على أفضل إجراء في كل خطوة. يمكنك استكشاف مقارنة تفصيلية بين التعلم الخاضع للإشراف والتعلم غير الخاضع للإشراف.
التعلم غير الخاضع للإشراف (Unsupervised Learning): يتضمن هذا النموذج إيجاد أنماط أو هياكل مخفية في بيانات غير مصنفة. هدفه هو استكشاف البيانات، مثل استخدام تجميع k-means، بدلاً من اتخاذ القرارات لزيادة المكافأة.
التعلم المعزز العميق (DRL) (Deep Reinforcement Learning): DRL ليس نموذجًا مختلفًا ولكنه شكل متقدم من RL يستخدم الشبكات العصبية العميقة (deep neural networks) للتعامل مع مساحات الحالة والإجراءات المعقدة وعالية الأبعاد. يتيح ذلك لـ RL التوسع في المشكلات التي كانت تعتبر سابقًا مستعصية، مثل معالجة بيانات البكسل الأولية من كاميرا لـ المركبات ذاتية القيادة (autonomous vehicles).

تطبيقات واقعية

لقد حقق التعلم بالتقوية نجاحًا ملحوظًا في مجموعة متنوعة من المجالات المعقدة:

Game Playing: حققت وكلاء RL أداءً فائقًا في الألعاب المعقدة. مثال بارز هو AlphaGo من DeepMind، الذي تعلم هزيمة أفضل لاعبي Go في العالم. مثال آخر هو عمل OpenAI على Dota 2، حيث تعلم الوكيل استراتيجيات فريق معقدة.
الروبوتات: يستخدم التعلم بالتعزيز (RL) لتدريب الروبوتات على أداء مهام معقدة مثل معالجة الأشياء والتجميع والحركة. بدلاً من أن تتم برمجته بشكل صريح، يمكن للروبوت أن يتعلم المشي أو الإمساك بالأشياء من خلال مكافأته على المحاولات الناجحة في بيئة محاكاة أو حقيقية. هذا مجال رئيسي للبحث في مؤسسات مثل مختبر أبحاث الذكاء الاصطناعي في بيركلي (BAIR).
إدارة الموارد: تحسين العمليات في الأنظمة المعقدة، مثل إدارة تدفق حركة المرور في المدن، وموازنة الحمل في شبكات الطاقة، وتحسين التفاعلات الكيميائية.
أنظمة التوصية (Recommendation Systems): يمكن استخدام RL لتحسين تسلسل العناصر الموصى بها للمستخدم لزيادة المشاركة والرضا على المدى الطويل، بدلاً من مجرد النقرات الفورية.

الأهمية في النظام البيئي للذكاء الاصطناعي

يعد التعلم بالتعزيز (Reinforcement Learning) مكونًا حاسمًا في مشهد الذكاء الاصطناعي (AI) الأوسع، خاصة لإنشاء أنظمة مستقلة. في حين أن شركات مثل Ultralytics متخصصة في نماذج رؤية الذكاء الاصطناعي مثل Ultralytics YOLO لمهام مثل اكتشاف الكائنات (Object Detection) و تقسيم المثيلات (Instance Segmentation) باستخدام التعلم الخاضع للإشراف، فإن قدرات الإدراك لهذه النماذج هي مدخلات أساسية لوكلاء RL.

على سبيل المثال، قد يستخدم الروبوت نموذج YOLO للإدراك، يتم نشره عبر Ultralytics HUB، لفهم محيطه (الـ "state"). ثم تستخدم سياسة RL هذه المعلومات لتحديد حركتها التالية. هذا التآزر بين رؤية الكمبيوتر (CV) للإدراك و RL لاتخاذ القرار أمر أساسي لبناء أنظمة ذكية. غالبًا ما يتم تطوير هذه الأنظمة باستخدام أطر عمل مثل PyTorch و TensorFlow ويتم اختبارها بشكل متكرر في بيئات محاكاة موحدة مثل Gymnasium (المعروفة سابقًا باسم OpenAI Gym). لتحسين توافق النموذج مع التفضيلات البشرية، أصبحت تقنيات مثل التعلم المعزز من ردود الفعل البشرية (RLHF) ذات أهمية متزايدة أيضًا في هذا المجال. يتم دفع التقدم في RL باستمرار من قبل منظمات مثل DeepMind والمؤتمرات الأكاديمية مثل NeurIPS.

التعلم بالتقوية

تدريب نماذج Ultralytics YOLO لتبسيط سير العمل عبر الصناعات

حل ترخيص مرن للمؤسسات لدعم ابتكاراتك

تدريب نماذج الذكاء الاصطناعي في ثوانٍ باستخدام Ultralytics YOLO

كيف يعمل التعلم بالتعزيز (Reinforcement Learning)

مقارنة مع نماذج التعلم الأخرى

تطبيقات واقعية

الأهمية في النظام البيئي للذكاء الاصطناعي

اقرأ المزيد في هذه الفئة

نشر نماذج Ultralytics YOLO باستخدام تكامل ExecuTorch

أبرز النقاط الرئيسية من Ultralytics في مؤتمر PyTorch 2025

استخدام التعلم الذاتي الخاضع للإشراف الذاتي لإزالة التشويش من الصور

انضم إلى مجتمع Ultralytics