يجمع التعلم المعزز العميق (DRL) بين مبادئ التعلم المعزز (RL) وقوة التعلم العميق (DL). وهو يمكّن وكلاء البرمجيات من تعلم السلوكيات المثلى في بيئات معقدة وعالية الأبعاد في كثير من الأحيان من خلال التجربة والخطأ. وعلى عكس التعلّم المعزز التقليدي الذي قد يواجه صعوبات في التعامل مع مساحات واسعة من الحالات (مثل بيانات البكسل الخام من الكاميرا)، يستخدم التعلّم المعزز العميق الشبكات العصبية العميقة (NNs) لتقريب الوظائف اللازمة للتعلم، مثل دالة القيمة (التنبؤ بالمكافآت المستقبلية) أو السياسة (تعيين الحالات إلى الإجراءات). وهذا يسمح لوكلاء DRL بمعالجة المشاكل التي كانت مستعصية في السابق، والتعلم مباشرةً من المدخلات الحسية المعقدة مثل الصور أو قراءات أجهزة الاستشعار.
كيف يعمل التعلم المعزز العميق
تتضمن عملية DRL في جوهرها تفاعل الوكيل مع البيئة على مدى خطوات زمنية منفصلة. وتتكشف العملية عادةً على النحو التالي:
- الملاحظة: يراقب الوكيل الحالة الحالية للبيئة. في DRL، يمكن تمثيل هذه الحالة ببيانات عالية الأبعاد، مثل بيكسلات الصور التي تتم معالجتها بواسطة شبكة عصبية تلافيفية (CNN).
- اختيار الإجراء: بناءً على الحالة المرصودة، يختار الوكيل إجراءً ما باستخدام سياسته التي تمثلها شبكة عصبية عميقة.
- التفاعل: يقوم الوكيل بتنفيذ الإجراء المختار، مما يؤدي إلى انتقال البيئة إلى حالة جديدة.
- التغذية الراجعة (المكافأة): توفر البيئة إشارة مكافأة قياسية، تشير إلى مدى جودة أو سوء الفعل في الحالة السابقة.
- التعلّم: يستخدم العميل إشارة المكافأة وانتقال الحالة لتحديث شبكته العصبية (السياسة أو دالة القيمة) عبر خوارزميات مثل الترحيل العكسي ونسب التدرج. الهدف هو تعديل أوزان الشبكة لتعظيم المكافأة المستقبلية التراكمية مع مرور الوقت. تتكرر حلقة التعلّم هذه، مما يسمح للوكيل بتحسين استراتيجية اتخاذ القرار بشكل تدريجي.
المفاهيم الرئيسية في DRL
ينطوي فهم DRL على الإلمام بالعديد من الأفكار الأساسية من التعلم المعزز، والتي تم توسيع نطاقها الآن باستخدام تقنيات التعلم العميق:
- العميل: الخوارزمية أو النموذج الذي يتعلم اتخاذ القرارات.
- البيئة: العالم أو النظام الذي يتفاعل معه الوكيل (على سبيل المثال، محاكاة لعبة، أو محيط الروبوت المادي). غالبًا ما يتم توفير بيئات موحدة للبحث من خلال مجموعات أدوات مثل Gymnasium (OpenAI Gym سابقًا).
- الحالة: تمثيل للبيئة في نقطة زمنية محددة. تتفوق DRL في التعامل مع الحالات التي تمثلها كميات كبيرة من البيانات، مثل الصور أو مصفوفات أجهزة الاستشعار.
- الفعل: قرار يتخذه العامل ويؤثر على البيئة.
- المكافأة: تغذية راجعة عددية من البيئة تشير إلى الاستحسان الفوري لفعل تم اتخاذه في حالة ما.
- السياسة: استراتيجية الوكيل، وتعيين الحالات إلى الإجراءات. في DRL، تكون هذه عادةً شبكة عصبية عميقة.
- دالة القيمة: تقدّر المكافأة التراكمية المتوقعة على المدى الطويل من حالة معينة أو زوج من الحالة والفعل. وغالبًا ما يتم تمثيل ذلك أيضًا بشبكة عصبية عميقة.
- الاستكشاف مقابل الاستغلال: مفاضلة أساسية حيث يجب على الوكيل أن يوازن بين تجربة إجراءات جديدة لاكتشاف استراتيجيات أفضل (الاستكشاف) مقابل التمسك بالإجراءات الجيدة المعروفة (الاستغلال).
DRL مقابل نماذج التعلم الآلي الأخرى
تختلف DRL اختلافًا كبيرًا عن مناهج التعلُّم الآلي الأولية الأخرى:
- التعلّم تحت الإشراف: يتعلم من مجموعة بيانات تحتوي على أمثلة مصنفة (أزواج المدخلات والمخرجات). مهام مثل تصنيف الصور أو اكتشاف الأجسام باستخدام نماذج مثل Ultralytics YOLO تندرج تحت هذه الفئة. على النقيض من ذلك، يتعلم DRL من إشارات المكافأة دون إجابات صحيحة صريحة لكل حالة.
- التعلّم غير الخاضع للإشراف: يتعلم الأنماط والهياكل من البيانات غير المعنونة (مثل التجميع). تركز DRL على تعلم السلوك الموجه نحو الهدف من خلال التفاعل والتغذية الراجعة.
- التعلم المعزز (RL): DRL هو نوع محدد من التعلم المعزز الذي يستخدم الشبكات العصبية العميقة. وغالبًا ما يستخدم التعلّم المعزز التقليدي تمثيلات أبسط مثل الجداول (جداول Q) التي تكون غير مجدية للمشاكل ذات مساحات الحالة الكبيرة جدًا أو المستمرة حيث تتألق DRL.
التطبيقات الواقعية
حقق مختبر DRL اختراقات في مختلف المجالات المعقدة:
الأهمية في النظام البيئي للذكاء الاصطناعي
يمثل التعلم المعزز العميق مجالاً هاماً من مجالات أبحاث الذكاء الاصطناعي (AI) ، مما يدفع حدود استقلالية الآلة واتخاذ القرارات. في حين أن شركات مثل Ultralytics تركز في المقام الأول على أحدث نماذج الرؤية مثل Ultralytics YOLO لمهام مثل اكتشاف الأجسام وتجزئة الصور باستخدام التعلم تحت الإشراف، فإن مخرجات أنظمة الإدراك هذه غالباً ما تكون مدخلات حاسمة لعوامل DRL. على سبيل المثال، قد يستخدم الروبوت نموذج Ultralytics YOLO الذي تم نشره عبر Ultralytics HUB لإدراك بيئته (تمثيل الحالة) قبل أن تقرر سياسة DRL الإجراء التالي. يوفر فهم DRL سياقًا لكيفية ملاءمة الإدراك المتقدم مع الأنظمة المستقلة الأوسع نطاقًا ومشاكل التحكم المعقدة التي يعالجها مجتمع الذكاء الاصطناعي باستخدام مجموعات أدوات مثل Gymnasium وأطر عمل مثل PyTorchPyTorch الصفحة الرئيسية لPyTorch ) و TensorFlowTensorFlow ). تواصل المنظمات البحثية مثل DeepMind والهيئات الأكاديمية مثل جمعية النهوض بالذكاء الاصطناعي (AAAI) دفع عجلة التقدم في هذا المجال المثير.