اكتشف قوة التعلُّم المعزز العميق - حيث يتعلم الذكاء الاصطناعي السلوكيات المعقدة لحل التحديات في مجال الألعاب والروبوتات والرعاية الصحية وغيرها.
التعلُّم المعزز العميق (DRL) هو مجال فرعي للتعلُّم الآلي (ML) يجمع بين مبادئ التعلُّم المعزز (RL) وقوة التعلُّم العميق (DL). وهو يُمكِّن وكيل الذكاء الاصطناعي من تعلم استراتيجيات اتخاذ القرار الأمثل من خلال التجربة والخطأ في بيئات معقدة عالية الأبعاد. باستخدام الشبكات العصبية العميقة، يمكن لنماذج DRL معالجة المدخلات الحسية الخام، مثل وحدات البكسل من صورة أو بيانات المستشعر، دون الحاجة إلى هندسة الميزات يدوياً. وهذا يسمح لها بمعالجة المشاكل التي كانت تستعصي في السابق على أساليب RL التقليدية.
في إعداد DRL النموذجي، يتفاعل الوكيل مع البيئة على مدى سلسلة من الخطوات الزمنية. في كل خطوة، يراقب الوكيل حالة البيئة ويتخذ إجراءً ويتلقى مكافأة أو عقوبة. والهدف هو تعلم سياسة - استراتيجية لاختيار الإجراءات - التي تزيد من إجمالي المكافأة التراكمية مع مرور الوقت. يأتي الجزء "العميق" من DRL من استخدام شبكة عصبية عميقة لتقريب السياسة نفسها أو دالة قيمة تقدّر مدى استصواب الحالات أو الإجراءات. يتم تدريب هذه الشبكة باستخدام خوارزميات مثل النسب المتدرجة لضبط أوزان نموذجها بناءً على المكافآت التي تتلقاها. يتم إضفاء الطابع الرسمي على هذه العملية بأكملها باستخدام عملية اتخاذ القرار ماركوف (MDP)، والتي توفر الأساس الرياضي لنمذجة عملية اتخاذ القرارات المتسلسلة.
من المهم التفريق بين DRL والمصطلحات ذات الصلة:
حقق مختبر DRL اختراقات في مختلف المجالات المعقدة:
يحتل التعلم المعزز العميق موقع الصدارة في مجال أبحاث الذكاء الاصطناعي، حيث يدفع بحدود استقلالية الآلة. في حين أن شركات مثل Ultralytics تركز في المقام الأول على أحدث نماذج الرؤية مثل Ultralytics YOLO لمهام مثل اكتشاف الأجسام وتجزئة الصور، فإن مخرجات أنظمة الإدراك هذه غالباً ما تكون مدخلات حاسمة لعوامل DRL. على سبيل المثال، قد يستخدم الروبوت نموذج Ultralytics YOLO الذي تم نشره عبر Ultralytics HUB لإدراك بيئته (تمثيل الحالة) قبل أن تقرر سياسة DRL الإجراء التالي. ويوفر فهم DRL سياقاً لكيفية ملاءمة الإدراك المتقدم للأنظمة المستقلة الأوسع نطاقاً. وغالبًا ما يتم تسهيل هذا التطوير من خلال أطر عمل مثل PyTorch(الصفحة الرئيسية لـ PyTorch) و TensorFlow(الصفحة الرئيسية لـ TensorFlow) واختبارها في بيئات المحاكاة مثل Gymnasium. تواصل المنظمات البحثية الرائدة مثل DeepMind والهيئات الأكاديمية مثل جمعية النهوض بالذكاء الاصطناعي (AAAI) دفع عجلة التقدم في هذا المجال المثير.