اكتشف قوة التعلم العميق المعزز - حيث يتعلم الذكاء الاصطناعي سلوكيات معقدة لحل التحديات في الألعاب والروبوتات والرعاية الصحية والمزيد.
التعلم المعزز العميق (DRL) هو حقل فرعي من التعلم الآلي (ML) يجمع بين مبادئ التعلم المعزز (RL) وقوة التعلم العميق (DL). إنه يمكّن وكيل الذكاء الاصطناعي من تعلم استراتيجيات اتخاذ القرار المثلى من خلال التجربة والخطأ في البيئات المعقدة وعالية الأبعاد. باستخدام الشبكات العصبية العميقة، يمكن لنماذج DRL معالجة مدخلات حسية أولية، مثل وحدات البكسل من صورة أو بيانات المستشعر، دون الحاجة إلى هندسة الميزات اليدوية. هذا يسمح لهم بمعالجة المشاكل التي كانت في السابق مستعصية على الحل بالنسبة لطرق RL التقليدية.
في إعداد DRL النموذجي، يتفاعل الوكيل مع بيئة على مدى سلسلة من الخطوات الزمنية. في كل خطوة، يلاحظ الوكيل حالة البيئة، ويتخذ إجراءً، ويتلقى مكافأة أو عقوبة. الهدف هو تعلم سياسة - وهي استراتيجية لاختيار الإجراءات - تزيد من إجمالي المكافأة التراكمية بمرور الوقت. يأتي الجزء "العميق" من DRL من استخدام شبكة عصبونية عميقة لتقريب إما السياسة نفسها أو دالة قيمة تقدر استصواب الحالات أو الإجراءات. يتم تدريب هذه الشبكة باستخدام خوارزميات مثل هبوط التدرج لضبط أوزان النموذج بناءً على المكافآت المستلمة. تتم صياغة هذه العملية بأكملها باستخدام عملية قرار ماركوف (MDP)، والتي توفر الأساس الرياضي لنمذجة اتخاذ القرارات المتسلسلة.
من المهم التمييز بين DRL والمصطلحات ذات الصلة:
لقد دفع DRL إلى تحقيق اختراقات في مختلف المجالات المعقدة:
يحتل التعلم المعزز العميق طليعة أبحاث الذكاء الاصطناعي، ويدفع حدود استقلالية الآلة. في حين أن شركات مثل Ultralytics تركز بشكل أساسي على نماذج الرؤية الحديثة مثل Ultralytics YOLO لمهام مثل اكتشاف الكائنات و تقسيم الصور، غالبًا ما تكون مخرجات أنظمة الإدراك هذه مدخلات حاسمة لوكلاء DRL. على سبيل المثال، قد يستخدم الروبوت نموذج Ultralytics YOLO تم نشره عبر Ultralytics HUB لإدراك بيئته (تمثيل الحالة) قبل أن تقرر سياسة DRL الإجراء التالي. يوفر فهم DRL سياقًا لكيفية ملاءمة الإدراك المتقدم للأنظمة المستقلة الأوسع. غالبًا ما يتم تسهيل هذا التطوير من خلال أطر عمل مثل PyTorch (الصفحة الرئيسية لـ PyTorch) و TensorFlow (الصفحة الرئيسية لـ TensorFlow) ويتم اختباره في بيئات محاكاة مثل Gymnasium. تواصل منظمات بحثية رائدة مثل DeepMind وهيئات أكاديمية مثل الجمعية الأمريكية للنهوض بالذكاء الاصطناعي (AAAI) دفع التقدم في هذا المجال المثير.