استعدوا لـ YOLO Vision 2025!
25 سبتمبر، 2025
10:00 — 18:00 بتوقيت بريطانيا الصيفي
حدث هجين
مؤتمر Yolo Vision 2024
مسرد المصطلحات

التعلم المعزز العميق

اكتشف قوة التعلم العميق المعزز - حيث يتعلم الذكاء الاصطناعي سلوكيات معقدة لحل التحديات في الألعاب والروبوتات والرعاية الصحية والمزيد.

التعلم المعزز العميق (DRL) هو حقل فرعي من التعلم الآلي (ML) يجمع بين مبادئ التعلم المعزز (RL) وقوة التعلم العميق (DL). إنه يمكّن وكيل الذكاء الاصطناعي من تعلم استراتيجيات اتخاذ القرار المثلى من خلال التجربة والخطأ في البيئات المعقدة وعالية الأبعاد. باستخدام الشبكات العصبية العميقة، يمكن لنماذج DRL معالجة مدخلات حسية أولية، مثل وحدات البكسل من صورة أو بيانات المستشعر، دون الحاجة إلى هندسة الميزات اليدوية. هذا يسمح لهم بمعالجة المشاكل التي كانت في السابق مستعصية على الحل بالنسبة لطرق RL التقليدية.

كيف يعمل التعلم العميق المعزز؟

في إعداد DRL النموذجي، يتفاعل الوكيل مع بيئة على مدى سلسلة من الخطوات الزمنية. في كل خطوة، يلاحظ الوكيل حالة البيئة، ويتخذ إجراءً، ويتلقى مكافأة أو عقوبة. الهدف هو تعلم سياسة - وهي استراتيجية لاختيار الإجراءات - تزيد من إجمالي المكافأة التراكمية بمرور الوقت. يأتي الجزء "العميق" من DRL من استخدام شبكة عصبونية عميقة لتقريب إما السياسة نفسها أو دالة قيمة تقدر استصواب الحالات أو الإجراءات. يتم تدريب هذه الشبكة باستخدام خوارزميات مثل هبوط التدرج لضبط أوزان النموذج بناءً على المكافآت المستلمة. تتم صياغة هذه العملية بأكملها باستخدام عملية قرار ماركوف (MDP)، والتي توفر الأساس الرياضي لنمذجة اتخاذ القرارات المتسلسلة.

الفروق عن المفاهيم الأخرى

من المهم التمييز بين DRL والمصطلحات ذات الصلة:

  • التعلم بالتعزيز (RL): يعتبر التعلم بالتعزيز العميق (DRL) شكلاً حديثًا ومتقدمًا من التعلم بالتعزيز. في حين أن التعلم بالتعزيز التقليدي غالبًا ما يعتمد على الجداول أو الدوال الخطية لربط الحالات بالإجراءات، إلا أنه يواجه صعوبات مع مساحات الحالات الكبيرة (مثل جميع تركيبات البكسل الممكنة على الشاشة). يتغلب التعلم بالتعزيز العميق (DRL) على هذا القيد باستخدام الشبكات العصبية العميقة كأدوات تقريب دالة قوية.
  • التعلم العميق (DL) (Deep Learning): DL هي التقنية التي تدعم قدرة DRL على التعامل مع المدخلات المعقدة. في حين أن DL يرتبط بشكل شائع بالتعلم الخاضع للإشراف (supervised learning)، حيث تتعلم النماذج من مجموعات البيانات (datasets) المسماة، فإن DRL يتعلم من ردود الفعل المتفرقة للمكافآت، مما يجعله مناسبًا لمهام التحسين والتحكم.
  • التعلم الخاضع للإشراف (Supervised Learning): يتطلب نموذج التعلم هذا مجموعة بيانات مصنفة لتدريب نموذج لتقديم التنبؤات. على النقيض من ذلك، لا يحتاج DRL إلى بيانات مصنفة؛ بدلاً من ذلك، فإنه ينشئ بياناته الخاصة من خلال التفاعل مع بيئة ما، مسترشدًا بإشارة المكافأة. وهذا يجعله فعالاً للغاية للمشاكل التي تكون فيها البيانات المصنفة نادرة أو غير متوفرة.

تطبيقات واقعية

لقد دفع DRL إلى تحقيق اختراقات في مختلف المجالات المعقدة:

  • لعب الألعاب: أحد أشهر الأمثلة هو AlphaGo من DeepMind، الذي هزم أفضل لاعب Go في العالم. تعلم وكيل DRL من خلال لعب الملايين من الألعاب ضد نفسه، باستخدام الحالة المرئية للوحة لاتخاذ قرارات استراتيجية. وبالمثل، تعلمت OpenAI Five لعب لعبة الفيديو المعقدة Dota 2 بمستوى يفوق مستوى الإنسان.
  • الروبوتات: يستخدم التعلم بالتعزيز العميق (DRL) لتدريب الروبوتات على أداء مهام معقدة مثل معالجة الأشياء والحركة والتجميع. على سبيل المثال، يمكن للروبوت أن يتعلم التقاط أشياء غير مألوفة عن طريق معالجة المدخلات مباشرة من الكاميرا الخاصة به وتلقي مكافآت إيجابية على عمليات الإمساك الناجحة، وهو موضوع تم استكشافه في المناقشات حول دور الذكاء الاصطناعي في الروبوتات.
  • المركبات ذاتية القيادة: يساعد التعلم بالتقوية العميق (DRL) في تطوير سياسات تحكم متطورة للملاحة وتخطيط المسار واتخاذ القرارات في سيناريوهات المرور الديناميكية، كما هو مفصل في مقالات حول الذكاء الاصطناعي في السيارات ذاتية القيادة.
  • إدارة الموارد: يمكن للتعلم بالتقوية العميق (DRL) تحسين الأنظمة المعقدة مثل شبكات الطاقة والتحكم في إشارات المرور وتحسين التفاعلات الكيميائية. مثال على ذلك هو استخدام التعلم بالتقوية العميق (DRL) لإدارة تدفق حركة المرور في المدن الذكية.
  • أنظمة التوصية (Recommendation Systems): يمكن لـ DRL تحسين تسلسل التوصيات المعروضة للمستخدم لزيادة المشاركة أو الرضا على المدى الطويل.
  • الرعاية الصحية: يتم استكشاف DRL لاكتشاف سياسات العلاج المثلى وجرعات الأدوية بناءً على حالات المرضى، مما يساهم في المجال الأوسع لـ الذكاء الاصطناعي في الرعاية الصحية.

الأهمية في النظام البيئي للذكاء الاصطناعي

يحتل التعلم المعزز العميق طليعة أبحاث الذكاء الاصطناعي، ويدفع حدود استقلالية الآلة. في حين أن شركات مثل Ultralytics تركز بشكل أساسي على نماذج الرؤية الحديثة مثل Ultralytics YOLO لمهام مثل اكتشاف الكائنات و تقسيم الصور، غالبًا ما تكون مخرجات أنظمة الإدراك هذه مدخلات حاسمة لوكلاء DRL. على سبيل المثال، قد يستخدم الروبوت نموذج Ultralytics YOLO تم نشره عبر Ultralytics HUB لإدراك بيئته (تمثيل الحالة) قبل أن تقرر سياسة DRL الإجراء التالي. يوفر فهم DRL سياقًا لكيفية ملاءمة الإدراك المتقدم للأنظمة المستقلة الأوسع. غالبًا ما يتم تسهيل هذا التطوير من خلال أطر عمل مثل PyTorch (الصفحة الرئيسية لـ PyTorch) و TensorFlow (الصفحة الرئيسية لـ TensorFlow) ويتم اختباره في بيئات محاكاة مثل Gymnasium. تواصل منظمات بحثية رائدة مثل DeepMind وهيئات أكاديمية مثل الجمعية الأمريكية للنهوض بالذكاء الاصطناعي (AAAI) دفع التقدم في هذا المجال المثير.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة