مسرد المصطلحات

التعلُّم المعزز العميق

اكتشف قوة التعلُّم المعزز العميق - حيث يتعلم الذكاء الاصطناعي السلوكيات المعقدة لحل التحديات في مجال الألعاب والروبوتات والرعاية الصحية وغيرها.

التعلُّم المعزز العميق (DRL) هو مجال فرعي للتعلُّم الآلي (ML) يجمع بين مبادئ التعلُّم المعزز (RL) وقوة التعلُّم العميق (DL). وهو يُمكِّن وكيل الذكاء الاصطناعي من تعلم استراتيجيات اتخاذ القرار الأمثل من خلال التجربة والخطأ في بيئات معقدة عالية الأبعاد. باستخدام الشبكات العصبية العميقة، يمكن لنماذج DRL معالجة المدخلات الحسية الخام، مثل وحدات البكسل من صورة أو بيانات المستشعر، دون الحاجة إلى هندسة الميزات يدوياً. وهذا يسمح لها بمعالجة المشاكل التي كانت تستعصي في السابق على أساليب RL التقليدية.

كيف يعمل التعلم المعزز العميق

في إعداد DRL النموذجي، يتفاعل الوكيل مع البيئة على مدى سلسلة من الخطوات الزمنية. في كل خطوة، يراقب الوكيل حالة البيئة ويتخذ إجراءً ويتلقى مكافأة أو عقوبة. والهدف هو تعلم سياسة - استراتيجية لاختيار الإجراءات - التي تزيد من إجمالي المكافأة التراكمية مع مرور الوقت. يأتي الجزء "العميق" من DRL من استخدام شبكة عصبية عميقة لتقريب السياسة نفسها أو دالة قيمة تقدّر مدى استصواب الحالات أو الإجراءات. يتم تدريب هذه الشبكة باستخدام خوارزميات مثل النسب المتدرجة لضبط أوزان نموذجها بناءً على المكافآت التي تتلقاها. يتم إضفاء الطابع الرسمي على هذه العملية بأكملها باستخدام عملية اتخاذ القرار ماركوف (MDP)، والتي توفر الأساس الرياضي لنمذجة عملية اتخاذ القرارات المتسلسلة.

الفروق عن المفاهيم الأخرى

من المهم التفريق بين DRL والمصطلحات ذات الصلة:

  • التعلم المعزز (RL): DRL هو شكل حديث ومتقدم من أشكال التعلم المعزز. في حين أن التعلم المعزز التقليدي يعتمد غالبًا على الجداول أو الدوال الخطية لتعيين الحالات إلى أفعال، إلا أنه يواجه صعوبات في التعامل مع مساحات كبيرة من الحالات (على سبيل المثال، جميع مجموعات البكسل الممكنة على الشاشة). تتغلب تقنية DRL على هذا القيد باستخدام الشبكات العصبية العميقة كمقربات دالة قوية.
  • التعلُّم العميق (DL): DL هي التقنية التي تدعم قدرة DRL على التعامل مع المدخلات المعقدة. في حين أن التعلم العميق (DL) يرتبط عادةً بالتعلم تحت الإشراف، حيث تتعلم النماذج من مجموعات البيانات المصنفة، يتعلم DRL من التغذية الراجعة المتفرقة للمكافآت، مما يجعله مناسبًا لمهام التحسين والتحكم.
  • التعلّم تحت الإشراف: يتطلب نموذج التعلّم هذا مجموعة بيانات مصنفة لتدريب نموذج لإجراء تنبؤات. وعلى النقيض من ذلك، لا يحتاج نموذج التعلّم الخاضع للإشراف إلى بيانات موسومة؛ وبدلاً من ذلك، فإنه يولد بياناته الخاصة من خلال التفاعل مع بيئة ما، مسترشدًا بإشارة مكافأة. وهذا يجعله فعالاً للغاية في المشاكل التي تكون فيها البيانات المصنفة نادرة أو غير متوفرة.

التطبيقات الواقعية

حقق مختبر DRL اختراقات في مختلف المجالات المعقدة:

الأهمية في منظومة الذكاء الاصطناعي

يحتل التعلم المعزز العميق موقع الصدارة في مجال أبحاث الذكاء الاصطناعي، حيث يدفع بحدود استقلالية الآلة. في حين أن شركات مثل Ultralytics تركز في المقام الأول على أحدث نماذج الرؤية مثل Ultralytics YOLO لمهام مثل اكتشاف الأجسام وتجزئة الصور، فإن مخرجات أنظمة الإدراك هذه غالباً ما تكون مدخلات حاسمة لعوامل DRL. على سبيل المثال، قد يستخدم الروبوت نموذج Ultralytics YOLO الذي تم نشره عبر Ultralytics HUB لإدراك بيئته (تمثيل الحالة) قبل أن تقرر سياسة DRL الإجراء التالي. ويوفر فهم DRL سياقاً لكيفية ملاءمة الإدراك المتقدم للأنظمة المستقلة الأوسع نطاقاً. وغالبًا ما يتم تسهيل هذا التطوير من خلال أطر عمل مثل PyTorch(الصفحة الرئيسية لـ PyTorch) و TensorFlow(الصفحة الرئيسية لـ TensorFlow) واختبارها في بيئات المحاكاة مثل Gymnasium. تواصل المنظمات البحثية الرائدة مثل DeepMind والهيئات الأكاديمية مثل جمعية النهوض بالذكاء الاصطناعي (AAAI) دفع عجلة التقدم في هذا المجال المثير.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون ونمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة