مسرد المصطلحات

التعلُّم المعزز العميق

اكتشف قوة التعلُّم المعزز العميق - حيث يتعلم الذكاء الاصطناعي السلوكيات المعقدة لحل التحديات في مجال الألعاب والروبوتات والرعاية الصحية وغيرها.

يجمع التعلم المعزز العميق (DRL) بين مبادئ التعلم المعزز (RL) وقوة التعلم العميق (DL). وهو يمكّن وكلاء البرمجيات من تعلم السلوكيات المثلى في بيئات معقدة وعالية الأبعاد في كثير من الأحيان من خلال التجربة والخطأ. وعلى عكس التعلّم المعزز التقليدي الذي قد يواجه صعوبات في التعامل مع مساحات واسعة من الحالات (مثل بيانات البكسل الخام من الكاميرا)، يستخدم التعلّم المعزز العميق الشبكات العصبية العميقة (NNs) لتقريب الوظائف اللازمة للتعلم، مثل دالة القيمة (التنبؤ بالمكافآت المستقبلية) أو السياسة (تعيين الحالات إلى الإجراءات). وهذا يسمح لوكلاء DRL بمعالجة المشاكل التي كانت مستعصية في السابق، والتعلم مباشرةً من المدخلات الحسية المعقدة مثل الصور أو قراءات أجهزة الاستشعار.

كيف يعمل التعلم المعزز العميق

تتضمن عملية DRL في جوهرها تفاعل الوكيل مع البيئة على مدى خطوات زمنية منفصلة. وتتكشف العملية عادةً على النحو التالي:

الملاحظة: يراقب الوكيل الحالة الحالية للبيئة. في DRL، يمكن تمثيل هذه الحالة ببيانات عالية الأبعاد، مثل بيكسلات الصور التي تتم معالجتها بواسطة شبكة عصبية تلافيفية (CNN).
اختيار الإجراء: بناءً على الحالة المرصودة، يختار الوكيل إجراءً ما باستخدام سياسته التي تمثلها شبكة عصبية عميقة.
التفاعل: يقوم الوكيل بتنفيذ الإجراء المختار، مما يؤدي إلى انتقال البيئة إلى حالة جديدة.
التغذية الراجعة (المكافأة): توفر البيئة إشارة مكافأة قياسية، تشير إلى مدى جودة أو سوء الفعل في الحالة السابقة.
التعلّم: يستخدم العميل إشارة المكافأة وانتقال الحالة لتحديث شبكته العصبية (السياسة أو دالة القيمة) عبر خوارزميات مثل الترحيل العكسي ونسب التدرج. الهدف هو تعديل أوزان الشبكة لتعظيم المكافأة المستقبلية التراكمية مع مرور الوقت. تتكرر حلقة التعلّم هذه، مما يسمح للوكيل بتحسين استراتيجية اتخاذ القرار بشكل تدريجي.

المفاهيم الرئيسية في DRL

ينطوي فهم DRL على الإلمام بالعديد من الأفكار الأساسية من التعلم المعزز، والتي تم توسيع نطاقها الآن باستخدام تقنيات التعلم العميق:

العميل: الخوارزمية أو النموذج الذي يتعلم اتخاذ القرارات.
البيئة: العالم أو النظام الذي يتفاعل معه الوكيل (على سبيل المثال، محاكاة لعبة، أو محيط الروبوت المادي). غالبًا ما يتم توفير بيئات موحدة للبحث من خلال مجموعات أدوات مثل Gymnasium (OpenAI Gym سابقًا).
الحالة: تمثيل للبيئة في نقطة زمنية محددة. تتفوق DRL في التعامل مع الحالات التي تمثلها كميات كبيرة من البيانات، مثل الصور أو مصفوفات أجهزة الاستشعار.
الفعل: قرار يتخذه العامل ويؤثر على البيئة.
المكافأة: تغذية راجعة عددية من البيئة تشير إلى الاستحسان الفوري لفعل تم اتخاذه في حالة ما.
السياسة: استراتيجية الوكيل، وتعيين الحالات إلى الإجراءات. في DRL، تكون هذه عادةً شبكة عصبية عميقة.
دالة القيمة: تقدّر المكافأة التراكمية المتوقعة على المدى الطويل من حالة معينة أو زوج من الحالة والفعل. وغالبًا ما يتم تمثيل ذلك أيضًا بشبكة عصبية عميقة.
الاستكشاف مقابل الاستغلال: مفاضلة أساسية حيث يجب على الوكيل أن يوازن بين تجربة إجراءات جديدة لاكتشاف استراتيجيات أفضل (الاستكشاف) مقابل التمسك بالإجراءات الجيدة المعروفة (الاستغلال).

DRL مقابل نماذج التعلم الآلي الأخرى

تختلف DRL اختلافًا كبيرًا عن مناهج التعلُّم الآلي الأولية الأخرى:

التعلّم تحت الإشراف: يتعلم من مجموعة بيانات تحتوي على أمثلة مصنفة (أزواج المدخلات والمخرجات). مهام مثل تصنيف الصور أو اكتشاف الأجسام باستخدام نماذج مثل Ultralytics YOLO تندرج تحت هذه الفئة. على النقيض من ذلك، يتعلم DRL من إشارات المكافأة دون إجابات صحيحة صريحة لكل حالة.
التعلّم غير الخاضع للإشراف: يتعلم الأنماط والهياكل من البيانات غير المعنونة (مثل التجميع). تركز DRL على تعلم السلوك الموجه نحو الهدف من خلال التفاعل والتغذية الراجعة.
التعلم المعزز (RL): DRL هو نوع محدد من التعلم المعزز الذي يستخدم الشبكات العصبية العميقة. وغالبًا ما يستخدم التعلّم المعزز التقليدي تمثيلات أبسط مثل الجداول (جداول Q) التي تكون غير مجدية للمشاكل ذات مساحات الحالة الكبيرة جدًا أو المستمرة حيث تتألق DRL.

التطبيقات الواقعية

حقق مختبر DRL اختراقات في مختلف المجالات المعقدة:

الروبوتات: تدريب الروبوتات على أداء مهام معقدة مثل التلاعب بالأشياء والحركة والتجميع، وغالباً ما تتعلم مباشرةً من مدخلات الكاميرا أو بيانات المستشعرات. يتم استكشاف ذلك في موارد مثل دور الذكاء الاصطناعي في الروبوتات.
لعب الألعاب: تحقيق أداء خارق في الألعاب المعقدة، مثل لعبة جو(AlphaGo من DeepMind) وألعاب الفيديو المختلفة(OpenAI Five لـ Dota 2).
المركبات ذاتية القيادة: تطوير سياسات تحكم متطورة للملاحة وتخطيط المسار واتخاذ القرار في سيناريوهات حركة المرور الديناميكية، كما تمت مناقشته في الذكاء الاصطناعي في السيارات ذاتية القيادة.
تحسين الموارد: إدارة الأنظمة المعقدة مثل شبكات الطاقة(الذكاء الاصطناعي في مجال الطاقة المتجددة)، والتحكم في إشارات المرور(الذكاء الاصطناعي في إدارة حركة المرور)، وتحسين التفاعل الكيميائي.
أنظمة التوصيات: تحسين تسلسل التوصيات لتعظيم مشاركة المستخدم أو رضاه على المدى الطويل.
الرعاية الصحية: اكتشاف السياسات العلاجية المثلى أو جرعات الأدوية بناءً على حالة المريض ونتائجه، مما يساهم في مجالات مثل الذكاء الاصطناعي في الرعاية الصحية.

الأهمية في النظام البيئي للذكاء الاصطناعي

يمثل التعلم المعزز العميق مجالاً هاماً من مجالات أبحاث الذكاء الاصطناعي (AI) ، مما يدفع حدود استقلالية الآلة واتخاذ القرارات. في حين أن شركات مثل Ultralytics تركز في المقام الأول على أحدث نماذج الرؤية مثل Ultralytics YOLO لمهام مثل اكتشاف الأجسام وتجزئة الصور باستخدام التعلم تحت الإشراف، فإن مخرجات أنظمة الإدراك هذه غالباً ما تكون مدخلات حاسمة لعوامل DRL. على سبيل المثال، قد يستخدم الروبوت نموذج Ultralytics YOLO الذي تم نشره عبر Ultralytics HUB لإدراك بيئته (تمثيل الحالة) قبل أن تقرر سياسة DRL الإجراء التالي. يوفر فهم DRL سياقًا لكيفية ملاءمة الإدراك المتقدم مع الأنظمة المستقلة الأوسع نطاقًا ومشاكل التحكم المعقدة التي يعالجها مجتمع الذكاء الاصطناعي باستخدام مجموعات أدوات مثل Gymnasium وأطر عمل مثل PyTorch PyTorch الصفحة الرئيسية لPyTorch ) و TensorFlow TensorFlow ). تواصل المنظمات البحثية مثل DeepMind والهيئات الأكاديمية مثل جمعية النهوض بالذكاء الاصطناعي (AAAI) دفع عجلة التقدم في هذا المجال المثير.

التعلُّم المعزز العميق

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

حل الترخيص المرن للمؤسسات لتعزيز ابتكاراتك

تدريب نماذج الذكاء الاصطناعي في ثوانٍ باستخدام Ultralytics YOLO

تدريب النماذج YOLO ببساطة باستخدام Ultralytics HUB

كيف يعمل التعلم المعزز العميق

المفاهيم الرئيسية في DRL

DRL مقابل نماذج التعلم الآلي الأخرى

التطبيقات الواقعية

الأهمية في النظام البيئي للذكاء الاصطناعي

قراءة المزيد من المدونات

انضم إلى مجتمع Ultralytics

التعلُّم المعزز العميق

تدريب YOLO النماذجببساطة مع Ultralytics HUB

حل الترخيص المرن للمؤسسات لتعزيز ابتكاراتك

تدريب نماذج الذكاء الاصطناعي في ثوانٍ باستخدام Ultralytics YOLO

تدريب النماذج YOLO ببساطة باستخدام Ultralytics HUB

كيف يعمل التعلم المعزز العميق

المفاهيم الرئيسية في DRL

DRL مقابل نماذج التعلم الآلي الأخرى

التطبيقات الواقعية

الأهمية في النظام البيئي للذكاء الاصطناعي

قراءة المزيد من المدونات

انضم إلى مجتمع Ultralytics

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB