مسرد المصطلحات

عملية اتخاذ القرار ماركوف (MDP)

اكتشف عمليات اتخاذ القرار في ماركوف (MDPs) ودورها في الذكاء الاصطناعي والتعلم المعزز والروبوتات واتخاذ القرارات في مجال الرعاية الصحية.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

عملية اتخاذ القرار ماركوف (MDP) هي إطار رياضي يُستخدم لنمذجة عملية اتخاذ القرار في المواقف التي تكون فيها النتائج عشوائية جزئيًا وجزئيًا تحت سيطرة صانع القرار، وغالبًا ما يشار إليه باسم الوكيل. إنه مفهوم أساسي في الذكاء الاصطناعي (AI)، لا سيما في مجال التعلم المعزز (RL). توفر MDPs طريقة رسمية لوصف المشاكل التي يتفاعل فيها الوكيل مع بيئة ما بمرور الوقت، ويتعلم اتخاذ سلسلة من القرارات لتحقيق هدف محدد، وعادةً ما يزيد من المكافأة التراكمية. هذا الإطار ضروري لفهم كيف يمكن للوكلاء تعلم السلوكيات المثلى في بيئات معقدة وغير مؤكدة.

المكونات الرئيسية لخطة التنمية الألفية

وعادةً ما يتم تعريف خطة التنمية متعددة الأبعاد من خلال عدة مكونات رئيسية:

  • الحالات (S): مجموعة من المواقف أو التكوينات المحتملة التي يمكن أن يكون فيها الوكيل. على سبيل المثال، في مهمة الملاحة الروبوتية، يمكن أن تمثل الحالة موقع الروبوت في شبكة.
  • الإجراءات (أ): مجموعة من الخيارات المتاحة للوكيل في كل حالة. قد تعتمد الإجراءات المحددة المتاحة على الحالة الحالية. بالنسبة للروبوت، يمكن أن تكون الإجراءات "التحرك شمالاً"، "التحرك جنوباً"، "التحرك شرقاً"، "التحرك غرباً".
  • احتمالات الانتقال (P): يحدد احتمالية الانتقال من حالة (ق) إلى حالة أخرى (ق) بعد اتخاذ إجراء معين (أ). يجسد هذا الاحتمال عدم اليقين في البيئة؛ قد لا يؤدي الإجراء دائمًا إلى النتيجة المقصودة. على سبيل المثال، قد يكون لدى الروبوت الذي يحاول التحرك شمالاً فرصة ضئيلة للانزلاق والبقاء في نفس المكان أو التحرك قليلاً خارج المسار.
  • المكافآت (R): قيمة عددية يتلقاها الوكيل بعد الانتقال من الحالة (ق) إلى الحالة (ق) بسبب الإجراء (أ). تشير المكافآت إلى مدى جودة أو سوء انتقال أو حالة معينة. الهدف عادةً هو تعظيم إجمالي المكافأة المتراكمة مع مرور الوقت. قد يعطي الوصول إلى الموقع المستهدف مكافأة إيجابية كبيرة، في حين أن الاصطدام بعائق قد يعطي مكافأة سلبية.
  • عامل الخصم (γ): قيمة بين 0 و1 تحدد أهمية المكافآت المستقبلية مقارنة بالمكافآت الفورية. يعطي عامل الخصم الأقل أولوية للمكاسب قصيرة الأجل، بينما تؤكد القيمة الأعلى على النجاح طويل الأجل.

أحد الجوانب الحاسمة في تخطيطات البرمجة متعددة الوظائف هو خاصية ماركوفوالتي تنص على أن الحالة المستقبلية والمكافأة تعتمد فقط على الحالة الحالية والإجراء الحالي، وليس على تسلسل الحالات والإجراءات التي أدت إلى الحالة الحالية.

كيف تعمل خطط الأداء المتعددة الأبعاد في الذكاء الاصطناعي والتعلم الآلي

في سياق التعلّم الآلي (ML)، تُشكّل خوارزميات التعلّم الآلي المتعدد الأبعاد حجر الأساس لمعظم خوارزميات التعلّم المعزز. ويتمثل الهدف في خوارزميات التعلُّم الآلي المتعدد الأبعاد في إيجاد السياسة المثلى (π)، وهي استراتيجية أو قاعدة تخبر الوكيل بالإجراء الذي يجب اتخاذه في كل حالة لتعظيم المكافأة التراكمية المخصومة المتوقعة.

صُممت خوارزميات مثل التعلم الكمي و SARSA وأساليب تدرج السياسات لحل خطط الأداء المتعددة الأبعاد، وغالبًا ما يكون ذلك دون الحاجة إلى معرفة صريحة باحتمالات الانتقال أو وظائف المكافأة، وتعلمها من خلال التفاعل مع البيئة بدلاً من ذلك. وتتضمن حلقة التفاعل هذه مراقبة الوكيل للحالة الحالية، واختيار إجراء ما بناءً على سياسته، والحصول على مكافأة، والانتقال إلى حالة جديدة وفقًا لديناميكيات البيئة. تتكرر هذه العملية، مما يسمح للوكيل بتحسين سياسته تدريجياً. يختلف نموذج التعلّم هذا اختلافًا كبيرًا عن التعلّم الخاضع للإشراف (التعلّم من البيانات المصنفة) والتعلّم غير الخاضع للإشراف (إيجاد أنماط في البيانات غير المصنفة).

التطبيقات الواقعية

تتعدد التطبيقات العملية لتقنيات MDPs وتقنيات RL المستخدمة في حلها:

العلاقة بالمفاهيم الأخرى

من المفيد التمييز بين خطط التنمية الألفية والمفاهيم ذات الصلة:

  • التعلم المعزز (RL): التعلّم المعزّز هو مجال من مجالات التعلّم الآلي يهتم بكيفية تعلّم الوكلاء السلوكيات المثلى من خلال التجربة والخطأ. توفر MDPs الإطار الرياضي الرسمي الذي يحدد المشكلة التي تهدف خوارزميات التعلم المعزز إلى حلها. يجمع التعلم المعزز العميق بين التعلم المعزز العميق والتعلم العميق (DL) للتعامل مع مساحات الحالة المعقدة عالية الأبعاد.
  • نماذج ماركوف المخفية (HMM): نماذج HMMs هي نماذج إحصائية تُستخدم عندما يُفترض أن النظام الذي يتم نمذجته هو عملية ماركوف ذات حالات (مخفية) غير ملحوظة. وعلى عكس نماذج MDPs، تركز نماذج HMMs في المقام الأول على استنتاج الحالات الخفية من الملاحظات ولا تتضمن عادةً إجراءات أو مكافآت لاتخاذ القرارات.
  • البرمجة الديناميكية: تستند تقنيات مثل تكرار القيمة وتكرار السياسات، والتي يمكن أن تحل البرمجة الديناميكية متعددة الوظائف إذا كان النموذج (التحولات والمكافآت) معروفًا، على مبادئ البرمجة الديناميكية.

غالبًا ما ينطوي تطوير الحلول القائمة على MDPs على استخدام مكتبات RL المبنية على أطر مثل PyTorch أو TensorFlow. قد تتضمن إدارة التجارب وتدريب النماذج منصات مثل Ultralytics HUB لتبسيط سير عمل مشروع الذكاء الاصطناعي. التقييم الفعال للنموذج أمر بالغ الأهمية لتقييم أداء السياسة المستفادة.

قراءة الكل