مسرد المصطلحات

عملية اتخاذ القرار ماركوف (MDP)

اكتشف عمليات اتخاذ القرار في ماركوف (MDPs) ودورها في الذكاء الاصطناعي والتعلم المعزز والروبوتات واتخاذ القرارات في مجال الرعاية الصحية.

عملية اتخاذ القرار ماركوف (MDP) هي إطار رياضي لنمذجة عملية اتخاذ القرار في المواقف التي تكون فيها النتائج عشوائية جزئيًا وجزئيًا تحت سيطرة صانع القرار. وهو مفهوم أساسي في التعلم المعزز (RL)، حيث يوفر طريقة رسمية لوصف البيئة. يتفاعل العميل مع هذه البيئة من خلال مراقبة حالتها واختيار إجراء ما، بهدف تعظيم إشارة المكافأة التراكمية مع مرور الوقت. تستند الفكرة الأساسية على خاصية ماركوف، التي تفترض أن المستقبل مستقل عن الماضي بالنظر إلى الحاضر؛ وبعبارة أخرى، توفر الحالة الحالية جميع المعلومات اللازمة لاتخاذ القرار الأمثل.

كيفية عمل عمليات اتخاذ القرار ماركوف

تُعرّف خطة التصميم متعدد الأبعاد بعدة مكونات رئيسية تصف التفاعل بين العامل وبيئته:

  • الحالات (S): مجموعة من جميع المواقف أو التكوينات الممكنة التي يمكن أن يكون فيها الوكيل. على سبيل المثال، موقع الروبوت في غرفة أو مستوى المخزون لمنتج ما.
  • الإجراءات (أ): مجموعة من جميع الحركات الممكنة التي يمكن للوكيل القيام بها في كل حالة. بالنسبة للروبوت، يمكن أن يكون هذا التحرك إلى الأمام أو اليسار أو اليمين.
  • احتمال الانتقال: احتمال الانتقال من حالة حالية إلى حالة جديدة بعد اتخاذ إجراء معين. وهذا يجسد عدم اليقين في البيئة، مثل انزلاق عجلات الروبوت.
  • دالة المكافأة: إشارة تشير إلى القيمة الفورية للانتقال إلى حالة جديدة. يمكن أن تكون المكافآت إيجابية أو سلبية وتوجه العامل نحو النتائج المرغوبة.
  • السياسة (π): الاستراتيجية التي يستخدمها الوكيل لاختيار الإجراءات في كل حالة. الهدف النهائي من حلّ السياسة متعددة الأبعاد هو إيجاد السياسة المثلى - وهي السياسة التي تزيد من إجمالي المكافأة المتوقعة على المدى الطويل.

العملية دورية: يراقب الوكيل الحالة الحالية، ويختار إجراءً بناءً على سياسته، ويتلقى مكافأة، وينتقل إلى حالة جديدة. تستمر هذه الحلقة، مما يسمح للوكيل بالتعلم من تجاربه.

التطبيقات الواقعية

تُستخدم نماذج MDPs لنمذجة مجموعة واسعة من مشاكل اتخاذ القرارات المتسلسلة.

  1. الروبوتات والملاحة الذاتية: في علم الروبوتات، يمكن لنموذج MDP أن يمثّل كيفية تنقل الروبوت في مساحة معقدة. يمكن أن تكون الحالات هي إحداثيات الروبوت واتجاهه، في حين أن الإجراءات هي حركاته (على سبيل المثال، إلى الأمام، الانعطاف). يمكن أن تكون المكافآت إيجابية للوصول إلى الوجهة وسلبية للاصطدام بالعوائق أو استخدام طاقة زائدة. توفر أنظمة الإدراك، التي غالبًا ما تستخدم الرؤية الحاسوبية (CV) لاكتشاف الأجسام، معلومات الحالة المطلوبة لبرنامج تخطيط إدارة الحركة. وهذا أمر أساسي لتطبيقات مثل المركبات ذاتية القيادة، والتي يجب أن تتخذ قراراتها باستمرار بناءً على المدخلات الحسية.
  2. إدارة المخزون وسلسلة التوريد: يمكن للشركات استخدام خطط إدارة المخزون لتحسين مراقبة المخزون. الحالة هي مستوى المخزون الحالي، والإجراءات هي مقدار المنتج الذي يجب إعادة طلبه، وتوازن وظيفة المكافأة بين الربح من المبيعات مقابل تكاليف الاحتفاظ بالمخزون ونفاد المخزون. يساعد ذلك في اتخاذ قرارات الطلب المثلى في ظل الطلب غير المؤكد، وهو تحدٍ رئيسي في مجال الذكاء الاصطناعي للبيع بالتجزئة. تستكشف منظمات رائدة مثل جمعية إدارة سلسلة التوريد مثل هذه الأساليب المثلى المتقدمة.

العلاقة بالمفاهيم الأخرى

من المفيد التمييز بين MDPs والمفاهيم ذات الصلة في التعلم الآلي (ML):

  • التعلم المعزز (RL): التعلّم المعزز هو مجال الذكاء الاصطناعي المعني بتدريب العملاء على اتخاذ القرارات المثلى. وتوفر النماذج المتعددة الوظائف الإطار الرياضي الذي يحدد رسمياً المشكلة التي صُممت خوارزميات التعلم المعزز لحلها. عندما تكون نماذج الانتقال والمكافآت في البيئة غير معروفة، تُستخدم تقنيات التعلّم المعزز لتعلم السياسة المثلى من خلال التجربة والخطأ. يوسع التعلم المعزز العميق هذا الأمر باستخدام نماذج التعلم العميق للتعامل مع مساحات الحالة المعقدة عالية الأبعاد، كما هو مذكور في النصوص التأسيسية مثل كتاب ساتون وبارتو.
  • نماذج ماركوف المخفية (HMM): على عكس نماذج MDPs حيث تكون الحالة قابلة للملاحظة بشكل كامل، تُستخدم نماذج ماركوف الخفية (HMMs) عندما لا تكون الحالة مرئية بشكل مباشر ولكن يجب استنتاجها من سلسلة من الملاحظات. تُستخدم نماذج HMMs للتحليل والاستدلال، وليس لاتخاذ القرارات، لأنها لا تتضمن إجراءات أو مكافآت.
  • البرمجة الديناميكية: عندما يتوفر نموذج كامل ودقيق للبرنامج متعدد الأدوار (أي احتمالات الانتقال والمكافآت المعروفة)، يمكن حلها باستخدام أساليب البرمجة الديناميكية مثل تكرار القيمة وتكرار السياسة لإيجاد السياسة المثلى.

غالبًا ما ينطوي تطوير حلول لأنظمة MDPs على استخدام مكتبات RL مثل Gymnasium وأطر عمل التعلم الآلي مثل PyTorch أو TensorFlow. يمكن بناء المكون الإدراكي لهذه الأنظمة، والذي يحدد الحالة الحالية، باستخدام نماذج مثل Ultralytics YOLO11. يمكن تبسيط سير العمل بأكمله، بدءًا من إدارة بيانات التدريب إلى نشر النموذج، باستخدام منصات مثل Ultralytics HUB وإدارتها باستخدام ممارسات MLOps القوية.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون ونمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة