عملية قرار ماركوف (Markov Decision Process (MDP))
اكتشف عمليات Markov Decision Processes (MDPs) ودورها في الذكاء الاصطناعي والتعلم المعزز والروبوتات واتخاذ القرارات في الرعاية الصحية.
عملية اتخاذ القرار ماركوف (MDP) هي إطار رياضي يُستخدم لنمذجة عملية اتخاذ القرار في المواقف التي تكون فيها النتائج
عشوائية جزئياً وعشوائية جزئياً تحت سيطرة صانع القرار. وهي بمثابة الأساس النظري ل
التعلّم المعزز (RL)، حيث يوفر
طريقة رسمية لوصف البيئة التي يعمل فيها
يعمل فيها وكيل الذكاء الاصطناعي. من خلال هيكلة المشاكل إلى حالات
والإجراءات والمكافآت، تُمكِّن الأنظمة الذكية من حساب أفضل استراتيجية، والمعروفة باسم السياسة، لتعظيم
أهداف محددة مع مرور الوقت. هذا الإطار ضروري لتطوير التقنيات المتقدمة، من أنظمة التداول الآلي
الآلية إلى المركبات ذاتية القيادة.
المكونات الأساسية للبرنامج الإنمائي للألفية
يميز مخطط الأداء متعدد الأبعاد التفاعل بين العامل وبيئته باستخدام خمسة عناصر متميزة. هذه العناصر
تسمح للباحثين بتعريف مشاكل
مشاكل التعلم الآلي (ML) المعقدة في شكل قابل للحل
قابلة للحل:
-
الولايات (S): مجموعة جميع
الحالات الممكنة التي يمكن أن يشغلها الوكيل. في لعبة الشطرنج، تمثّل الحالة التكوين الحالي للقطع على لوحة الشطرنج
على الرقعة.
-
الإجراءات (أ): مجموعة كل
الحركات أو القرارات الممكنة التي يمكن للوكيل اتخاذها من حالة معينة.
-
احتمال الانتقال: احتمالية الانتقال من حالة إلى أخرى بعد تنفيذ
إجراء معين. يمثّل هذا المكوّن عدم اليقين في البيئة، وغالبًا ما يوصف بأنه
عملية عشوائية.
-
وظيفة المكافأة: إشارة التغذية الراجعة التي تحدد المنفعة الفورية من اتخاذ إجراء معين
في حالة معينة. يستخدم الوكيل هذه الإشارة لتقييم أدائه.
-
السياسة ($\pi$): استراتيجية أو كتاب قواعد يحدد سلوك الوكيل. الهدف من حل
MDP هو إيجاد "السياسة المثلى" التي تزيد من إجمالي المكافأة المتوقعة على المدى الطويل.
الافتراض المركزي لهذا الإطار هو
خاصية ماركوف، والتي تنص على أنّ التطور المستقبلي لعملية
العملية يعتمد فقط على الحالة الحالية وليس على تسلسل الأحداث التي سبقتها. هذا يبسط
المتطلبات الحسابية لاتخاذ القرارات المثلى.
تطبيقات واقعية
تُستخدم نماذج تخطيط الأدوار المتعددة الأبعاد على نطاق واسع في مختلف الصناعات لحل مشاكل اتخاذ القرارات المتسلسلة حيث يكون التخطيط والتكيف
والقدرة على التكيف أمران حاسمان.
-
الروبوتات: غالبًا ما تعمل الروبوتات
في بيئات ديناميكية حيث توفر أجهزة الاستشعار بيانات صاخبة. يسمح نظام MDP للروبوت بالتخطيط لمساره من خلال التعامل مع
موقعه كحالة وحركاته كإجراءات. أنظمة الرؤية التي تعمل بواسطة
نماذج اكتشاف الأجسام مثل
YOLO11مساعدة الروبوت على إدراك حالة
العالم - مثل وجود عقبات - مما يسمح له بالتنقل بأمان وكفاءة.
-
إدارة المخزون: في الخدمات اللوجستية لسلسلة التوريد، تستخدم الشركات خطط إدارة المخزون لتحسين مستويات المخزون.
هنا، الحالة هنا هي المخزون الحالي، وتتضمن الإجراءات تحديد كمية المنتجات التي يجب إعادة طلبها. وتوازن وظيفة المكافأة
توازن وظيفة المكافأة بين الربح من المبيعات مقابل تكاليف التخزين والإيرادات المفقودة من نفاذ المخزون، وهو تطبيق مهم
في الذكاء الاصطناعي للبيع بالتجزئة.
-
تخطيط علاج الرعاية الصحية: تساعد برامج تخطيط العلاج الطبي في تصميم خطط علاجية مخصصة للمرضى
الذين يعانون من حالات مزمنة. من خلال نمذجة صحة المريض كسلسلة من الحالات، يمكن للأطباء تحديد التسلسل الأمثل
تسلسل العلاجات الأمثل لتحقيق أقصى قدر من النتائج الصحية على المدى الطويل، والاستفادة من الرؤى المستمدة من
تحليل الصور الطبية.
الإدراك كمدخلات الدولة
في تطبيقات الذكاء الاصطناعي الحديثة، غالبًا ما يتم اشتقاق "حالة" مخطط تطوير متعدد الأبعاد من بيانات عالية الأبعاد، مثل
الفيديو. يعالج نموذج الرؤية الحاسوبية (CV)
المرئية لإنشاء تمثيل منظم للحالة يمكن لخوارزمية اتخاذ القرار فهمه.
يوضّح كود Python التالي كيفية استخدام نموذج YOLO11 المدرّب مسبقًا لاستخراج معلومات الحالة (إحداثيات الكائن
) من صورة. يمكن أن تكون هذه البيانات بمثابة حالة الإدخال لعامل قائم على MDP.
from ultralytics import YOLO
# Load a pretrained YOLO11 model to act as the perception system
model = YOLO("yolo11n.pt")
# Perform inference on an image to observe the current 'state'
# In a real MDP, this would be a frame from the agent's environment
results = model("https://ultralytics.com/images/bus.jpg")
# Extract bounding box coordinates to represent the state
state_vector = results[0].boxes.xywh
print(f"Current State Observation: {state_vector}")
التمييز بين المفاهيم ذات الصلة
من المفيد التفريق بين مصطلحات MDPs والمصطلحات الأخرى ذات الصلة في
الذكاء الاصطناعي (AI):
-
التعلم المعزز (RL):
على الرغم من استخدامهما بالتبادل في كثير من الأحيان، إلا أن التمييز بينهما مهم. إن MDP هو إطار العمل أو المشكلة
بينما RL هي الطريقة المستخدمة لحلها عندما تكون احتمالات الانتقال ووظائف المكافأة
غير معروفة في البداية. يتعلم العملاء السياسة المثلى من خلال التجربة والخطأ، كما هو موضح في النصوص التأسيسية
لساتون وبارتو.
-
نموذج ماركوف المخفي (HMM):
يتم استخدام HMM عندما تكون الحالة الحقيقية للنظام غير قابلة للملاحظة بشكل كامل ويجب استنتاجها من المخرجات الاحتمالية
الاحتمالية. في المقابل، يفترض نموذج MDP القياسي أن الوكيل لديه رؤية كاملة للحالة الحالية.
-
التعلم المعزز العميق (DRL):
يجمع DRL بين التعلّم المعزز المتعدد الأبعاد والتعلم العميق (DL).
تكافح مُعالجات MDP التقليدية مع مساحات الحالة الضخمة (مثل عدد مجموعات البكسل الممكنة في
لعبة فيديو). يستخدم DRL الشبكات العصبية ل
لتقريب قيمة الحالات، مما يتيح حلولاً للبيئات المعقدة التي تتم محاكاتها في أدوات مثل
Gymnasium.