Markov Decision Process (MDP)
استكشف أساسيات عمليات ماركوف للقرار (MDP). تعلم كيف تقود MDPs التعلم المعزز وكيف يوفر Ultralytics YOLO26 بيانات الحالة في الوقت الفعلي.
عملية قرار ماركوف (MDP) هي إطار رياضي يُستخدم لنمذجة اتخاذ القرار في المواقف التي تكون فيها النتائج عشوائية جزئياً وتحت سيطرة صانع القرار. وهي المخطط الأساسي لـ التعلم التعزيزي (RL)، حيث توفر طريقة منظمة لـ وكيل ذكاء اصطناعي للتفاعل مع بيئة ما لتحقيق هدف معين. على عكس التعلم الخاضع للإشراف القياسي، الذي يعتمد على مجموعات بيانات ثابتة ومصنفة، تركز MDP على اتخاذ القرار المتسلسل حيث تؤثر الإجراءات الحالية على الاحتمالات المستقبلية.
Link to this sectionالمكونات الأساسية لـ MDP#
لفهم كيفية عمل MDP، من المفيد تصورها كدورة من التفاعل بين الوكيل وبيئته. يتم تحديد هذه الدورة بواسطة خمسة مكونات رئيسية:
- الحالة (State): الموقف الحالي أو تهيئة البيئة. في المركبات ذاتية القيادة، قد تشمل الحالة سرعة السيارة، وموقعها، والعوائق القريبة التي تكتشفها مستشعرات الرؤية الحاسوبية (CV).
- الإجراء (Action): مجموعة كل الحركات أو الخيارات المتاحة للوكيل. يُشار إلى هذا غالباً بـ مساحة الإجراء، والتي يمكن أن تكون منفصلة (مثل: تحرك لليسار، تحرك لليمين) أو مستمرة (مثل: ضبط زاوية التوجيه).
- احتمالية الانتقال (Transition Probability): تحدد هذه احتمالية الانتقال من حالة إلى أخرى بعد اتخاذ إجراء معين. وهي تفسر عدم اليقين وديناميكيات العالم الحقيقي، مما يميز MDPs عن الأنظمة الحتمية.
- المكافأة (Reward): إشارة رقمية يتم تلقيها بعد كل إجراء. تُعد دالة المكافأة أمراً حيوياً لأنها توجه سلوك الوكيل؛ فالمكافآت الإيجابية تشجع الإجراءات المرغوبة، بينما تثبط المكافآت السلبية (العقوبات) الأخطاء.
- عامل الخصم (Discount Factor): قيمة تحدد أهمية المكافآت المستقبلية مقارنة بالمكافآت الفورية. وهي تساعد الوكيل على تحديد أولويات التخطيط طويل الأجل على الإشباع قصير الأجل، وهو مفهوم جوهري لـ التحسين الاستراتيجي.
Link to this sectionتطبيقات العالم الحقيقي#
تعمل MDPs كمحرك لاتخاذ القرار خلف العديد من التقنيات المتقدمة، مما يسمح للأنظمة بالتنقل في بيئات معقدة وديناميكية.
- التحكم في الروبوتات: في الذكاء الاصطناعي في الروبوتات، تمكن MDPs الآلات من تعلم مهارات حركية معقدة. على سبيل المثال، يستخدم ذراع روبوتي MDPs لتحديد المسار الأمثل لالتقاط كائن مع تجنب الاصطدامات. الحالة هنا هي زوايا المفاصل وموقع الكائن، المستمدة من اكتشاف الكائنات ثلاثية الأبعاد، وتعتمد المكافأة على سرعة الإمساك الناجحة.
- إدارة المخزون: يستخدم تجار التجزئة MDPs لـ تحسين المخزون. هنا، تمثل الحالة مستويات المخزون الحالية، والإجراءات هي قرارات إعادة الطلب، وتُحسب المكافآت بناءً على هوامش الربح مطروحاً منها تكاليف التخزين ونفاد المخزون.
- العلاج والرعاية الصحية: في الطب الشخصي، تساعد MDPs في تصميم خطط علاج ديناميكية. من خلال نمذجة مقاييس صحة المريض كحالات والأدوية كإجراءات، يمكن للأطباء استخدام النمذجة التنبؤية لتعظيم النتائج الصحية طويلة المدى للمريض.
Link to this sectionالعلاقة مع التعلم التعزيزي#
على الرغم من ارتباطهما الوثيق، من المهم التمييز بين MDP والتعلم التعزيزي. إن MDP هو بيان المشكلة الرسمي - أي النموذج الرياضي للبيئة. أما التعلم التعزيزي فهو الطريقة المستخدمة لحل تلك المشكلة عندما لا تكون الديناميكيات الداخلية (احتمالات الانتقال) معروفة بالكامل. تتفاعل خوارزميات RL، مثل Q-learning، مع MDP لتعلم أفضل سياسة من خلال التجربة والخطأ.
Link to this sectionالمراقبة البصرية في MDPs#
في تطبيقات الذكاء الاصطناعي الحديثة، غالباً ما تُستمد "حالة" MDP من البيانات المرئية. تعمل نماذج الإدراك عالية السرعة كعيون للنظام، حيث تحول خلاصات الكاميرا الخام إلى بيانات منظمة يمكن لـ MDP معالجتها. على سبيل المثال، يمكن لـ Ultralytics YOLO26 توفير إحداثيات الكائنات في الوقت الفعلي، والتي تعمل كمدخلات حالة لوكيل اتخاذ القرار.
يوضح المثال التالي كيفية استخراج تمثيل الحالة (صناديق التحديد) من صورة باستخدام Python، والتي يمكن بعد ذلك تغذيتها في سياسة MDP.
from ultralytics import YOLO
# Load the YOLO26 model to serve as the perception layer
model = YOLO("yolo26n.pt")
# Perform inference to observe the current 'state' of the environment
results = model("https://ultralytics.com/images/bus.jpg")
# Extract bounding box coordinates to form the state vector
# This structured data tells the agent where objects are located
for box in results[0].boxes:
print(f"State Object: Class {int(box.cls)} at {box.xywh.tolist()}")من خلال دمج نماذج الرؤية القوية مع أطر عمل MDP، يمكن للمطورين بناء أنظمة لا تدرك العالم فحسب، بل تتخذ أيضاً قرارات ذكية وتكيفية داخله. يعد هذا التآزر ضرورياً لتقدم الأنظمة ذاتية القيادة و التصنيع الذكي.






