Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

عملية قرار ماركوف (Markov Decision Process (MDP))

استكشف أساسيات عمليات اتخاذ القرار في ماركوف (MDP). تعرف على كيفية قيام عمليات MDP بتعزيز التعلم المعزز وكيفية قيام Ultralytics بتوفير بيانات الحالة في الوقت الفعلي.

عملية قرار ماركوف (MDP) هي إطار عمل رياضي يستخدم لنمذجة عملية اتخاذ القرار في المواقف التي تكون فيها النتائج جزئية عشوائية وجزئية تحت سيطرة صانع القرار. وهي المخطط الأساسي للتعلم المعزز (RL)، حيث توفر طريقة منظمة لوكيل الذكاء الاصطناعي للتفاعل مع البيئة لتحقيق هدف محدد. على عكس التعلم الخاضع للإشراف القياسي، الذي يعتمد على مجموعات بيانات ثابتة مصنفة، تركز عملية اتخاذ القرار ماركوفية على اتخاذ القرارات المتسلسلة حيث تؤثر الإجراءات الحالية على الاحتمالات المستقبلية.

المكونات الأساسية للبرنامج الإنمائي للألفية

لفهم كيفية عمل نموذج تطوير المنتجات (MDP)، من المفيد تصوره على أنه دورة تفاعل بين الوكيل وبيئته . يتم تحديد هذه الدورة من خلال خمسة مكونات رئيسية:

  • الحالة: الوضع أو التكوين الحالي للبيئة. في المركبات ذاتية القيادة، قد تشمل الحالة سرعة السيارة وموقعها والعوائق القريبة التي تم الكشف عنها بواسطة مستشعرات الرؤية الحاسوبية (CV).
  • الإجراء: مجموعة جميع الحركات أو الخيارات الممكنة المتاحة للوكيل. غالبًا ما يشار إلى ذلك بمساحة الإجراء، والتي يمكن أن تكون منفصلة (على سبيل المثال، التحرك إلى اليسار، التحرك إلى اليمين) أو مستمرة (على سبيل المثال، ضبط زاوية التوجيه).
  • احتمالية الانتقال: تحدد احتمالية الانتقال من حالة إلى أخرى بعد اتخاذ إجراء معين. وهي تراعي عدم اليقين وديناميكيات العالم الحقيقي، مما يميز MDPs عن الأنظمة الحتمية.
  • المكافأة: إشارة رقمية يتم تلقيها بعد كل إجراء. وظيفة المكافأة مهمة للغاية لأنها توجه سلوك الوكيل — المكافآت الإيجابية تشجع على القيام بالأعمال المرغوبة، بينما المكافآت السلبية (العقوبات) تثني عن ارتكاب الأخطاء.
  • عامل الخصم: قيمة تحدد أهمية المكافآت المستقبلية مقارنة بالمكافآت الفورية. وهي تساعد الوكيل على إعطاء الأولوية للتخطيط طويل الأجل على حساب الإشباع قصير الأجل، وهو مفهوم أساسي في التحسين الاستراتيجي.

تطبيقات واقعية

تعمل MDPs كمحرك لاتخاذ القرار وراء العديد من التقنيات المتقدمة، مما يسمح للأنظمة بالتنقل في بيئات معقدة وديناميكية. .

  • التحكم في الروبوتات: في الذكاء الاصطناعي في الروبوتات، تتيح MDPs للآلات تعلم مهارات حركية معقدة. على سبيل المثال، تستخدم الذراع الروبوتية MDPs لتحديد المسار الأمثل لالتقاط جسم ما مع تجنب الاصطدامات. الحالة هي زوايا المفاصل وموضع الجسم، المستمدة من الكشف عن الأجسام ثلاثية الأبعاد، والمكافأة تعتمد على سرعة الإمساك الناجحة.
  • إدارة المخزون: يستخدم تجار التجزئة برامج تطوير النموذج (MDP) من أجل تحسين المخزون. هنا، تمثل الحالة مستويات المخزون الحالية، والإجراءات هي قرارات إعادة الترتيب، ويتم حساب المكافآت على أساس هوامش الربح مطروحًا منها تكاليف التخزين ونفاد المخزون.
  • العلاج الصحي: في الطب الشخصي، تساعد برامج MDP في تصميم خطط علاج ديناميكية. من خلال نمذجة مقاييس صحة المريض كحالات والأدوية كإجراءات، يمكن للأطباء استخدام النمذجة التنبؤية لتحقيق أقصى قدر من النتائج الصحية طويلة الأجل للمريض.

العلاقة مع التعلم المعزز

على الرغم من ارتباطهما الوثيق، من المهم التمييز بين MDP والتعلم المعزز. MDP هو بيان المشكلة الرسمي— النموذج الرياضي للبيئة. التعلم المعزز هو الطريقة المستخدمة لحل تلك المشكلة عندما لا تكون الديناميكيات الداخلية (احتمالات الانتقال) معروفة بالكامل. تتفاعل خوارزميات RL، مثل Q-learning، مع MDP لتعلم أفضل سياسة من خلال التجربة والخطأ.

المراقبة البصرية في برامج MDP

في تطبيقات الذكاء الاصطناعي الحديثة، غالبًا ما يتم اشتقاق "حالة" MDP من البيانات المرئية. تعمل نماذج الإدراك عالية السرعة كعينين للنظام، حيث تحول موجات الكاميرا الأولية إلى بيانات منظمة يمكن لـ MDP معالجتها. على سبيل المثال، يمكن ل Ultralytics توفير إحداثيات الكائنات في الوقت الفعلي ، والتي تعمل كمدخلات للحالة لوكيل صنع القرار.

يوضح المثال التالي كيفية استخراج تمثيل الحالة (المربعات المحيطة) من صورة باستخدام Python والتي يمكن بعد ذلك إدخالها في سياسة MDP.

from ultralytics import YOLO

# Load the YOLO26 model to serve as the perception layer
model = YOLO("yolo26n.pt")

# Perform inference to observe the current 'state' of the environment
results = model("https://ultralytics.com/images/bus.jpg")

# Extract bounding box coordinates to form the state vector
# This structured data tells the agent where objects are located
for box in results[0].boxes:
    print(f"State Object: Class {int(box.cls)} at {box.xywh.tolist()}")

من خلال دمج نماذج الرؤية القوية مع أطر عمل MDP، يمكن للمطورين بناء أنظمة لا تقتصر على إدراك العالم فحسب ، بل تتخذ أيضًا قرارات ذكية وقابلة للتكيف داخله. هذا التآزر ضروري لتطوير الأنظمة المستقلة والتصنيع الذكي .

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن