استكشف أساسيات عمليات اتخاذ القرار في ماركوف (MDP). تعرف على كيفية قيام عمليات MDP بتعزيز التعلم المعزز وكيفية قيام Ultralytics بتوفير بيانات الحالة في الوقت الفعلي.
عملية قرار ماركوف (MDP) هي إطار عمل رياضي يستخدم لنمذجة عملية اتخاذ القرار في المواقف التي تكون فيها النتائج جزئية عشوائية وجزئية تحت سيطرة صانع القرار. وهي المخطط الأساسي للتعلم المعزز (RL)، حيث توفر طريقة منظمة لوكيل الذكاء الاصطناعي للتفاعل مع البيئة لتحقيق هدف محدد. على عكس التعلم الخاضع للإشراف القياسي، الذي يعتمد على مجموعات بيانات ثابتة مصنفة، تركز عملية اتخاذ القرار ماركوفية على اتخاذ القرارات المتسلسلة حيث تؤثر الإجراءات الحالية على الاحتمالات المستقبلية.
لفهم كيفية عمل نموذج تطوير المنتجات (MDP)، من المفيد تصوره على أنه دورة تفاعل بين الوكيل وبيئته . يتم تحديد هذه الدورة من خلال خمسة مكونات رئيسية:
تعمل MDPs كمحرك لاتخاذ القرار وراء العديد من التقنيات المتقدمة، مما يسمح للأنظمة بالتنقل في بيئات معقدة وديناميكية. .
على الرغم من ارتباطهما الوثيق، من المهم التمييز بين MDP والتعلم المعزز. MDP هو بيان المشكلة الرسمي— النموذج الرياضي للبيئة. التعلم المعزز هو الطريقة المستخدمة لحل تلك المشكلة عندما لا تكون الديناميكيات الداخلية (احتمالات الانتقال) معروفة بالكامل. تتفاعل خوارزميات RL، مثل Q-learning، مع MDP لتعلم أفضل سياسة من خلال التجربة والخطأ.
في تطبيقات الذكاء الاصطناعي الحديثة، غالبًا ما يتم اشتقاق "حالة" MDP من البيانات المرئية. تعمل نماذج الإدراك عالية السرعة كعينين للنظام، حيث تحول موجات الكاميرا الأولية إلى بيانات منظمة يمكن لـ MDP معالجتها. على سبيل المثال، يمكن ل Ultralytics توفير إحداثيات الكائنات في الوقت الفعلي ، والتي تعمل كمدخلات للحالة لوكيل صنع القرار.
يوضح المثال التالي كيفية استخراج تمثيل الحالة (المربعات المحيطة) من صورة باستخدام Python والتي يمكن بعد ذلك إدخالها في سياسة MDP.
from ultralytics import YOLO
# Load the YOLO26 model to serve as the perception layer
model = YOLO("yolo26n.pt")
# Perform inference to observe the current 'state' of the environment
results = model("https://ultralytics.com/images/bus.jpg")
# Extract bounding box coordinates to form the state vector
# This structured data tells the agent where objects are located
for box in results[0].boxes:
print(f"State Object: Class {int(box.cls)} at {box.xywh.tolist()}")
من خلال دمج نماذج الرؤية القوية مع أطر عمل MDP، يمكن للمطورين بناء أنظمة لا تقتصر على إدراك العالم فحسب ، بل تتخذ أيضًا قرارات ذكية وقابلة للتكيف داخله. هذا التآزر ضروري لتطوير الأنظمة المستقلة والتصنيع الذكي .