Markov Karar Süreçlerinin (MDP) temellerini keşfedin. MDP'lerin pekiştirme öğrenmesini nasıl yönlendirdiğini ve Ultralytics gerçek zamanlı durum verilerini nasıl sağladığını öğrenin.
Markov Karar Süreci (MDP), sonuçların kısmen rastgele ve kısmen karar vericinin kontrolü altında olduğu durumlarda karar vermeyi modellemek için kullanılan matematiksel bir çerçevedir. Bu, pekiştirme öğreniminin (RL) temel planıdır ve yapay zeka ajanının belirli bir hedefe ulaşmak için çevreyle etkileşime girmesine yönelik yapılandırılmış bir yol sağlar. Statik etiketli veri kümelerine dayanan standart denetimli öğrenmeden farklı olarak, MDP, mevcut eylemlerin gelecekteki olasılıkları etkilediği sıralı karar verme sürecine odaklanır.
MDP'nin nasıl çalıştığını anlamak için, onu bir ajan ile çevresi arasındaki etkileşim döngüsü olarak görselleştirmek faydalıdır. Bu döngü beş temel bileşenle tanımlanır:
MDP'ler, birçok ileri teknolojinin arkasındaki karar verme motoru olarak işlev görür ve sistemlerin karmaşık, dinamik ortamlarda gezinmesini sağlar.
Yakından ilişkili olsalar da, MDP ile Pekiştirme Öğrenimi arasında ayrım yapmak önemlidir. MDP, resmi problem ifadesidir— ortamın matematiksel modelidir. Pekiştirme Öğrenimi, iç dinamikler (geçiş olasılıkları) tam olarak bilinmediğinde bu problemi çözmek için kullanılan yöntemdir. Q-öğrenme gibi RL algoritmaları, deneme yanılma yoluyla en iyi politikayı öğrenmek için MDP ile etkileşime girer.
Modern AI uygulamalarında, bir MDP'nin "durumu" genellikle görsel verilerden elde edilir. Yüksek hızlı algılama modeller, sistemin gözleri gibi çalışarak ham kamera görüntülerini MDP'nin işleyebileceği yapılandırılmış verilere dönüştürür. Örneğin , Ultralytics , karar verme ajanı için durum girdisi görevi gören gerçek zamanlı nesne koordinatları sağlayabilir.
Aşağıdaki örnek, Python kullanarak bir görüntüden durum temsilini (sınırlayıcı kutular) nasıl çıkarabileceğinizi gösterir. Bu temsil daha sonra bir MDP politikasına beslenebilir.
from ultralytics import YOLO
# Load the YOLO26 model to serve as the perception layer
model = YOLO("yolo26n.pt")
# Perform inference to observe the current 'state' of the environment
results = model("https://ultralytics.com/images/bus.jpg")
# Extract bounding box coordinates to form the state vector
# This structured data tells the agent where objects are located
for box in results[0].boxes:
print(f"State Object: Class {int(box.cls)} at {box.xywh.tolist()}")
Güçlü görme modellerini MDP çerçeveleriyle entegre ederek, geliştiriciler sadece dünyayı algılayan değil, aynı zamanda bu dünyada akıllı ve uyarlanabilir kararlar alan sistemler oluşturabilirler. Bu sinerji, otonom sistemlerin ve akıllı üretimin gelişimi için çok önemlidir.