Markov Decision Process (MDP)
Markov Karar Süreçlerinin (MDP) temellerini keşfet. MDP'lerin pekiştirmeli öğrenmeyi nasıl yönlendirdiğini ve Ultralytics YOLO26'nın gerçek zamanlı durum verisini nasıl sağladığını öğren.
A Markov Decision Process (MDP) is a mathematical framework used to model decision-making in situations where outcomes are partly random and partly under the control of a decision-maker. It is the fundamental blueprint for reinforcement learning (RL), providing a structured way for an AI agent to interact with an environment to achieve a specific goal. Unlike standard supervised learning, which relies on static labeled datasets, an MDP focuses on sequential decision-making where current actions influence future possibilities.
Link to this sectionBir MDP'nin Temel Bileşenleri#
Bir MDP'nin nasıl çalıştığını anlamak için, onu bir aracı ile çevresi arasındaki etkileşim döngüsü olarak görselleştirmek faydalıdır. Bu döngü beş temel bileşenle tanımlanır:
- Durum: Ortamın mevcut durumu veya yapılandırması. Otonom araçlarda durum, aracın hızını, konumunu ve bilgisayarlı görü (CV) sensörleri tarafından algılanan yakındaki engelleri içerebilir.
- Eylem: Aracı tarafından kullanılabilen tüm olası hareketler veya seçimler kümesi. Bu, genellikle kesikli (örneğin sola git, sağa git) veya sürekli (örneğin direksiyon açısını ayarlama) olabilen eylem alanı olarak adlandırılır.
- Geçiş Olasılığı: Bu, belirli bir eylemi gerçekleştirdikten sonra bir durumdan diğerine geçme olasılığını tanımlar. MDP'leri deterministik sistemlerden ayıran, gerçek dünyanın belirsizliğini ve dinamiklerini hesaba katar.
- Ödül: Her eylemden sonra alınan sayısal bir sinyal. Ödül fonksiyonu, aracının davranışını yönlendirdiği için kritiktir; pozitif ödüller arzu edilen eylemleri teşvik ederken, negatif ödüller (cezalar) hataları caydırır.
- İndirgeme Faktörü: Gelecekteki ödüllerin anlık olanlara kıyasla önemini belirleyen bir değer. Aracının kısa vadeli tatmin yerine uzun vadeli planlamaya öncelik vermesine yardımcı olur; bu, stratejik optimizasyonun merkezinde yer alan bir kavramdır.
Link to this sectionGerçek Dünya Uygulamaları#
MDP'ler, birçok ileri teknolojinin arkasındaki karar verme motoru görevi görerek sistemlerin karmaşık ve dinamik ortamlarda gezinmesini sağlar.
- Robotik Kontrol: Robotikte yapay zeka alanında MDP'ler, makinelerin karmaşık motor becerileri öğrenmesini sağlar. Örneğin, robotik bir kol, bir nesneyi alırken çarpışmalardan kaçınmak için en uygun yolu belirlemek amacıyla MDP'leri kullanır. Durum, 3D nesne algılamadan türetilen eklem açıları ve nesne konumudur; ödül ise başarılı kavrama hızına göre belirlenir.
- Envanter Yönetimi: Perakendeciler MDP'leri envanter optimizasyonu için kullanırlar. Burada durum mevcut stok seviyelerini temsil eder, eylemler yeniden sipariş kararlarıdır ve ödüller kar marjlarından depolama ve stoksuz kalma maliyetlerinin çıkarılmasıyla hesaplanır.
- Sağlık Tedavisi: Kişiselleştirilmiş tıpta MDP'ler dinamik tedavi planları oluşturmaya yardımcı olur. Doktorlar, hasta sağlığı metriklerini durumlar ve ilaçları eylemler olarak modelleyerek, hastanın uzun vadeli sağlık sonuçlarını maksimize etmek için tahminleyici modellemeden yararlanabilirler.
Link to this sectionPekiştirmeli Öğrenme ile İlişkisi#
Yakından ilişkili olsalar da, bir MDP ile Pekiştirmeli Öğrenme arasında ayrım yapmak önemlidir. MDP, resmi problem ifadesidir; yani ortamın matematiksel modelidir. Pekiştirmeli Öğrenme, iç dinamikler (geçiş olasılıkları) tam olarak bilinmediğinde bu problemi çözmek için kullanılan yöntemdir. Q-learning gibi RL algoritmaları, deneme yanılma yoluyla en iyi politikayı öğrenmek için MDP ile etkileşime girer.
Link to this sectionMDP'lerde Görsel Gözlem#
Modern yapay zeka uygulamalarında, bir MDP'nin "durumu" genellikle görsel verilerden türetilir. Yüksek hızlı algılama modelleri sistemin gözleri gibi davranarak ham kamera görüntülerini MDP'nin işleyebileceği yapılandırılmış verilere dönüştürür. Örneğin, Ultralytics YOLO26, karar verici bir aracı için durum girdileri görevi gören gerçek zamanlı nesne koordinatları sağlayabilir.
Aşağıdaki örnek, bir MDP politikasına aktarılabilecek bir durum temsilinin (sınırlayıcı kutular) Python kullanılarak bir görüntüden nasıl çıkarılacağını göstermektedir.
from ultralytics import YOLO
# Load the YOLO26 model to serve as the perception layer
model = YOLO("yolo26n.pt")
# Perform inference to observe the current 'state' of the environment
results = model("https://ultralytics.com/images/bus.jpg")
# Extract bounding box coordinates to form the state vector
# This structured data tells the agent where objects are located
for box in results[0].boxes:
print(f"State Object: Class {int(box.cls)} at {box.xywh.tolist()}")Güçlü görü modellerini MDP çerçeveleriyle entegre ederek, geliştiriciler dünyayı sadece algılamakla kalmayıp aynı zamanda içinde akıllı ve uyarlanabilir kararlar alan sistemler inşa edebilirler. Bu sinerji, otonom sistemlerin ve akıllı üretimin ilerlemesi için gereklidir.






