Markov Karar Süreci (MDP)
Markov Karar Süreçlerini (MDP'ler) ve bunların yapay zeka, takviyeli öğrenme, robotik ve sağlık hizmetleri karar alma süreçlerindeki rolünü keşfedin.
Markov Karar Süreci (MDP), sonuçların kısmen rastgele ve kısmen karar vericinin kontrolü altında olduğu senaryolarda karar vermeyi modellemek için kullanılan kapsamlı bir matematiksel çerçevedir.
Bu, Güçlendirme Öğreniminin (RL) teorik
backbone olarak hizmet eder ve
akıllı bir AI ajanı ile çevresi arasındaki etkileşimi resmileştirmek için yapılandırılmış bir yol sağlar.
Karmaşık sorunları durumlara, eylemlere ve ödüllere ayırarak, MDP'ler araştırmacıların ve mühendislerin uzun vadeli hedefleri en üst düzeye çıkaran optimal politikaları hesaplamasına olanak tanır ve
bu da onları robotikten finansa kadar çeşitli alanlarda ilerlemeler için vazgeçilmez kılar.
MDP'nin Temel Bileşenleri
Bir MDP, ortamın dinamiklerini karakterize eden farklı bileşenleri kullanarak sıralı bir karar verme problemini tanımlar.
Bu unsurlar, bir
optimizasyon algoritmasının zaman içinde belirli seçimlerin sonuçlarını değerlendirmesine olanak tanır:
:
-
Durum Alanı (S): Bu, ajanın alabileceği
tüm olası durumlar veya yapılandırmalar kümesini temsil eder. Bir navigasyon görevinde, durum bir aracın kesin
GPS koordinatları olabilir.
-
Eylem Alanı (A): Belirli bir durumda ajanın kullanabileceği tüm geçerli hamleler
veya kararlar kümesi.
-
Geçiş Olasılığı: Bu, belirli bir eylemden sonra bir durumdan diğerine geçme olasılığını tanımlar.
Bu bileşen, stokastik süreçte içkin olan belirsizliği modeller ve MDP'leri
deterministik planlamadan ayırır.
.
-
Ödül Fonksiyonu: Bir durum-eylem çiftinin anlık faydasını sayısal bir değerle değerlendiren kritik bir geri bildirim sinyali.
Bu, ajanları istenen sonuçlara yönlendirir, tıpkı
kayıp fonksiyonlarının denetimli öğrenmeyi yönlendirmesi gibi.
-
İskonto Faktörü: Kısa vadeli planlama ile uzun vadeli planlama arasında denge kurarak, gelecekteki ödüllerin şimdiki ödüllere kıyasla önemini belirleyen bir parametredir.
.
Bu çerçeveyi mümkün kılan temel varsayım,
Markov özelliğidir. Bu özellik, sürecin gelecekteki gidişatının
yalnızca mevcut duruma bağlı olduğunu, ajanın bu noktaya nasıl geldiğinin geçmişine bağlı olmadığını belirtir.
Gerçek Dünya Uygulamaları
MDP'ler sadece teorik yapılar değildir; uyarlanabilirlik ve planlama gerektiren pratik sorunları çözerler.
-
Otonom Araçlar:
Otonom araçlar, üst düzey sürüş kararları almak için MDP'leri kullanır. "Durum", aracın hızını,
şerit konumunu ve bilgisayar görme (CV) sistemleri tarafından algılanan çevredeki nesnelerin konumunu içerir.
"Eylemler" direksiyon veya frenlemeyi içerir ve "ödül" güvenlik, verimlilik ve
yolcu konforu için optimize edilir.
-
Sağlık Hizmetleri Tedavi Planlaması:
Sağlık hizmetlerinde yapay zeka, MDP'ler kronik hastalıklar için kişiselleştirilmiş
tedavi rejimleri tasarlanmasına yardımcı olur. Hastanın sağlık göstergeleri durumu temsil ederken, ilaç
dozajları veya tedaviler eylemleri temsil eder. Amaç, genellikle tıbbi görüntü analizi yoluyla analiz edilen hastanın uzun vadeli yaşam kalitesini en üst düzeye çıkarmaktır.
.
-
Envanter Optimizasyonu: Perakendeciler, stok seviyelerini yönetmek için MDP'leri kullanır. Envanter sayımlarını durumlar olarak
ve yeniden sipariş kararlarını eylemler olarak modelleyerek, işletmeler stok tükenmesini önlerken tutma maliyetlerini en aza indirebilir; bu, perakendecilikte yapay zeka alanında önemli bir
stratejidir.
Devlet Gözlemi için Entegre Vizyon
Birçok modern uygulamada, bir MDP'nin durumu görsel verilerden elde edilir. YOLO26 gibi yüksek performanslı algılama modelleri, karar verme ajansının anlayabileceği yapılandırılmış durum temsilleri (örneğin engellerin koordinatları) oluşturmak için video akışlarını işler.
Aşağıdaki Python , ultralytics bir görüntüden durum bilgilerini
(sınırlayıcı kutular) çıkarmak için kullanılan paket, bu bilgiler daha sonra bir MDP politika ağına beslenebilir.
from ultralytics import YOLO
# Load the latest YOLO26 model to serve as the perception system
model = YOLO("yolo26n.pt")
# Perform inference to observe the current 'state' of the environment
results = model("https://ultralytics.com/images/bus.jpg")
# Extract the bounding box coordinates to form the state vector
for box in results[0].boxes:
print(f"Detected State Object: Class {int(box.cls)} at {box.xywh.tolist()}")
MDP'yi İlgili Kavramlardan Ayırma
MDP'lerin daha geniş
makine öğrenimi (ML) ortamında nereye uyduğunu anlamak için
benzer terimlerden ayırt etmek gerekir:
-
Pekiştirme Öğrenimi (RL):
Sık sık birlikte tartışılsa da, MDP problem formülasyonudur, RL ise geçiş olasılıkları veya ödül yapıları bilinmediğinde
bunu çözmek için kullanılan yöntemdir. RL'de, ajan deneme yanılma yoluyla
ortamı öğrenmeli, keşif ve sömürü arasında
denge kurmalıdır.
-
Kısmen Gözlemlenebilir MDP (POMDP):
Standart MDP'ler, ajanın mevcut durum hakkında mükemmel bilgiye sahip olduğunu varsayar. Robotik
LiDAR aracılığıyla algılama gibi gerçek dünya senaryolarında, durum genellikle gürültülü veya eksiktir. POMDP'ler
bu belirsizliği ele almak için çerçeveyi olası durumlar üzerinde olasılık dağılımları kullanarak genişletir.
-
Derin Pekiştirme Öğrenimi (DRL):
Durum alanı tablolaştırılamayacak kadar büyük olduğunda (örneğin, bir video oyunundaki piksel kombinasyonları), DRL
sinir ağlarını kullanarak durumların değerini
yaklaşık olarak belirler. PyTorch gibi çerçeveler genellikle bu politika ağlarını
oluşturmak için kullanılır.
Araçlar ve Çözücüler
Küçük MDP'lerin çözümü, değer yineleme gibi
dinamik programlama teknikleri ile yapılabilir.
Daha büyük ve daha karmaşık ortamlar için araştırmacılar,
Gymnasium gibi simülasyon platformlarını kullanarak ajanları eğitmektedir. Bu simülasyonlar,
akıllı üretimde robotik veya endüstriyel kontrolörler gibi fiziksel sistemlere
politikalar uygulanmadan önce güvenli ve hızlandırılmış
öğrenmeyi mümkün kılmaktadır.