Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Markov Karar Süreci (MDP)

Markov Karar Süreçlerinin (MDP) temellerini keşfedin. MDP'lerin pekiştirme öğrenmesini nasıl yönlendirdiğini ve Ultralytics gerçek zamanlı durum verilerini nasıl sağladığını öğrenin.

Markov Karar Süreci (MDP), sonuçların kısmen rastgele ve kısmen karar vericinin kontrolü altında olduğu durumlarda karar vermeyi modellemek için kullanılan matematiksel bir çerçevedir. Bu, pekiştirme öğreniminin (RL) temel planıdır ve yapay zeka ajanının belirli bir hedefe ulaşmak için çevreyle etkileşime girmesine yönelik yapılandırılmış bir yol sağlar. Statik etiketli veri kümelerine dayanan standart denetimli öğrenmeden farklı olarak, MDP, mevcut eylemlerin gelecekteki olasılıkları etkilediği sıralı karar verme sürecine odaklanır.

MDP'nin Temel Bileşenleri

MDP'nin nasıl çalıştığını anlamak için, onu bir ajan ile çevresi arasındaki etkileşim döngüsü olarak görselleştirmek faydalıdır. Bu döngü beş temel bileşenle tanımlanır:

  • Durum: Çevrenin mevcut durumu veya konfigürasyonu. Otonom araçlarda durum, aracın hızını, konumunu ve bilgisayar görme (CV) sensörleri tarafından algılanan yakındaki engelleri içerebilir.
  • Eylem: Ajanın kullanabileceği tüm olası hareketler veya seçenekler kümesi. Bu genellikle eylem alanı olarak adlandırılır ve ayrık (örneğin, sola hareket, sağa hareket) veya sürekli (örneğin, direksiyon açısını ayarlama) olabilir.
  • Geçiş Olasılığı: Bu, belirli bir eylemden sonra bir durumdan diğerine geçme olasılığını tanımlar. Gerçek dünyanın belirsizliğini ve dinamiklerini hesaba katarak, MDP'leri deterministik sistemlerden ayırır.
  • Ödül: Her eylemden sonra alınan sayısal bir sinyal. Ödül işlevi, ajanın davranışını yönlendirdiği için çok önemlidir — olumlu ödüller istenen eylemleri teşvik ederken, olumsuz ödüller (cezalar) hataları caydırır .
  • İndirim Faktörü: Anlık ödüllere kıyasla gelecekteki ödüllerin önemini belirleyen bir değer. Ajanın, stratejik optimizasyonun merkezinde yer alan bir kavram olan kısa vadeli tatmin yerine uzun vadeli planlamaya öncelik vermesine yardımcı olur.

Gerçek Dünya Uygulamaları

MDP'ler, birçok ileri teknolojinin arkasındaki karar verme motoru olarak işlev görür ve sistemlerin karmaşık, dinamik ortamlarda gezinmesini sağlar.

  • Robotik Kontrol: Robotikteki yapay zekada, MDP'ler makinelerin karmaşık motor becerilerini öğrenmelerini sağlar. Örneğin, bir robot kol, çarpışmalardan kaçınarak bir nesneyi almak için en uygun yolu belirlemek için MDP'leri kullanır. Durum, 3D nesne algılamadan elde edilen eklem açıları ve nesne konumudur ve ödül, başarılı kavrama hızına dayanır.
  • Envanter Yönetimi: Perakendeciler, envanter optimizasyonu için MDP'leri kullanır. Burada durum, mevcut stok seviyelerini temsil eder, eylemler yeniden sipariş kararlarıdır ve ödüller, kar marjlarından depolama ve stok tükenme maliyetleri çıkarılarak hesaplanır.
  • Sağlık Tedavisi: Kişiselleştirilmiş tıpta, MDP'ler dinamik tedavi planlarının tasarlanmasına yardımcı olur. Hasta sağlık ölçütlerini durumlar ve ilaçları eylemler olarak modelleyerek, doktorlar tahminsel modellemeyi kullanarak hastanın uzun vadeli sağlık sonuçlarını en üst düzeye çıkarabilirler.

Pekiştirme Öğrenimi ile İlişki

Yakından ilişkili olsalar da, MDP ile Pekiştirme Öğrenimi arasında ayrım yapmak önemlidir. MDP, resmi problem ifadesidir— ortamın matematiksel modelidir. Pekiştirme Öğrenimi, iç dinamikler (geçiş olasılıkları) tam olarak bilinmediğinde bu problemi çözmek için kullanılan yöntemdir. Q-öğrenme gibi RL algoritmaları, deneme yanılma yoluyla en iyi politikayı öğrenmek için MDP ile etkileşime girer.

MDP'lerde Görsel Gözlem

Modern AI uygulamalarında, bir MDP'nin "durumu" genellikle görsel verilerden elde edilir. Yüksek hızlı algılama modeller, sistemin gözleri gibi çalışarak ham kamera görüntülerini MDP'nin işleyebileceği yapılandırılmış verilere dönüştürür. Örneğin , Ultralytics , karar verme ajanı için durum girdisi görevi gören gerçek zamanlı nesne koordinatları sağlayabilir.

Aşağıdaki örnek, Python kullanarak bir görüntüden durum temsilini (sınırlayıcı kutular) nasıl çıkarabileceğinizi gösterir. Bu temsil daha sonra bir MDP politikasına beslenebilir.

from ultralytics import YOLO

# Load the YOLO26 model to serve as the perception layer
model = YOLO("yolo26n.pt")

# Perform inference to observe the current 'state' of the environment
results = model("https://ultralytics.com/images/bus.jpg")

# Extract bounding box coordinates to form the state vector
# This structured data tells the agent where objects are located
for box in results[0].boxes:
    print(f"State Object: Class {int(box.cls)} at {box.xywh.tolist()}")

Güçlü görme modellerini MDP çerçeveleriyle entegre ederek, geliştiriciler sadece dünyayı algılayan değil, aynı zamanda bu dünyada akıllı ve uyarlanabilir kararlar alan sistemler oluşturabilirler. Bu sinerji, otonom sistemlerin ve akıllı üretimin gelişimi için çok önemlidir.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın