Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Markov Karar Süreci (MDP)

Markov Karar Süreçlerini (MDP'ler) ve bunların yapay zeka, takviyeli öğrenme, robotik ve sağlık hizmetleri karar alma süreçlerindeki rolünü keşfedin.

Markov Karar Süreci (MDP), sonuçların kısmen rastgele ve kısmen karar vericinin kontrolü altında olduğu senaryolarda karar vermeyi modellemek için kullanılan kapsamlı bir matematiksel çerçevedir. Bu, Güçlendirme Öğreniminin (RL) teorik backbone olarak hizmet eder ve akıllı bir AI ajanı ile çevresi arasındaki etkileşimi resmileştirmek için yapılandırılmış bir yol sağlar. Karmaşık sorunları durumlara, eylemlere ve ödüllere ayırarak, MDP'ler araştırmacıların ve mühendislerin uzun vadeli hedefleri en üst düzeye çıkaran optimal politikaları hesaplamasına olanak tanır ve bu da onları robotikten finansa kadar çeşitli alanlarda ilerlemeler için vazgeçilmez kılar.

MDP'nin Temel Bileşenleri

Bir MDP, ortamın dinamiklerini karakterize eden farklı bileşenleri kullanarak sıralı bir karar verme problemini tanımlar. Bu unsurlar, bir optimizasyon algoritmasının zaman içinde belirli seçimlerin sonuçlarını değerlendirmesine olanak tanır: :

  • Durum Alanı (S): Bu, ajanın alabileceği tüm olası durumlar veya yapılandırmalar kümesini temsil eder. Bir navigasyon görevinde, durum bir aracın kesin GPS koordinatları olabilir.
  • Eylem Alanı (A): Belirli bir durumda ajanın kullanabileceği tüm geçerli hamleler veya kararlar kümesi.
  • Geçiş Olasılığı: Bu, belirli bir eylemden sonra bir durumdan diğerine geçme olasılığını tanımlar. Bu bileşen, stokastik süreçte içkin olan belirsizliği modeller ve MDP'leri deterministik planlamadan ayırır. .
  • Ödül Fonksiyonu: Bir durum-eylem çiftinin anlık faydasını sayısal bir değerle değerlendiren kritik bir geri bildirim sinyali. Bu, ajanları istenen sonuçlara yönlendirir, tıpkı kayıp fonksiyonlarının denetimli öğrenmeyi yönlendirmesi gibi.
  • İskonto Faktörü: Kısa vadeli planlama ile uzun vadeli planlama arasında denge kurarak, gelecekteki ödüllerin şimdiki ödüllere kıyasla önemini belirleyen bir parametredir. .

Bu çerçeveyi mümkün kılan temel varsayım, Markov özelliğidir. Bu özellik, sürecin gelecekteki gidişatının yalnızca mevcut duruma bağlı olduğunu, ajanın bu noktaya nasıl geldiğinin geçmişine bağlı olmadığını belirtir.

Gerçek Dünya Uygulamaları

MDP'ler sadece teorik yapılar değildir; uyarlanabilirlik ve planlama gerektiren pratik sorunları çözerler.

  • Otonom Araçlar: Otonom araçlar, üst düzey sürüş kararları almak için MDP'leri kullanır. "Durum", aracın hızını, şerit konumunu ve bilgisayar görme (CV) sistemleri tarafından algılanan çevredeki nesnelerin konumunu içerir. "Eylemler" direksiyon veya frenlemeyi içerir ve "ödül" güvenlik, verimlilik ve yolcu konforu için optimize edilir.
  • Sağlık Hizmetleri Tedavi Planlaması: Sağlık hizmetlerinde yapay zeka, MDP'ler kronik hastalıklar için kişiselleştirilmiş tedavi rejimleri tasarlanmasına yardımcı olur. Hastanın sağlık göstergeleri durumu temsil ederken, ilaç dozajları veya tedaviler eylemleri temsil eder. Amaç, genellikle tıbbi görüntü analizi yoluyla analiz edilen hastanın uzun vadeli yaşam kalitesini en üst düzeye çıkarmaktır. .
  • Envanter Optimizasyonu: Perakendeciler, stok seviyelerini yönetmek için MDP'leri kullanır. Envanter sayımlarını durumlar olarak ve yeniden sipariş kararlarını eylemler olarak modelleyerek, işletmeler stok tükenmesini önlerken tutma maliyetlerini en aza indirebilir; bu, perakendecilikte yapay zeka alanında önemli bir stratejidir.

Devlet Gözlemi için Entegre Vizyon

Birçok modern uygulamada, bir MDP'nin durumu görsel verilerden elde edilir. YOLO26 gibi yüksek performanslı algılama modelleri, karar verme ajansının anlayabileceği yapılandırılmış durum temsilleri (örneğin engellerin koordinatları) oluşturmak için video akışlarını işler.

Aşağıdaki Python , ultralytics bir görüntüden durum bilgilerini (sınırlayıcı kutular) çıkarmak için kullanılan paket, bu bilgiler daha sonra bir MDP politika ağına beslenebilir.

from ultralytics import YOLO

# Load the latest YOLO26 model to serve as the perception system
model = YOLO("yolo26n.pt")

# Perform inference to observe the current 'state' of the environment
results = model("https://ultralytics.com/images/bus.jpg")

# Extract the bounding box coordinates to form the state vector
for box in results[0].boxes:
    print(f"Detected State Object: Class {int(box.cls)} at {box.xywh.tolist()}")

MDP'yi İlgili Kavramlardan Ayırma

MDP'lerin daha geniş makine öğrenimi (ML) ortamında nereye uyduğunu anlamak için benzer terimlerden ayırt etmek gerekir:

  • Pekiştirme Öğrenimi (RL): Sık sık birlikte tartışılsa da, MDP problem formülasyonudur, RL ise geçiş olasılıkları veya ödül yapıları bilinmediğinde bunu çözmek için kullanılan yöntemdir. RL'de, ajan deneme yanılma yoluyla ortamı öğrenmeli, keşif ve sömürü arasında denge kurmalıdır.
  • Kısmen Gözlemlenebilir MDP (POMDP): Standart MDP'ler, ajanın mevcut durum hakkında mükemmel bilgiye sahip olduğunu varsayar. Robotik LiDAR aracılığıyla algılama gibi gerçek dünya senaryolarında, durum genellikle gürültülü veya eksiktir. POMDP'ler bu belirsizliği ele almak için çerçeveyi olası durumlar üzerinde olasılık dağılımları kullanarak genişletir.
  • Derin Pekiştirme Öğrenimi (DRL): Durum alanı tablolaştırılamayacak kadar büyük olduğunda (örneğin, bir video oyunundaki piksel kombinasyonları), DRL sinir ağlarını kullanarak durumların değerini yaklaşık olarak belirler. PyTorch gibi çerçeveler genellikle bu politika ağlarını oluşturmak için kullanılır.

Araçlar ve Çözücüler

Küçük MDP'lerin çözümü, değer yineleme gibi dinamik programlama teknikleri ile yapılabilir. Daha büyük ve daha karmaşık ortamlar için araştırmacılar, Gymnasium gibi simülasyon platformlarını kullanarak ajanları eğitmektedir. Bu simülasyonlar, akıllı üretimde robotik veya endüstriyel kontrolörler gibi fiziksel sistemlere politikalar uygulanmadan önce güvenli ve hızlandırılmış öğrenmeyi mümkün kılmaktadır.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın