Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Markov Karar Süreci (MDP)

Markov Karar Süreçlerini (MDP'ler) ve bunların yapay zeka, takviyeli öğrenme, robotik ve sağlık hizmetleri karar alma süreçlerindeki rolünü keşfedin.

Markov Karar Süreci (MDP), sonuçların aşağıdaki durumlarda karar vermeyi modellemek için kullanılan matematiksel bir çerçevedir kısmen rastgele ve kısmen de bir karar vericinin kontrolü altındadır. için teorik temel olarak hizmet eder. Takviyeli Öğrenme (RL), bir bulunduğu bir ortamı tanımlamanın resmi bir yoludur. Yapay zeka ajanı çalışır. Sorunları durumlara göre yapılandırarak, eylemler ve ödüller, MDP'ler akıllı sistemlerin politika olarak bilinen en iyi stratejiyi hesaplamasını sağlar. zaman içinde belirli hedefler. Bu çerçeve, otomatik alım satım işlemlerinden gelişmiş teknolojiler geliştirmek için gereklidir sistemlerinden otonom araçlara kadar.

MDP'nin Temel Bileşenleri

Bir MDP, bir ajan ile çevresi arasındaki etkileşimi beş farklı unsur kullanarak karakterize eder. Bunlar bileşenleri araştırmacıların karmaşık makine öğrenimi (ML) problemlerini çözülebilir bir format:

  • Durumlar (S): Tüm devletlerin kümesi ajanın işgal edebileceği olası durumlar. Bir satranç oyununda, bir durum taşların mevcut konfigürasyonunu temsil eder Yönetim kurulu.
  • Eylemler (A): Tüm eylemlerin kümesi Temsilcinin belirli bir durumdan itibaren yapabileceği olası hamleler veya kararlar.
  • Geçiş Olasılığı: Bir durumu gerçekleştirdikten sonra bir durumdan diğerine geçme olasılığı özel eylem. Bu bileşen, ortamdaki belirsizliği modeller ve genellikle şu şekilde tanımlanır stokastik süreç.
  • Ödül Fonksiyonu: Belirli bir ödülün alınmasının anlık faydasını ölçen bir geri bildirim sinyali belirli bir durumdaki eylem. Temsilci bu sinyali performansını değerlendirmek için kullanır.
  • Politika ($\pi$): Temsilcinin davranışını tanımlayan bir strateji veya kural kitabı. Bir problemi çözmenin amacı MDP, uzun vadede toplam beklenen ödülü maksimize eden bir "optimal politika" bulmaktır.

Bu çerçevenin temel varsayımı şudur Markov özelliği, gelecekteki evriminin süreç sadece mevcut duruma bağlıdır ve ondan önceki olaylar dizisine bağlı değildir. Bu basitleştirir Optimal kararlar almak için hesaplama gereksinimleri.

Gerçek Dünya Uygulamaları

MDP'ler, planlama ve karar verme süreçlerinin birbirini izlediği sıralı karar verme problemlerini çözmek için çeşitli endüstrilerde yaygın olarak kullanılmaktadır. uyarlanabilirlik çok önemlidir.

  • Robotik: Robotlar genellikle Sensörlerin gürültülü veri sağladığı dinamik ortamlarda. Bir MDP, bir robotun yolunu, sensörlerini ve sensörlerin durum olarak konum ve eylemler olarak hareketleri. tarafından desteklenen görüntü sistemleri gibi nesne algılama modelleri YOLO11robotun durumu algılamasına yardımcı olur. engellerin varlığı gibi dünyayı algılayarak güvenli ve verimli bir şekilde gezinmesini sağlar.
  • Envanter Yönetimi: Tedarik zinciri lojistiğinde, işletmeler stok seviyelerini optimize etmek için MDP'leri kullanır. Burada durum mevcut envanterdir ve eylemler ne kadar ürünün yeniden sipariş edileceğine karar vermeyi içerir. Ödül işlevi, satışlardan elde edilen karı depolama maliyetleri ve stoksuzluktan kaynaklanan gelir kaybına karşı dengeler. perakende için yapay zeka uygulaması.
  • Sağlık Hizmeti Tedavi Planlaması: MDP'ler hastalar için kişiselleştirilmiş tedavi planlarının tasarlanmasına yardımcı olur kronik rahatsızlıkları olan. Doktorlar, hasta sağlığını bir dizi durum olarak modelleyerek, en uygun tedavi yöntemini belirleyebilirler. uzun vadeli sağlık sonuçlarını en üst düzeye çıkarmak için tedaviler dizisi, aşağıdaki bilgilerden yararlanarak tıbbi görüntü analizi.

Devlet Girdisi Olarak Algı

Modern yapay zeka uygulamalarında, bir MDP'nin "durumu" genellikle video gibi yüksek boyutlu verilerden türetilir yemler. Bir bilgisayarla görme (CV) modeli şunları işler Karar verme algoritmasının anlayabileceği yapılandırılmış bir durum temsili oluşturmak için görsel girdi.

Aşağıdaki Python kodu, durum bilgisini çıkarmak için önceden eğitilmiş bir YOLO11 modelinin nasıl kullanılacağını göstermektedir (nesne koordinatlar) bir görüntüden. Bu veriler MDP tabanlı bir ajan için girdi durumu olarak kullanılabilir.

from ultralytics import YOLO

# Load a pretrained YOLO11 model to act as the perception system
model = YOLO("yolo11n.pt")

# Perform inference on an image to observe the current 'state'
# In a real MDP, this would be a frame from the agent's environment
results = model("https://ultralytics.com/images/bus.jpg")

# Extract bounding box coordinates to represent the state
state_vector = results[0].boxes.xywh
print(f"Current State Observation: {state_vector}")

İlgili Kavramları Ayırt Etme

MDP'leri diğer ilgili terimlerden ayırmak faydalı olacaktır. yapay zeka (AI) ortamı:

  • Takviyeli Öğrenme (RL): Genellikle birbirinin yerine kullanılsa da, bu ayrım önemlidir. MDP bir çerçeve veya problemdir ifadesi, RL ise geçiş olasılıkları ve ödül fonksiyonları olduğunda çözmek için kullanılan yöntemdir. başlangıçta bilinmemektedir. Temsilciler, temel metinlerde açıklandığı gibi, deneme yanılma yoluyla en uygun politikayı öğrenirler Sutton ve Barto tarafından.
  • Gizli Markov Modeli (HMM): Bir HMM, sistemin gerçek durumu tam olarak gözlemlenemediğinde ve olasılıksal modellerden çıkarılması gerektiğinde kullanılır. çıktılar. Buna karşılık, standart bir MDP, aracının mevcut durumu tam olarak görebildiğini varsayar.
  • Derin Takviyeli Öğrenme (DRL): DRL, MDP'leri derin öğrenme (DL) ile birleştirir. Geleneksel MDP çözücüleri devasa durum uzayları ile mücadele eder (bir fotoğraf makinesindeki olası piksel kombinasyonlarının sayısı gibi). video oyunu). DRL aşağıdakiler için sinir ağları kullanır gibi araçlarda simüle edilen karmaşık ortamlar için çözümler sağlayarak durumların değerini yaklaşık olarak hesaplar. Gymnasium.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın