Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Processo decisionale di Markov (MDP)

Scopri i processi decisionali di Markov (MDP) e il loro ruolo nell'IA, nel reinforcement learning, nella robotica e nel processo decisionale in ambito sanitario.

Un processo decisionale di Markov (MDP) è un quadro matematico utilizzato per modellare il processo decisionale in situazioni in cui i risultati sono in parte casuali e in parte sotto il controllo di un decisore. in cui i risultati sono in parte casuali e in parte sotto il controllo di un decisore. Serve come base teorica per Apprendimento per rinforzo (RL), fornendo un modo modo formale di descrivere l'ambiente in cui opera un agente di intelligenza artificiale. Strutturando i problemi in stati, azioni e ricompense, i MDP consentono ai sistemi intelligenti di calcolare la strategia migliore, nota come politica, per massimizzare gli obiettivi nel tempo. obiettivi specifici nel tempo. Questa struttura è essenziale per lo sviluppo di tecnologie avanzate, dai sistemi di trading automatizzati ai veicoli autonomi. sistemi di trading automatizzati ai veicoli autonomi.

Componenti fondamentali di una MDP

Un MDP caratterizza l'interazione tra un agente e il suo ambiente utilizzando cinque elementi distinti. Questi componenti consentono ai ricercatori di definire complessi problemi di problemi di apprendimento automatico (ML) in un formato risolvibile risolvibili:

  • Stati (S): L'insieme di tutte le possibili situazioni che l'agente può occupare. In una partita a scacchi, uno stato rappresenta la configurazione corrente dei pezzi sulla sulla scacchiera.
  • Azioni (A): L'insieme di tutte le possibili mosse o decisioni che l'agente può prendere a partire da un determinato stato.
  • Probabilità di transizione: La probabilità di passare da uno stato all'altro dopo aver eseguito un'azione specifica. azione specifica. Questo componente modella l'incertezza dell'ambiente, spesso descritta come un processo stocastico. processo stocastico.
  • Funzione di ricompensa: Un segnale di feedback che quantifica il beneficio immediato derivante dall'esecuzione di un'azione specifica in uno stato specifico. azione in uno stato specifico. L'agente utilizza questo segnale per valutare le proprie prestazioni.
  • Politica ($pi$): Una strategia o un regolamento che definisce il comportamento dell'agente. L'obiettivo della risoluzione di un MDP è trovare una "politica ottimale" che massimizzi la ricompensa totale attesa nel lungo periodo.

L'assunto centrale di questo quadro è la proprietà di Markov, che afferma che l'evoluzione futura del processo processo dipende solo dallo stato attuale e non dalla sequenza di eventi che lo hanno preceduto. Questo semplifica i requisiti computazionali per prendere decisioni ottimali.

Applicazioni nel mondo reale

Gli MDP sono ampiamente utilizzati in vari settori per risolvere problemi decisionali sequenziali in cui la pianificazione e l'adattabilità sono fondamentali. adattabilità sono cruciali.

  • Robotica: I robot operano spesso in ambienti dinamici dove i sensori forniscono dati rumorosi. Un MDP permette a un robot di pianificare il suo percorso trattando la sua posizione come stato e i suoi movimenti come azioni. posizione come stato e i suoi movimenti come azioni. I sistemi di visione, basati su modelli di rilevamento degli oggetti come YOLO11aiutano il robot a percepire lo stato del mondo, ad esempio la presenza di ostacoli. del mondo, come la presenza di ostacoli, consentendogli di navigare in modo sicuro ed efficiente.
  • Gestione delle scorte: Nella logistica della catena di approvvigionamento, le aziende utilizzano i MDP per ottimizzare i livelli delle scorte. In questo caso, lo stato è l'inventario corrente e le azioni consistono nel decidere quanto prodotto riordinare. La funzione di ricompensa di vendita rispetto ai costi di stoccaggio e ai mancati guadagni dovuti alle scorte, un'applicazione critica dell'IA per la vendita al dettaglio. applicazione dell'intelligenza artificiale per la vendita al dettaglio.
  • Pianificazione del trattamento sanitario: Le MDP assistono nella progettazione di piani di trattamento personalizzati per i pazienti con condizioni croniche. Modellando la salute del paziente come una serie di stati, i medici possono determinare la sequenza ottimale di trattamenti per massimizzare i risultati a lungo termine. sequenza ottimale di trattamenti per massimizzare i risultati di salute a lungo termine, sfruttando i dati dell'analisi delle immagini mediche. analisi delle immagini mediche.

La percezione come input dello Stato

Nelle moderne applicazioni di IA, lo "stato" di una MDP è spesso derivato da dati ad alta dimensionalità, come i feed video. video. Un modello di visione artificiale (CV) elabora visiva per creare una rappresentazione strutturata dello stato che l'algoritmo decisionale può comprendere.

Il seguente codice Python dimostra come utilizzare un modello YOLO11 preaddestrato per estrarre informazioni sullo stato (coordinate dell'oggetto) da un'immagine. coordinate dell'oggetto) da un'immagine. Questi dati possono servire come stato di ingresso per un agente basato su MDP.

from ultralytics import YOLO

# Load a pretrained YOLO11 model to act as the perception system
model = YOLO("yolo11n.pt")

# Perform inference on an image to observe the current 'state'
# In a real MDP, this would be a frame from the agent's environment
results = model("https://ultralytics.com/images/bus.jpg")

# Extract bounding box coordinates to represent the state
state_vector = results[0].boxes.xywh
print(f"Current State Observation: {state_vector}")

Distinguere i concetti correlati

È utile differenziare le MDP da altri termini correlati nel panorama dell'intelligenza artificiale (AI). intelligenza artificiale (IA):

  • Apprendimento per rinforzo (RL): Anche se spesso vengono usati in modo intercambiabile, la distinzione è importante. Un MDP è il quadro o il problema problema, mentre l'RL è il metodo utilizzato per risolverlo quando le probabilità di transizione e le funzioni di ricompensa non sono inizialmente note. non sono inizialmente note. Gli agenti apprendono la politica ottimale per tentativi ed errori, come descritto nei testi fondamentali di Sutton e Barto. di Sutton e Barto.
  • Modello di Markov nascosto (HMM): Un HMM viene utilizzato quando lo stato vero del sistema non è completamente osservabile e deve essere dedotto da uscite probabilistiche. probabilistici. Al contrario, un MDP standard presuppone che l'agente abbia piena visibilità dello stato corrente.
  • Apprendimento rinforzato profondo (DRL): Il DRL combina gli MDP con il deep learning (DL). I risolutori MDP tradizionali hanno difficoltà a gestire spazi di stati enormi (come il numero di possibili combinazioni di pixel in un videogioco). videogiochi). Il DRL utilizza reti neurali per approssimare il valore degli stati, consentendo di trovare soluzioni per ambienti complessi simulati in strumenti come Gymnasium.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora