Processo de Decisão de Markov (MDP)
Descubra os Processos de Decisão de Markov (MDPs) e seu papel na IA, aprendizado por reforço, robótica e tomada de decisões na área da saúde.
Um processo de decisão de Markov (MDP) é um quadro matemático utilizado para modelar a tomada de decisões em situações em que os resultados
são parcialmente aleatórios e parcialmente sob o controlo de um decisor. Serve de base teórica para
aprendizagem por reforço (RL), fornecendo uma
forma formal de descrever um ambiente em que um agente de
agente de IA funciona. Ao estruturar os problemas em estados,
acções e recompensas, os MDP permitem aos sistemas inteligentes calcular a melhor estratégia, conhecida como política, para maximizar
objectivos específicos ao longo do tempo. Este quadro é essencial para o desenvolvimento de tecnologias avançadas, desde sistemas de comércio
sistemas de comércio automatizados a veículos autónomos.
Componentes principais de um MDP
Um MDP caracteriza a interação entre um agente e o seu ambiente utilizando cinco elementos distintos. Estes
componentes permitem aos investigadores definir problemas complexos
problemas complexos de aprendizagem automática (ML) num
resolúveis:
-
Estados (S): O conjunto de todas as
situações possíveis que o agente pode ocupar. Num jogo de xadrez, um estado representa a configuração atual das peças no
no tabuleiro.
-
Acções (A): O conjunto de todas as
movimentos ou decisões possíveis que o agente pode tomar a partir de um determinado estado.
-
Probabilidade de transição: A probabilidade de passar de um estado para outro depois de efetuar uma
ação específica. Esta componente modela a incerteza no ambiente, frequentemente descrita como um
processo estocástico.
-
Função de recompensa: Um sinal de feedback que quantifica o benefício imediato de tomar uma ação específica
ação específica num estado específico. O agente utiliza este sinal para avaliar o seu desempenho.
-
Política ($\pi$): Uma estratégia ou manual de regras que define o comportamento do agente. O objetivo de resolver um
MDP é encontrar uma "política óptima" que maximize a recompensa total esperada a longo prazo.
O pressuposto central deste quadro é a propriedade
propriedade de Markov, que afirma que a evolução futura do
do processo depende apenas do estado atual e não da sequência de acontecimentos que o precederam. Este facto simplifica os
requisitos computacionais para tomar decisões óptimas.
Aplicações no Mundo Real
Os MDP são amplamente utilizados em vários sectores para resolver problemas de tomada de decisões sequenciais em que o planeamento e a
adaptabilidade são cruciais.
-
Robótica: Os robôs operam frequentemente
em ambientes dinâmicos onde os sensores fornecem dados ruidosos. Um MDP permite a um robô planear a sua trajetória, tratando a sua
localização como o estado e os seus movimentos como acções. Os sistemas de visão, alimentados por
modelos de deteção de objectos como
YOLO11ajudam o robô a perceber o estado do mundo
mundo - como a presença de obstáculos - permitindo-lhe navegar de forma segura e eficiente.
-
Gestão de stocks: Na logística da cadeia de abastecimento, as empresas utilizam MDPs para otimizar os níveis de stock.
Aqui, o estado é o inventário atual e as acções envolvem decidir a quantidade de produto a encomendar. A função de recompensa
A função de recompensa equilibra o lucro das vendas com os custos de armazenamento e a perda de receitas devido a rupturas de stock, uma
uma aplicação crítica na IA para o retalho.
-
Planeamento de tratamentos de saúde: Os MDPs ajudam na conceção de planos de tratamento personalizados para pacientes
pacientes com doenças crónicas. Ao modelar a saúde do paciente como uma série de estados, os médicos podem determinar a sequência
sequência óptima de tratamentos para maximizar os resultados de saúde a longo prazo, tirando partido de
análise de imagens médicas.
A perceção como entrada de estado
Nas aplicações modernas de IA, o "estado" de um MDP é frequentemente derivado de dados de elevada dimensão, tais como feeds de vídeo
vídeo. Um modelo de visão por computador (CV) processa
para criar uma representação estruturada do estado que o algoritmo de decisão possa compreender.
O seguinte código Python demonstra como utilizar um modelo YOLO11 pré-treinado para extrair informações de estado (coordenadas de objectos
coordenadas de objectos) de uma imagem. Estes dados podem servir como estado de entrada para um agente baseado em MDP.
from ultralytics import YOLO
# Load a pretrained YOLO11 model to act as the perception system
model = YOLO("yolo11n.pt")
# Perform inference on an image to observe the current 'state'
# In a real MDP, this would be a frame from the agent's environment
results = model("https://ultralytics.com/images/bus.jpg")
# Extract bounding box coordinates to represent the state
state_vector = results[0].boxes.xywh
print(f"Current State Observation: {state_vector}")
Distinguir conceitos relacionados
É útil diferenciar os MDP de outros termos relacionados no panorama da
inteligência artificial (IA):
-
Aprendizagem por reforço (RL):
Embora muitas vezes utilizados indistintamente, a distinção é importante. Um MDP é o quadro ou o enunciado do problema
ou enunciado do problema, enquanto a RL é o método utilizado para o resolver quando as probabilidades de transição e as funções de recompensa
não são inicialmente conhecidas. Os agentes aprendem a política óptima através de tentativa e erro, tal como descrito nos textos fundamentais
de Sutton e Barto.
-
Modelo de Markov Oculto (HMM):
Um HMM é utilizado quando o estado real do sistema não é totalmente observável e tem de ser inferido a partir de resultados probabilísticos
probabilísticos. Em contrapartida, um MDP normal assume que o agente tem total visibilidade do estado atual.
-
Aprendizagem por reforço profundo (DRL):
A DRL combina MDPs com aprendizagem profunda (DL).
Os solucionadores tradicionais de MDP debatem-se com espaços de estado maciços (como o número de combinações possíveis de pixéis num
num jogo de vídeo). O DRL usa redes neurais para
para aproximar o valor dos estados, permitindo soluções para ambientes complexos simulados em ferramentas como o
Ginásio.