Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Processo de Decisão de Markov (MDP)

Descubra os Processos de Decisão de Markov (MDPs) e seu papel na IA, aprendizado por reforço, robótica e tomada de decisões na área da saúde.

Um processo de decisão de Markov (MDP) é um quadro matemático utilizado para modelar a tomada de decisões em situações em que os resultados são parcialmente aleatórios e parcialmente sob o controlo de um decisor. Serve de base teórica para aprendizagem por reforço (RL), fornecendo uma forma formal de descrever um ambiente em que um agente de agente de IA funciona. Ao estruturar os problemas em estados, acções e recompensas, os MDP permitem aos sistemas inteligentes calcular a melhor estratégia, conhecida como política, para maximizar objectivos específicos ao longo do tempo. Este quadro é essencial para o desenvolvimento de tecnologias avançadas, desde sistemas de comércio sistemas de comércio automatizados a veículos autónomos.

Componentes principais de um MDP

Um MDP caracteriza a interação entre um agente e o seu ambiente utilizando cinco elementos distintos. Estes componentes permitem aos investigadores definir problemas complexos problemas complexos de aprendizagem automática (ML) num resolúveis:

  • Estados (S): O conjunto de todas as situações possíveis que o agente pode ocupar. Num jogo de xadrez, um estado representa a configuração atual das peças no no tabuleiro.
  • Acções (A): O conjunto de todas as movimentos ou decisões possíveis que o agente pode tomar a partir de um determinado estado.
  • Probabilidade de transição: A probabilidade de passar de um estado para outro depois de efetuar uma ação específica. Esta componente modela a incerteza no ambiente, frequentemente descrita como um processo estocástico.
  • Função de recompensa: Um sinal de feedback que quantifica o benefício imediato de tomar uma ação específica ação específica num estado específico. O agente utiliza este sinal para avaliar o seu desempenho.
  • Política ($\pi$): Uma estratégia ou manual de regras que define o comportamento do agente. O objetivo de resolver um MDP é encontrar uma "política óptima" que maximize a recompensa total esperada a longo prazo.

O pressuposto central deste quadro é a propriedade propriedade de Markov, que afirma que a evolução futura do do processo depende apenas do estado atual e não da sequência de acontecimentos que o precederam. Este facto simplifica os requisitos computacionais para tomar decisões óptimas.

Aplicações no Mundo Real

Os MDP são amplamente utilizados em vários sectores para resolver problemas de tomada de decisões sequenciais em que o planeamento e a adaptabilidade são cruciais.

  • Robótica: Os robôs operam frequentemente em ambientes dinâmicos onde os sensores fornecem dados ruidosos. Um MDP permite a um robô planear a sua trajetória, tratando a sua localização como o estado e os seus movimentos como acções. Os sistemas de visão, alimentados por modelos de deteção de objectos como YOLO11ajudam o robô a perceber o estado do mundo mundo - como a presença de obstáculos - permitindo-lhe navegar de forma segura e eficiente.
  • Gestão de stocks: Na logística da cadeia de abastecimento, as empresas utilizam MDPs para otimizar os níveis de stock. Aqui, o estado é o inventário atual e as acções envolvem decidir a quantidade de produto a encomendar. A função de recompensa A função de recompensa equilibra o lucro das vendas com os custos de armazenamento e a perda de receitas devido a rupturas de stock, uma uma aplicação crítica na IA para o retalho.
  • Planeamento de tratamentos de saúde: Os MDPs ajudam na conceção de planos de tratamento personalizados para pacientes pacientes com doenças crónicas. Ao modelar a saúde do paciente como uma série de estados, os médicos podem determinar a sequência sequência óptima de tratamentos para maximizar os resultados de saúde a longo prazo, tirando partido de análise de imagens médicas.

A perceção como entrada de estado

Nas aplicações modernas de IA, o "estado" de um MDP é frequentemente derivado de dados de elevada dimensão, tais como feeds de vídeo vídeo. Um modelo de visão por computador (CV) processa para criar uma representação estruturada do estado que o algoritmo de decisão possa compreender.

O seguinte código Python demonstra como utilizar um modelo YOLO11 pré-treinado para extrair informações de estado (coordenadas de objectos coordenadas de objectos) de uma imagem. Estes dados podem servir como estado de entrada para um agente baseado em MDP.

from ultralytics import YOLO

# Load a pretrained YOLO11 model to act as the perception system
model = YOLO("yolo11n.pt")

# Perform inference on an image to observe the current 'state'
# In a real MDP, this would be a frame from the agent's environment
results = model("https://ultralytics.com/images/bus.jpg")

# Extract bounding box coordinates to represent the state
state_vector = results[0].boxes.xywh
print(f"Current State Observation: {state_vector}")

Distinguir conceitos relacionados

É útil diferenciar os MDP de outros termos relacionados no panorama da inteligência artificial (IA):

  • Aprendizagem por reforço (RL): Embora muitas vezes utilizados indistintamente, a distinção é importante. Um MDP é o quadro ou o enunciado do problema ou enunciado do problema, enquanto a RL é o método utilizado para o resolver quando as probabilidades de transição e as funções de recompensa não são inicialmente conhecidas. Os agentes aprendem a política óptima através de tentativa e erro, tal como descrito nos textos fundamentais de Sutton e Barto.
  • Modelo de Markov Oculto (HMM): Um HMM é utilizado quando o estado real do sistema não é totalmente observável e tem de ser inferido a partir de resultados probabilísticos probabilísticos. Em contrapartida, um MDP normal assume que o agente tem total visibilidade do estado atual.
  • Aprendizagem por reforço profundo (DRL): A DRL combina MDPs com aprendizagem profunda (DL). Os solucionadores tradicionais de MDP debatem-se com espaços de estado maciços (como o número de combinações possíveis de pixéis num num jogo de vídeo). O DRL usa redes neurais para para aproximar o valor dos estados, permitindo soluções para ambientes complexos simulados em ferramentas como o Ginásio.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora