Proceso de Decisión de Markov (MDP)
Descubra los procesos de decisión de Markov (MDP) y su papel en la IA, el aprendizaje por refuerzo, la robótica y la toma de decisiones en la atención médica.
Un Proceso de Decisión de Markov (MDP) es un marco matemático utilizado para modelizar la toma de decisiones en situaciones en las que los resultados
en las que los resultados son en parte aleatorios y en parte controlados por el decisor. Sirve de base teórica para
aprendizaje por refuerzo (RL), ya que proporciona una
manera formal de describir un entorno en el que
agente de inteligencia artificial. Al estructurar los problemas en estados
acciones y recompensas, los MDP permiten a los sistemas inteligentes calcular la mejor estrategia, conocida como política, para maximizar objetivos específicos a lo largo del tiempo.
objetivos específicos a lo largo del tiempo. Este marco es esencial para desarrollar tecnologías avanzadas, desde sistemas de comercio automatizado hasta vehículos autónomos.
los vehículos autónomos.
Componentes básicos de un MDP
Un MDP caracteriza la interacción entre un agente y su entorno utilizando cinco elementos distintos. Estos componentes de
componentes permiten a los investigadores definir
de aprendizaje automático (AM) en un formato
solucionables:
-
Estados (S): El conjunto de todas las
posibles situaciones que puede ocupar el agente. En una partida de ajedrez, un estado representa la configuración actual de las piezas en el tablero.
en el tablero.
-
Acciones (A): Conjunto de todos los
posibles movimientos o decisiones que el agente puede tomar a partir de un estado dado.
-
Probabilidad de transición: La probabilidad de pasar de un estado a otro tras realizar una
acción concreta. Este componente modela la incertidumbre del entorno, a menudo descrito como un proceso estocástico.
proceso estocástico.
-
Función de recompensa: Señal de retroalimentación que cuantifica el beneficio inmediato de realizar una determinada
acción en un estado específico. El agente utiliza esta señal para evaluar su rendimiento.
-
Política ($\pi$): Estrategia o reglamento que define el comportamiento del agente. El objetivo de resolver un
MDP es encontrar una "política óptima" que maximice la recompensa total esperada a largo plazo.
El supuesto central de este marco es la
propiedad de Markov, que establece que la evolución futura del
del proceso depende únicamente del estado actual y no de la secuencia de acontecimientos que lo precedieron. Esto simplifica
requisitos computacionales para tomar decisiones óptimas.
Aplicaciones en el mundo real
Los MDP se utilizan ampliamente en diversos sectores para resolver problemas de toma de decisiones secuenciales en los que la planificación y la adaptabilidad son cruciales.
adaptabilidad son cruciales.
-
Robótica: Los robots operan a menudo
en entornos dinámicos en los que los sensores proporcionan datos ruidosos. Un MDP permite a un robot planificar su trayectoria tratando su
su ubicación como estado y sus movimientos como acciones. Los sistemas de visión, basados en
modelos de detección de objetos como
YOLO11ayudan al robot a percibir el estado del mundo
del mundo, como la presencia de obstáculos, lo que le permite desplazarse con seguridad y eficacia.
-
Gestión de existencias: En la logística de la cadena de suministro, las empresas utilizan MDP para optimizar los niveles de existencias.
En este caso, el estado es el inventario actual y las acciones consisten en decidir la cantidad de producto que se va a pedir. La función de recompensa
La función de recompensa equilibra el beneficio de las ventas con los costes de almacenamiento y la pérdida de ingresos por falta de existencias, una aplicación fundamental en la IA para el comercio minorista.
en la IA para el comercio minorista.
-
Planificación del tratamiento sanitario: Los MDP ayudan a diseñar planes de tratamiento personalizados para pacientes
pacientes con enfermedades crónicas. Al modelar la salud del paciente como una serie de estados, los médicos pueden determinar la secuencia óptima de tratamientos para maximizar los resultados de salud a largo plazo.
secuencia óptima de tratamientos para maximizar los resultados de salud a largo plazo.
análisis de imágenes médicas.
La percepción como entrada del Estado
En las aplicaciones modernas de IA, el "estado" de un MDP se obtiene a menudo a partir de datos de alta dimensionalidad, como las secuencias de vídeo.
vídeo. Un modelo de visión por ordenador (CV) procesa
visual para crear una representación estructurada del estado que el algoritmo de toma de decisiones pueda comprender.
El siguiente código Python muestra cómo utilizar un modelo YOLO11 preentrenado para extraer información de estado (coordenadas de objetos) de una imagen.
coordenadas) de una imagen. Estos datos pueden servir como estado de entrada para un agente basado en MDP.
from ultralytics import YOLO
# Load a pretrained YOLO11 model to act as the perception system
model = YOLO("yolo11n.pt")
# Perform inference on an image to observe the current 'state'
# In a real MDP, this would be a frame from the agent's environment
results = model("https://ultralytics.com/images/bus.jpg")
# Extract bounding box coordinates to represent the state
state_vector = results[0].boxes.xywh
print(f"Current State Observation: {state_vector}")
Distinguir conceptos relacionados
Es útil diferenciar los MDP de otros términos relacionados en el panorama de la
inteligencia artificial (IA):
-
Aprendizaje por refuerzo (RL):
Aunque a menudo se utilizan indistintamente, la distinción es importante. Un MDP es el marco o enunciado del
problema, mientras que el RL es el método utilizado para resolverlo cuando las probabilidades de transición y las funciones de recompensa no se conocen inicialmente.
no se conocen inicialmente. Los agentes aprenden la política óptima mediante ensayo y error, como se describe en los textos fundacionales
de Sutton y Barto.
-
Modelo de Markov oculto (HMM):
Un HMM se utiliza cuando el verdadero estado del sistema no es totalmente observable y debe inferirse a partir de salidas probabilísticas.
probabilísticos. En cambio, un MDP estándar supone que el agente tiene plena visibilidad del estado actual.
-
Aprendizaje profundo por refuerzo (DRL):
DRL combina MDP con aprendizaje profundo (DL).
Los solucionadores de MDP tradicionales se enfrentan a espacios de estados masivos (como el número de combinaciones de píxeles posibles en un videojuego).
un videojuego). DRL utiliza redes neuronales para
aproximar el valor de los estados, lo que permite soluciones para entornos complejos simulados en herramientas como
Gimnasio.