Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Proceso de Decisión de Markov (MDP)

Descubra los procesos de decisión de Markov (MDP) y su papel en la IA, el aprendizaje por refuerzo, la robótica y la toma de decisiones en la atención médica.

Un Proceso de Decisión de Markov (MDP) es un marco matemático utilizado para modelizar la toma de decisiones en situaciones en las que los resultados en las que los resultados son en parte aleatorios y en parte controlados por el decisor. Sirve de base teórica para aprendizaje por refuerzo (RL), ya que proporciona una manera formal de describir un entorno en el que agente de inteligencia artificial. Al estructurar los problemas en estados acciones y recompensas, los MDP permiten a los sistemas inteligentes calcular la mejor estrategia, conocida como política, para maximizar objetivos específicos a lo largo del tiempo. objetivos específicos a lo largo del tiempo. Este marco es esencial para desarrollar tecnologías avanzadas, desde sistemas de comercio automatizado hasta vehículos autónomos. los vehículos autónomos.

Componentes básicos de un MDP

Un MDP caracteriza la interacción entre un agente y su entorno utilizando cinco elementos distintos. Estos componentes de componentes permiten a los investigadores definir de aprendizaje automático (AM) en un formato solucionables:

  • Estados (S): El conjunto de todas las posibles situaciones que puede ocupar el agente. En una partida de ajedrez, un estado representa la configuración actual de las piezas en el tablero. en el tablero.
  • Acciones (A): Conjunto de todos los posibles movimientos o decisiones que el agente puede tomar a partir de un estado dado.
  • Probabilidad de transición: La probabilidad de pasar de un estado a otro tras realizar una acción concreta. Este componente modela la incertidumbre del entorno, a menudo descrito como un proceso estocástico. proceso estocástico.
  • Función de recompensa: Señal de retroalimentación que cuantifica el beneficio inmediato de realizar una determinada acción en un estado específico. El agente utiliza esta señal para evaluar su rendimiento.
  • Política ($\pi$): Estrategia o reglamento que define el comportamiento del agente. El objetivo de resolver un MDP es encontrar una "política óptima" que maximice la recompensa total esperada a largo plazo.

El supuesto central de este marco es la propiedad de Markov, que establece que la evolución futura del del proceso depende únicamente del estado actual y no de la secuencia de acontecimientos que lo precedieron. Esto simplifica requisitos computacionales para tomar decisiones óptimas.

Aplicaciones en el mundo real

Los MDP se utilizan ampliamente en diversos sectores para resolver problemas de toma de decisiones secuenciales en los que la planificación y la adaptabilidad son cruciales. adaptabilidad son cruciales.

  • Robótica: Los robots operan a menudo en entornos dinámicos en los que los sensores proporcionan datos ruidosos. Un MDP permite a un robot planificar su trayectoria tratando su su ubicación como estado y sus movimientos como acciones. Los sistemas de visión, basados en modelos de detección de objetos como YOLO11ayudan al robot a percibir el estado del mundo del mundo, como la presencia de obstáculos, lo que le permite desplazarse con seguridad y eficacia.
  • Gestión de existencias: En la logística de la cadena de suministro, las empresas utilizan MDP para optimizar los niveles de existencias. En este caso, el estado es el inventario actual y las acciones consisten en decidir la cantidad de producto que se va a pedir. La función de recompensa La función de recompensa equilibra el beneficio de las ventas con los costes de almacenamiento y la pérdida de ingresos por falta de existencias, una aplicación fundamental en la IA para el comercio minorista. en la IA para el comercio minorista.
  • Planificación del tratamiento sanitario: Los MDP ayudan a diseñar planes de tratamiento personalizados para pacientes pacientes con enfermedades crónicas. Al modelar la salud del paciente como una serie de estados, los médicos pueden determinar la secuencia óptima de tratamientos para maximizar los resultados de salud a largo plazo. secuencia óptima de tratamientos para maximizar los resultados de salud a largo plazo. análisis de imágenes médicas.

La percepción como entrada del Estado

En las aplicaciones modernas de IA, el "estado" de un MDP se obtiene a menudo a partir de datos de alta dimensionalidad, como las secuencias de vídeo. vídeo. Un modelo de visión por ordenador (CV) procesa visual para crear una representación estructurada del estado que el algoritmo de toma de decisiones pueda comprender.

El siguiente código Python muestra cómo utilizar un modelo YOLO11 preentrenado para extraer información de estado (coordenadas de objetos) de una imagen. coordenadas) de una imagen. Estos datos pueden servir como estado de entrada para un agente basado en MDP.

from ultralytics import YOLO

# Load a pretrained YOLO11 model to act as the perception system
model = YOLO("yolo11n.pt")

# Perform inference on an image to observe the current 'state'
# In a real MDP, this would be a frame from the agent's environment
results = model("https://ultralytics.com/images/bus.jpg")

# Extract bounding box coordinates to represent the state
state_vector = results[0].boxes.xywh
print(f"Current State Observation: {state_vector}")

Distinguir conceptos relacionados

Es útil diferenciar los MDP de otros términos relacionados en el panorama de la inteligencia artificial (IA):

  • Aprendizaje por refuerzo (RL): Aunque a menudo se utilizan indistintamente, la distinción es importante. Un MDP es el marco o enunciado del problema, mientras que el RL es el método utilizado para resolverlo cuando las probabilidades de transición y las funciones de recompensa no se conocen inicialmente. no se conocen inicialmente. Los agentes aprenden la política óptima mediante ensayo y error, como se describe en los textos fundacionales de Sutton y Barto.
  • Modelo de Markov oculto (HMM): Un HMM se utiliza cuando el verdadero estado del sistema no es totalmente observable y debe inferirse a partir de salidas probabilísticas. probabilísticos. En cambio, un MDP estándar supone que el agente tiene plena visibilidad del estado actual.
  • Aprendizaje profundo por refuerzo (DRL): DRL combina MDP con aprendizaje profundo (DL). Los solucionadores de MDP tradicionales se enfrentan a espacios de estados masivos (como el número de combinaciones de píxeles posibles en un videojuego). un videojuego). DRL utiliza redes neuronales para aproximar el valor de los estados, lo que permite soluciones para entornos complejos simulados en herramientas como Gimnasio.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora