Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

Markov Decision Process (MDP)

Explora los fundamentos de los procesos de decisión de Markov (MDP). Aprende cómo los MDP impulsan el aprendizaje por refuerzo y cómo Ultralytics YOLO26 proporciona datos de estado en tiempo real.

Un Proceso de Decisión de Markov (MDP) es un marco matemático utilizado para modelar la toma de decisiones en situaciones donde los resultados son en parte aleatorios y en parte están bajo el control de quien toma la decisión. Es el esquema fundamental para el aprendizaje por refuerzo (RL), y proporciona una forma estructurada para que un agente de IA interactúe con un entorno para lograr un objetivo específico. A diferencia del aprendizaje supervisado estándar, que se basa en conjuntos de datos etiquetados estáticos, un MDP se centra en la toma de decisiones secuencial donde las acciones actuales influyen en las posibilidades futuras.

Link to this sectionComponentes clave de un MDP#

Para entender cómo opera un MDP, resulta útil visualizarlo como un ciclo de interacción entre un agente y su entorno. Este ciclo se define mediante cinco componentes clave:

  • Estado: La situación o configuración actual del entorno. En vehículos autónomos, el estado podría incluir la velocidad del coche, su ubicación y los obstáculos cercanos detectados por sensores de visión artificial (CV).
  • Acción: El conjunto de todos los movimientos o elecciones disponibles para el agente. Esto a menudo se conoce como el espacio de acción, que puede ser discreto (p. ej., mover a la izquierda, mover a la derecha) o continuo (p. ej., ajustar el ángulo de dirección).
  • Probabilidad de transición: Define la probabilidad de pasar de un estado a otro tras realizar una acción específica. Tiene en cuenta la incertidumbre y la dinámica del mundo real, lo que distingue a los MDP de los sistemas deterministas.
  • Recompensa: Una señal numérica recibida después de cada acción. La función de recompensa es fundamental porque guía el comportamiento del agente: las recompensas positivas fomentan acciones deseables, mientras que las negativas (penalizaciones) desalientan los errores.
  • Factor de descuento: Un valor que determina la importancia de las recompensas futuras en comparación con las inmediatas. Ayuda al agente a priorizar la planificación a largo plazo sobre la gratificación a corto plazo, un concepto central en la optimización estratégica.

Link to this sectionAplicaciones en el mundo real#

Los MDP actúan como el motor de toma de decisiones detrás de muchas tecnologías avanzadas, lo que permite a los sistemas navegar por entornos complejos y dinámicos.

  • Control de robótica: En IA en robótica, los MDP permiten a las máquinas aprender habilidades motoras complejas. Por ejemplo, un brazo robótico utiliza MDP para determinar la trayectoria óptima para recoger un objeto mientras evita colisiones. El estado consiste en los ángulos de las articulaciones y la posición del objeto, derivados de la detección de objetos 3D, y la recompensa se basa en la velocidad de agarre exitosa.
  • Gestión de inventario: Los minoristas utilizan MDP para la optimización de inventario. Aquí, el estado representa los niveles de existencias actuales, las acciones son decisiones de reordenamiento y las recompensas se calculan en función de los márgenes de beneficio menos los costes de almacenamiento y rotura de stock.
  • Tratamiento sanitario: En la medicina personalizada, los MDP ayudan a diseñar planes de tratamiento dinámicos. Al modelar las métricas de salud del paciente como estados y los medicamentos como acciones, los médicos pueden utilizar el modelado predictivo para maximizar los resultados de salud a largo plazo del paciente.

Link to this sectionRelación con el aprendizaje por refuerzo#

Aunque están estrechamente relacionados, es importante distinguir entre un MDP y el aprendizaje por refuerzo. Un MDP es el enunciado formal del problema: el modelo matemático del entorno. El aprendizaje por refuerzo es el método utilizado para resolver ese problema cuando las dinámicas internas (probabilidades de transición) no se conocen completamente. Los algoritmos de RL, como Q-learning, interactúan con el MDP para aprender la mejor política mediante ensayo y error.

Link to this sectionObservación visual en MDP#

En las aplicaciones modernas de IA, el "estado" de un MDP a menudo se deriva de datos visuales. Los modelos de percepción de alta velocidad actúan como los ojos del sistema, convirtiendo las transmisiones de cámara sin procesar en datos estructurados que el MDP puede procesar. Por ejemplo, Ultralytics YOLO26 puede proporcionar coordenadas de objetos en tiempo real, que sirven como entradas de estado para un agente de toma de decisiones.

El siguiente ejemplo demuestra cómo extraer una representación de estado (cuadros delimitadores) de una imagen mediante Python, que luego podría introducirse en una política de MDP.

from ultralytics import YOLO

# Load the YOLO26 model to serve as the perception layer
model = YOLO("yolo26n.pt")

# Perform inference to observe the current 'state' of the environment
results = model("https://ultralytics.com/images/bus.jpg")

# Extract bounding box coordinates to form the state vector
# This structured data tells the agent where objects are located
for box in results[0].boxes:
    print(f"State Object: Class {int(box.cls)} at {box.xywh.tolist()}")

Al integrar modelos de visión robustos con marcos de trabajo de MDP, los desarrolladores pueden crear sistemas que no solo perciben el mundo, sino que también toman decisiones inteligentes y adaptativas dentro de él. Esta sinergia es esencial para el avance de los sistemas autónomos y la fabricación inteligente.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático