Марковский процесс принятия решений (Markov Decision Process, MDP)
Узнайте о марковских процессах принятия решений (MDP) и их роли в ИИ, обучении с подкреплением, робототехнике и принятии решений в сфере здравоохранения.
Марковский процесс принятия решений (МПП) - это математическая структура, используемая для моделирования принятия решений в ситуациях, когда результаты
частично случайны, а частично находятся под контролем лица, принимающего решение. Он служит теоретической основой для
обучения с подкреплением (RL), предоставляя
формальный способ описания среды, в которой
ИИ-агент. Структурируя задачи на состояния,
действия и вознаграждения, MDP позволяют интеллектуальным системам вычислять наилучшую стратегию, известную как политика, для максимизации
для достижения конкретных целей с течением времени. Эта основа необходима для разработки передовых технологий, от автоматизированных торговых
от автоматизированных торговых систем до автономных транспортных средств.
Основные компоненты MDP
MDP характеризует взаимодействие между агентом и его окружением с помощью пяти отдельных элементов. Эти
Эти компоненты позволяют исследователям определять сложные
проблемы машинного обучения (ML) в решаемом
формате:
-
Государства (S): Набор всех
возможных ситуаций, в которых может находиться агент. В шахматной игре состояние представляет собой текущую конфигурацию фигур на
доске.
-
Действия (A): Набор всех
возможных движений или решений, которые агент может принять из данного состояния.
-
Вероятность перехода: Вероятность перехода из одного состояния в другое после выполнения
определенного действия. Этот компонент моделирует неопределенность в окружающей среде, часто описываемую как
стохастический процесс.
-
Функция вознаграждения: Сигнал обратной связи, который количественно оценивает непосредственную выгоду от выполнения определенного
действия в определенном состоянии. Агент использует этот сигнал для оценки своей работы.
-
Политика ($\pi$): Стратегия или свод правил, определяющий поведение агента. Цель решения
MDP является нахождение "оптимальной политики", которая максимизирует общее ожидаемое вознаграждение в долгосрочной перспективе.
Центральным допущением этой системы является
свойство Маркова, которое гласит, что будущее развитие
процесса зависит только от текущего состояния, но не от последовательности событий, которые ему предшествовали. Это упрощает
вычислительные требования для принятия оптимальных решений.
Применение в реальном мире
MDP широко используются в различных отраслях промышленности для решения последовательных задач принятия решений, где планирование и
адаптивность имеют решающее значение.
-
Робототехника: Роботы часто работают
в динамичных средах, где датчики предоставляют зашумленные данные. MDP позволяет роботу планировать свой путь, рассматривая свое местоположение как состояние, а свои движения как действия.
местоположение как состояние, а его движения как действия. Системы технического зрения, основанные на
модели обнаружения объектов, такие как
YOLO11помогают роботу воспринимать состояние
Например, наличие препятствий, что позволяет роботу безопасно и эффективно перемещаться.
-
Управление запасами: В логистике цепочек поставок предприятия используют MDP для оптимизации уровня запасов.
Здесь состояние - это текущие запасы, а действия заключаются в принятии решения о том, сколько товара нужно перезаказать. Функция вознаграждения
Функция вознаграждения уравновешивает прибыль от продаж с затратами на хранение и упущенной выгодой от отсутствия товара на складе.
Это важнейшая задача ИИ для розничной торговли.
-
Планирование лечения в здравоохранении: MDP помогают разрабатывать индивидуальные планы лечения для пациентов
с хроническими заболеваниями. Моделируя здоровье пациента как ряд состояний, врачи могут определить оптимальную
последовательность процедур для достижения максимальных долгосрочных результатов, используя данные анализа медицинских изображений.
анализа медицинских изображений.
Восприятие как входное состояние
В современных приложениях искусственного интеллекта "состояние" MDP часто извлекается из высокоразмерных данных, таких как видео
каналы. Модель компьютерного зрения (CV) обрабатывает
Модель компьютерного зрения (CV) обрабатывает визуальные данные, чтобы создать структурированное представление состояния, которое может понять алгоритм принятия решений.
Следующий код Python демонстрирует, как использовать предварительно обученную модель YOLO11 для извлечения информации о состоянии (координаты объекта
координаты) из изображения. Эти данные могут служить входным состоянием для агента на основе MDP.
from ultralytics import YOLO
# Load a pretrained YOLO11 model to act as the perception system
model = YOLO("yolo11n.pt")
# Perform inference on an image to observe the current 'state'
# In a real MDP, this would be a frame from the agent's environment
results = model("https://ultralytics.com/images/bus.jpg")
# Extract bounding box coordinates to represent the state
state_vector = results[0].boxes.xywh
print(f"Current State Observation: {state_vector}")
Различение смежных понятий
Полезно отличать MDP от других родственных терминов в
искусственного интеллекта (ИИ):
-
Обучение с подкреплением (Reinforcement Learning, RL):
Хотя эти понятия часто используются как взаимозаменяемые, различие между ними очень важно. MDP - это структура или постановка задачи.
а RL - метод, используемый для ее решения, когда вероятности перехода и функции вознаграждения
изначально не известны. Агенты учатся оптимальной политике методом проб и ошибок, как описано в основополагающих текстах
Саттона и Барто.
-
Скрытая марковская модель (HMM):
HMM используется, когда истинное состояние системы не является полностью наблюдаемым и должно быть выведено из вероятностных
выходов. В отличие от этого, стандартная MDP предполагает, что агент имеет полную видимость текущего состояния.
-
Глубокое обучение с подкреплением (Deep Reinforcement Learning, DRL):
DRL объединяет MDP с глубоким обучением (DL).
Традиционные MDP-решатели с трудом справляются с огромными пространствами состояний (например, с количеством возможных комбинаций пикселей в
видеоигре). DRL использует нейронные сети для
для аппроксимации значений состояний, что позволяет находить решения для сложных сред, моделируемых в таких инструментах, как
Гимназия.