용어집

마르코프 의사 결정 프로세스(MDP)

AI, 강화 학습, 로봇 공학 및 의료 의사 결정에서 마르코프 의사 결정 프로세스(MDP)와 그 역할에 대해 알아보세요.

마르코프 의사결정 과정(MDP)은 결과가 부분적으로 무작위적이고 부분적으로 의사결정자의 통제 하에 있는 상황에서 의사결정을 모델링하기 위한 수학적 프레임워크입니다. 이는 강화 학습(RL)의 기본 개념으로, 환경을 설명하는 공식적인 방법을 제공합니다. 에이전트는 시간 경과에 따른 누적 보상 신호를 최대화하는 것을 목표로 환경의 상태를 관찰하고 행동을 선택함으로써 이 환경과 상호작용합니다. 핵심 아이디어는 현재가 주어지면 미래가 과거와 독립적이라고 가정하는 마르코프 속성, 즉 현재 상태가 최적의 결정을 내리는 데 필요한 모든 정보를 제공한다는 가정에 기반합니다.

마르코프 의사 결정 프로세스의 작동 방식

MDP는 에이전트와 환경 간의 상호 작용을 설명하는 몇 가지 주요 구성 요소로 정의됩니다:

  • 상태(S): 에이전트가 있을 수 있는 모든 가능한 상황 또는 구성의 집합입니다. 예를 들어 방에 있는 로봇의 위치나 제품의 재고 수준 등이 있습니다.
  • 액션(A): 에이전트가 각 상태에서 취할 수 있는 모든 가능한 동작의 집합입니다. 로봇의 경우 앞으로, 왼쪽 또는 오른쪽으로 이동할 수 있습니다.
  • 전환 확률: 특정 동작을 수행한 후 현재 상태에서 새로운 상태로 이동할 확률입니다. 이는 로봇의 바퀴가 미끄러지는 것과 같은 환경의 불확실성을 포착합니다.
  • 보상 기능: 새로운 상태로의 전환에 대한 즉각적인 가치를 나타내는 신호입니다. 보상은 긍정적이거나 부정적일 수 있으며 상담원이 바람직한 결과를 얻도록 유도합니다.
  • 정책(π): 에이전트가 각 상태에서 작업을 선택하는 데 사용하는 전략입니다. MDP를 푸는 궁극적인 목표는 장기적으로 총 기대 보상을 극대화하는 최적의 정책을 찾는 것입니다.

에이전트는 현재 상태를 관찰하고 정책에 따라 조치를 선택하고 보상을 받은 후 새로운 상태로 이동하는 순환적인 프로세스를 거칩니다. 이 반복이 계속되면서 에이전트는 경험을 통해 학습할 수 있습니다.

실제 애플리케이션

MDP는 다양한 순차적 의사 결정 문제를 모델링하는 데 사용됩니다.

  1. 로봇 공학 및 자율 항법: 로봇 공학에서 MDP는 로봇이 복잡한 공간을 탐색하는 방법을 모델링할 수 있습니다. 상태는 로봇의 좌표와 방향이 될 수 있고, 동작은 로봇의 움직임(예: 전진, 회전)이 될 수 있습니다. 보상은 목적지에 도달하면 긍정적일 수 있고 장애물과 충돌하거나 과도한 에너지를 사용하면 부정적일 수 있습니다. 물체 감지를 위해 종종 컴퓨터 비전(CV)을 사용하는 인식 시스템은 MDP에 필요한 상태 정보를 제공합니다. 이는 감각 입력에 따라 지속적으로 의사 결정을 내려야 하는 자율 주행 차량과 같은 애플리케이션에 필수적인 요소입니다.
  2. 재고 및 공급망 관리: 기업은 MDP를 사용해 재고 관리를 최적화할 수 있습니다. 상태는 현재 재고 수준, 액션은 재주문할 제품의 양, 보상 기능은 판매 수익과 재고 보유 및 품절에 따른 비용의 균형을 맞추는 것입니다. 이는 소매업용 AI의 핵심 과제인 불확실한 수요 상황에서 최적의 주문 결정을 내리는 데 도움이 됩니다. 공급망 관리 협회와 같은 선도적인 조직에서는 이러한 고급 최적화 방법을 모색하고 있습니다.

다른 개념과의 관계

머신 러닝(ML)의 관련 개념과 MDP를 구분하는 것이 유용합니다:

  • 강화 학습(RL): RL은 최적의 결정을 내릴 수 있도록 에이전트를 훈련하는 AI 분야입니다. MDP는 RL 알고리즘이 해결하도록 설계된 문제를 공식적으로 정의하는 수학적 프레임워크를 제공합니다. 환경의 변화와 보상 모델을 알 수 없는 경우 시행착오를 통해 최적의 정책을 학습하기 위해 RL 기법이 사용됩니다. 심층 강화 학습은 Sutton과 Barto의 저서에서 다루는 것처럼 복잡한 고차원 상태 공간을 처리하기 위해 심층 학습 모델을 사용함으로써 이를 확장합니다.
  • 숨겨진 마르코프 모델(HMM): 상태를 완전히 관찰할 수 있는 MDP와 달리 숨겨진 마르코프 모델(HMM) 은 상태를 직접 볼 수 없지만 일련의 관찰을 통해 추론해야 할 때 사용됩니다. HMM은 행동이나 보상을 포함하지 않으므로 의사 결정이 아닌 분석 및 추론에 사용됩니다.
  • 동적 프로그래밍: MDP의 완전하고 정확한 모델(즉, 알려진 전환 확률과 보상)이 있으면 가치 반복 및 정책 반복과 같은 동적 프로그래밍 방법을 사용하여 최적의 정책을 찾아 해결할 수 있습니다.

MDP를 위한 솔루션 개발에는 종종 Gymnasium과 같은 RL 라이브러리와 PyTorch 또는 TensorFlow와 같은 ML 프레임워크를 사용하는 것이 포함됩니다. 현재 상태를 식별하는 이러한 시스템의 인식 구성 요소는 Ultralytics YOLO11과 같은 모델을 사용하여 구축할 수 있습니다. 훈련 데이터 관리부터 모델 배포에 이르는 전체 워크플로는 Ultralytics HUB와 같은 플랫폼을 사용하여 간소화할 수 있으며 강력한 MLOps 관행으로 관리할 수 있습니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨