Yolo 비전 선전
선전
지금 참여하기
용어집

마르코프 결정 프로세스(Markov Decision Process, MDP)

마르코프 의사 결정 프로세스(MDP)와 AI, 강화 학습, 로봇 공학 및 의료 의사 결정에서의 역할을 알아보세요.

마르코프 의사 결정 프로세스(MDP)는 결과가 부분적으로 무작위적이고 의사 결정자의 통제 하에 있는 상황에서 의사 결정을 모델링하는 데 사용되는 수학적 프레임워크입니다. 결과가 부분적으로 무작위적이고 부분적으로 의사 결정자의 통제 하에 있는 상황에서 의사 결정을 모델링하는 데 사용되는 수학적 프레임워크입니다. 다음의 이론적 토대가 됩니다. 강화 학습(RL)의 이론적 토대가 됩니다. 환경을 설명하는 공식적인 방법 환경을 설명하는 공식적인 방법을 제공합니다. 문제를 상태로 구조화함으로써 상태, 행동, 보상으로 구조화함으로써, MDP는 지능형 시스템이 특정 목표를 극대화하기 위한 최적의 전략, 즉 정책을 계산하고 특정 목표를 극대화할 수 있습니다. 이 프레임워크는 자동화된 트레이딩 시스템부터 자율 주행 차량에 이르기까지 첨단 기술을 개발하는 데 필수적입니다. 시스템에서 자율 주행 차량에 이르기까지 첨단 기술을 개발하는 데 필수적입니다.

MDP의 핵심 구성 요소

MDP는 다섯 가지 요소를 사용하여 에이전트와 환경 간의 상호 작용을 특징짓습니다. 이러한 구성 요소를 통해 연구자는 복잡한 복잡한 머신 러닝(ML) 문제를 해결할 수 있는 형식으로 정의할 수 있습니다:

  • 상태(S): 상담원이 점유할 수 있는 모든 가능한 모든 상황의 집합입니다. 체스 게임에서 상태는 보드 위에 있는 말의 현재 구성을 나타냅니다. 현재 구성을 나타냅니다.
  • 액션(A): 주어진 상태에서 에이전트가 할 수 있는 모든 에이전트가 주어진 상태에서 수행할 수 있는 모든 가능한 동작 또는 결정의 집합입니다.
  • 전환 확률: 특정 작업을 수행한 후 한 상태에서 다른 상태로 이동할 가능성 가능성입니다. 이 구성 요소는 환경의 불확실성을 모델링하며 종종 확률적 프로세스.
  • 보상 기능: 특정 상태에서 특정 행동을 취했을 때의 즉각적인 이점을 정량화한 즉각적인 이점을 정량화하는 피드백 신호입니다. 상담원은 이 신호를 사용하여 성과를 평가합니다.
  • 정책($\pi$): 상담원의 행동을 정의하는 전략 또는 규칙서입니다. MDP 해결의 목표는 장기적으로 예상되는 총 보상을 극대화하는 '최적 정책'을 찾는 것입니다.

이 프레임워크의 핵심 가정은 마르코프 속성이라는 가정입니다. 의 미래 진화는 현재 상태에만 의존하고 그 이전의 이벤트 시퀀스에는 의존하지 않는다는 것입니다. 이는 최적의 프로세스를 만들기 위한 최적의 결정을 내리기 위한 계산 요구 사항을 단순화합니다.

실제 애플리케이션

MDP는 계획과 적응성이 중요한 순차적 의사 결정 문제를 해결하기 위해 다양한 산업 분야에서 널리 사용됩니다. 순차적 의사 결정 문제를 해결하는 데 사용됩니다.

  • 로봇 공학: 로봇은 종종 센서가 잡음 데이터를 제공하는 센서가 잡음이 많은 데이터를 제공하는 동적 환경에서 작동하는 경우가 많습니다. MDP를 사용하면 로봇이 자신의 위치를 상태, 움직임을 동작으로 처리하여 위치를 상태, 움직임을 동작으로 처리하여 경로를 계획할 수 있습니다. 비전 시스템, 다음과 같은 물체 감지 모델 YOLO11와 같은 물체 감지 모델을 기반으로 하는 비전 시스템은 로봇이 장애물의 존재 여부와 같은 장애물의 존재 여부 등 주변 환경을 인식하여 로봇이 안전하고 효율적으로 탐색할 수 있도록 지원합니다.
  • 재고 관리: 공급망 물류에서 기업은 MDP를 사용하여 재고 수준을 최적화합니다. 여기서 상태는 현재 재고를 의미하며, 재주문할 제품의 양을 결정하는 작업이 포함됩니다. 보상 기능은 판매 수익과 보관 비용 및 재고 부족으로 인한 수익 손실의 균형을 맞추는 역할을 하며, 이는 소매업에서 중요한 소매업용 AI 애플리케이션입니다.
  • 의료 치료 계획: MDP는 만성 질환을 앓고 있는 환자를 위한 맞춤형 치료 계획을 맞춤형 치료 계획을 설계할 수 있도록 지원합니다. 의사는 환자 건강을 일련의 상태로 모델링하여 최적의 치료 순서를 결정할 수 있습니다. 최적의 치료 순서를 결정하여 장기적인 건강 결과를 극대화할 수 있습니다. 의료 이미지 분석.

상태 입력으로서의 인식

최신 AI 애플리케이션에서 MDP의 '상태'는 비디오 피드와 같은 고차원 데이터에서 파생되는 경우가 많습니다. 피드와 같은 고차원 데이터에서 파생되는 경우가 많습니다. 컴퓨터 비전(CV) 모델은 시각적 입력을 처리하여 시각적 입력을 처리하여 의사 결정 알고리즘이 이해할 수 있는 구조화된 상태 표현을 만듭니다.

다음 Python 코드는 사전 학습된 YOLO11 모델을 사용하여 이미지에서 상태 정보(객체 좌표)를 이미지에서 추출하는 방법을 보여줍니다. 이 데이터는 MDP 기반 에이전트의 입력 상태로 사용될 수 있습니다.

from ultralytics import YOLO

# Load a pretrained YOLO11 model to act as the perception system
model = YOLO("yolo11n.pt")

# Perform inference on an image to observe the current 'state'
# In a real MDP, this would be a frame from the agent's environment
results = model("https://ultralytics.com/images/bus.jpg")

# Extract bounding box coordinates to represent the state
state_vector = results[0].boxes.xywh
print(f"Current State Observation: {state_vector}")

관련 개념 구분하기

MDP를 다음에서 다른 관련 용어와 구별하는 것이 도움이 됩니다. 인공지능(AI) 환경의 다른 관련 용어와 구별하는 것이 도움이 됩니다:

  • 강화 학습(RL): 종종 같은 의미로 사용되지만 구분이 중요합니다. MDP는 프레임워크 또는 문제 문인 반면, RL은 전환 확률과 보상 함수가 를 처음에 알 수 없을 때 사용하는 방법입니다. 상담원은 시행착오를 통해 최적의 정책을 학습합니다. 에 설명된 대로 에이전트는 시행착오를 통해 최적의 정책을 학습합니다.
  • 숨겨진 마르코프 모델(HMM): HMM은 시스템의 실제 상태를 완전히 관찰할 수 없고 확률론적 출력에서 추론해야 할 때 사용됩니다. 출력에서 추론해야 할 때 사용됩니다. 이와 대조적으로 표준 MDP는 상담원이 현재 상태를 완전히 파악할 수 있다고 가정합니다.
  • 심층 강화 학습(DRL): DRL은 MDP와 딥러닝(DL)을 결합한 것입니다. 기존의 MDP 솔버는 방대한 상태 공간(예: 비디오 게임에서 가능한 픽셀 조합의 수)으로 인해 어려움을 겪습니다. 비디오 게임). DRL은 신경망을 사용하여 상태의 값을 근사화하여 다음과 같은 도구에서 시뮬레이션된 복잡한 환경에 대한 솔루션을 지원합니다. 체육관.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기