Yolo 비전 선전
선전
지금 참여하기
용어집

마르코프 결정 프로세스(Markov Decision Process, MDP)

마르코프 결정 과정(MDP)의 기본 원리를 탐구하세요. MDP가 강화 학습을 어떻게 주도하는지, 그리고 Ultralytics 실시간 상태 데이터를 제공하는 방식을 알아보세요.

마르코프 결정 과정(MDP)은 결과가 부분적으로 무작위적이고 부분적으로 의사 결정자의 통제 하에 있는 상황에서 의사 결정을 모델링하는 데 사용되는 수학적 프레임워크입니다. 이는 강화 학습(RL)의 기본 설계도로, AI 에이전트가 특정 목표를 달성하기 위해 환경과 상호작용하는 구조화된 방식을 제공합니다. 표준 감독 학습이 정적 라벨링 데이터셋에 의존하는 것과 달리, MDP는 현재의 행동이 미래의 가능성에 영향을 미치는 순차적 의사결정에 초점을 맞춘다.

MDP의 핵심 구성 요소

MDP의 작동 방식을 이해하려면 에이전트와 환경 간의 상호작용 순환으로 시각화하는 것이 도움이 됩니다. 이 순환은 다섯 가지 핵심 구성 요소로 정의됩니다:

  • 상태: 환경의 현재 상황 또는 구성. 자율주행 차량에서 상태에는 차량의 속도, 위치, 컴퓨터 비전(CV) 센서로 감지된 주변 장애물 등이 포함될 수 있습니다.
  • 행동: 에이전트가 취할 수 있는 모든 가능한 이동 또는 선택의 집합. 이는 흔히 행동 공간으로 불리며, 이산적(예: 왼쪽으로 이동, 오른쪽으로 이동)이거나 연속적(예: 조향각 조정)일 수 있다.
  • 전환 확률: 특정 행동을 취한 후 한 상태에서 다른 상태로 이동할 가능성을 정의합니다. 이는 현실 세계의 불확실성과 역학을 반영하여, MDP를 결정론적 시스템과 구분합니다.
  • 보상: 각 행동 후 수신되는 수치 신호. 보상 함수는 에이전트의 행동을 안내하기 때문에 핵심적입니다— 긍정적 보상은 바람직한 행동을 장려하는 반면, 부정적 보상(벌금)은 실수를 억제합니다.
  • 할인 계수: 즉각적인 보상 대비 미래 보상의 중요성을 결정하는 값이다. 이는 에이전트가 단기적 만족보다 장기적 계획을 우선시하도록 돕는데, 이는 전략적 최적화의 핵심 개념이다.

실제 애플리케이션

MDP는 많은 첨단 기술의 의사결정 엔진 역할을 하여 시스템이 복잡하고 동적인 환경을 탐색할 수 있게 합니다.

  • 로봇 제어: 로봇 공학 분야의 인공지능에서, MDP는 기계가 복잡한 운동 기술을 학습할 수 있게 합니다. 예를 들어, 로봇 팔은 충돌을 피하면서 물체를 집어 올리기 위한 최적 경로를 결정하기 위해 MDP를 사용합니다. 상태는 3D 물체 탐지에서 파생된 관절 각도와 물체 위치이며, 보상은 성공적인 그립 속도에 기반합니다.
  • 재고 관리: 소매업체는 재고 최적화를 위해 MDP를 활용합니다. 여기서 상태는 현재 재고 수준을 나타내며, 행동은 재주문 결정이고, 보상은 이익 마진에서 보관 비용과 품절 비용을 차감하여 계산됩니다.
  • 의료 치료: 맞춤형 의료에서 의사-환자-의료기관(MDP)은 동적 치료 계획 수립을 지원합니다. 환자 건강 지표를 상태로, 약물을 행동으로 모델링함으로써 의사는 예측 모델링을 활용해 환자의 장기적 건강 결과를 극대화할 수 있습니다.

강화 학습과의 관계

밀접한 관련이 있지만, MDP와 강화 학습을 구분하는 것이 중요합니다. MDP는 형식적인 문제 진술, 즉 환경의 수학적 모델입니다. 강화 학습은 내부 역학(전환 확률)이 완전히 알려지지 않았을 때 그 문제를 해결하는 데 사용되는 방법입니다. Q-러닝과 같은 RL 알고리즘은 MDP와 상호작용하며 시행착오를 통해 최적 정책을 학습합니다.

MDP에서의 시각적 관찰

현대 AI 응용 분야에서 MDP의 "상태"는 종종 시각적 데이터로부터 도출됩니다. 고속 인식 모델은 시스템의 눈 역할을 하여, 카메라의 원시 영상을 MDP가 처리할 수 있는 구조화된 데이터로 변환합니다. 예를 들어, Ultralytics 실시간 객체 좌표를 제공할 수 있으며, 이는 의사결정 에이전트의 상태 입력값으로 사용됩니다.

다음 예시는 Python 사용하여 이미지에서 상태 표현(바운딩 박스)을 추출하는 방법을 보여줍니다. 추출된 상태 표현은 이후 MDP 정책에 입력될 수 있습니다.

from ultralytics import YOLO

# Load the YOLO26 model to serve as the perception layer
model = YOLO("yolo26n.pt")

# Perform inference to observe the current 'state' of the environment
results = model("https://ultralytics.com/images/bus.jpg")

# Extract bounding box coordinates to form the state vector
# This structured data tells the agent where objects are located
for box in results[0].boxes:
    print(f"State Object: Class {int(box.cls)} at {box.xywh.tolist()}")

강력한 비전 모델을 MDP 프레임워크와 통합함으로써 개발자는 세상을 인지할 뿐만 아니라 그 안에서 지능적이고 적응적인 결정을 내리는 시스템을 구축할 수 있습니다. 이러한 시너지는 자율 시스템과 스마트 제조의 발전을 위해 필수적입니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기