Explore how Deep Reinforcement Learning combines neural networks with reward-based logic. Learn to build DRL agents using [YOLO26](https://docs.ultralytics.com/models/yolo26/) for advanced perception.
딥 강화 학습(DRL)은 인공 지능(AI) 의 고급 하위 분야로 강화 학습의 의사 결정 능력과 딥 러닝(DL)의 인지 능력을 결합합니다. 기존 강화 학습은 상황을 행동으로 매핑하기 위해 표 기반 방법을 사용하지만, 환경이 복잡하거나 시각적일 경우 이러한 방법은 어려움을 겪습니다. DRL은 신경망을 활용해 비디오 프레임이나 센서 측정값 같은 고차원 입력 데이터를 해석함으로써 이 한계를 극복합니다. 이를 통해 기계는 명시적인 인간 지시 없이도 생생한 경험으로부터 직접 효과적인 전략을 학습할 수 있습니다.
DRL 시스템에서 AI 에이전트는 이산 시간 단계별로 환경과 상호작용합니다. 각 단계에서 에이전트는 현재 "상태"를 관찰하고, 정책에 기반하여 행동을 선택하며, 해당 행동의 성공 또는 실패를 나타내는 보상 신호를 수신합니다. 주요 목표는 시간에 따른 누적 보상을 극대화하는 것입니다.
"딥" 구성 요소는 정책(행동 전략) 또는 가치 함수(추정된 미래 보상)를 근사화하기 위해 딥 뉴럴 네트워크를 사용하는 것을 의미합니다. 이를 통해 에이전트는 컴퓨터 비전(CV) 을 활용하여 인간과 유사하게 환경을 "인식"함으로써 비정형 데이터를 처리할 수 있습니다. 이러한 기능은 다음과 같은 프레임워크에 의해 구현됩니다. PyTorch 또는 TensorFlow과 같은 프레임워크에 의해 구동되며, 이러한 복잡한 네트워크의 훈련을 용이하게 합니다.
DRL은 이론적 연구를 넘어 다양한 산업 분야에서 실질적이고 영향력 있는 응용 분야로 확장해 왔습니다:
많은 DRL(딥 강화 학습) 응용 분야에서 "상태"는 시각적입니다. 고속 모델은 에이전트의 눈 역할을 하여 원시 영상을 정책 네트워크가 처리할 수 있는 구조화된 데이터로 변환합니다. 다음 예시는 YOLO26 모델이 에이전트의 인지 계층으로 기능하여 환경으로부터 관측값(예: 장애물 개수)을 추출하는 방식을 보여줍니다.
from ultralytics import YOLO
# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")
# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Perform inference to extract the state (detected objects)
results = model(observation_frame)
# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")
딥 강화 학습을 유사한 용어와 구별하여 딥 강화 학습의 고유한 위치를 이해하는 것이 도움이 됩니다. 이해하는 데 도움이 됩니다:
DRL 시스템의 인식 계층에 필요한 데이터셋을 관리하려는 개발자는 주석 작업 및 클라우드 훈련 워크플로를 간소화하는 Ultralytics 활용할 수 있습니다. 또한 연구자들은 Gymnastics와 같은 표준화된 환경을 자주 사용하여 기존 기준선 대비 DRL 알고리즘을 벤치마킹합니다.