게임, 로봇 공학, 헬스케어 등에서 과제를 해결하기 위해 AI가 복잡한 행동을 학습하는 심층 강화 학습의 힘을 발견하십시오.
심층 강화 학습(DRL)은 머신러닝의 고급 하위 분야로 머신러닝(ML)의 고급 하위 분야로 의사 결정 프레임워크를 강화 학습과 강력한 인식 기능을 결합한 고급 하위 분야입니다. 기존의 강화 학습은 단순한 환경에서 행동을 최적화하기 위해 시행착오에 의존하는 반면, DRL은 은 다층 신경망을 통합하여 비디오 프레임이나 복잡한 센서 판독값과 같은 고차원적인 감각 데이터를 해석합니다. 이러한 통합을 통해 AI 에이전트가 동적이고 비동적인 환경에서 난해한 문제를 해결하기 위한 자율 주행부터 전략적 게임 플레이에 이르기까지 역동적이고 구조화되지 않은 환경의 난해한 문제를 해결하기 위해 학습할 수 있습니다.
DRL의 핵심은 에이전트와 환경 간의 상호 작용이며, 이는 종종 수학적으로 마르코프 결정 과정(MDP)으로 모델링됩니다. 모델이 학습되는 모델이 훈련되는 지도 학습과 달리 레이블이 지정된 데이터 세트에서 모델을 학습시키는 지도 학습과 달리, DRL 에이전트는 는 탐색을 통해 학습합니다. 현재 상태를 관찰하고, 조치를 취하고, 피드백 신호인 "보상"
복잡한 입력을 처리하기 위해 DRL은 다음을 사용합니다. 컨볼루션 신경망(CNN) 또는 기타 딥 아키텍처를 사용하여 특정 동작의 값을 근사화합니다. 다음과 같은 프로세스를 통해 역전파 및 그라디언트 하강과 같은 프로세스를 통해 네트워크는 모델 가중치를 조정하여 시간 경과에 따른 누적 보상을 보상을 극대화합니다. 다음과 같은 알고리즘 딥 큐 네트워크(DQN ) 및 근사 정책 최적화(PPO) 와 같은 알고리즘은 이러한 학습 과정을 안정화하여 에이전트가 이전에 보지 못한 새로운 상황에 대한 학습을 일반화할 수 있습니다.
DRL의 다재다능함은 다양한 산업 분야에서 혁신적인 애플리케이션으로 이어졌습니다:
많은 DRL 애플리케이션에서 '상태'는 시각적 정보를 나타냅니다. 고속 객체 감지 모델은 에이전트의 눈 역할을 할 수 있습니다. 에이전트의 눈이 되어 원시 픽셀을 정책 네트워크가 작동할 수 있는 구조화된 데이터로 변환합니다.
다음 예는 YOLO11 을 사용하여 상태 관찰을 추출하는 방법을 보여줍니다:
from ultralytics import YOLO
# Load YOLO11 to serve as the perception layer for a DRL agent
model = YOLO("yolo11n.pt")
# Simulate an observation from the environment (e.g., a robot's camera feed)
observation = "https://ultralytics.com/images/bus.jpg"
# Perform inference to extract the state (detected objects and locations)
results = model(observation)
# The detection count serves as a simple state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")
딥 강화 학습을 유사한 용어와 구별하여 딥 강화 학습의 고유한 위치를 이해하는 것이 도움이 됩니다. 이해하는 데 도움이 됩니다:
DRL 시스템을 개발하려면 강력한 소프트웨어 에코시스템이 필요합니다. 연구자들은 다음과 같은 프레임워크에 의존합니다. PyTorch 와 TensorFlow 을 사용하여 기본 신경망을 구축할 수 있습니다. 이들은 종종 다음과 같은 표준 인터페이스 라이브러리와 결합됩니다. 알고리즘을 테스트하고 벤치마킹하기 위한 환경을 제공하는 알고리즘을 테스트하고 벤치마킹할 수 있는 환경을 제공합니다. 이러한 모델을 훈련하는 것은 계산 집약적인 작업이며, 종종 고성능 GPU가 필요합니다. 융합에 필요한 수백만 개의 시뮬레이션 단계를 처리하기 위해 고성능 GPU가 필요한 경우가 많습니다.

