AI가 복잡한 행동을 학습하여 게임, 로봇 공학, 의료 등의 문제를 해결하는 심층 강화 학습의 힘을 알아보세요.
심층 강화 학습(DRL)은 강화 학습(RL) 의 원리와 딥 러닝(DL)의 성능을 결합한 머신 러닝(ML) 의 하위 분야입니다. 이를 통해 AI 에이전트는 복잡한 고차원 환경에서 시행착오를 통해 최적의 의사 결정 전략을 학습할 수 있습니다. 딥 뉴럴 네트워크를 사용하여 DRL 모델은 수동 피처 엔지니어링 없이도 이미지의 픽셀이나 센서 데이터와 같은 원시 감각 입력을 처리할 수 있습니다. 이를 통해 기존 RL 방식으로는 해결하기 어려웠던 문제를 해결할 수 있습니다.
일반적인 DRL 설정에서 에이전트는 일련의 시간 단계에 걸쳐 환경과 상호 작용합니다. 각 단계에서 에이전트는 환경의 상태를 관찰하고 조치를 취한 후 보상 또는 페널티를 받습니다. 목표는 시간 경과에 따른 총 누적 보상을 극대화하는 정책(행동 선택 전략)을 학습하는 것입니다. DRL의 "심층" 부분은 심층 신경망을 사용하여 정책 자체 또는 상태 또는 행동의 바람직성을 추정하는 가치 함수를 근사화하는 데서 비롯됩니다. 이 네트워크는 경사 하강과 같은 알고리즘을 사용하여 훈련되어 받은 보상에 따라 모델 가중치를 조정합니다. 이 전체 프로세스는 순차적 의사 결정을 모델링하기 위한 수학적 토대를 제공하는 마르코프 의사 결정 프로세스(MDP)를 사용하여 공식화됩니다.
DRL을 관련 용어와 구별하는 것이 중요합니다:
DRL은 다양하고 복잡한 영역에서 혁신을 주도해 왔습니다:
심층 강화 학습은 기계 자율성의 경계를 넓히는 AI 연구의 최전선에 서 있습니다. Ultralytics와 같은 회사는 주로 물체 감지 및 이미지 분할과 같은 작업을 위해 Ultralytics YOLO와 같은 최첨단 비전 모델에 중점을 두지만, 이러한 인식 시스템의 출력은 종종 DRL 에이전트의 중요한 입력이 되기도 합니다. 예를 들어, 로봇은 DRL 정책이 다음 작업을 결정하기 전에 Ultralytics HUB를 통해 배포된 Ultralytics YOLO 모델을 사용하여 환경(상태 표현)을 인식할 수 있습니다. DRL을 이해하면 고급 인식이 더 광범위한 자율 시스템에 어떻게 적용되는지에 대한 컨텍스트를 얻을 수 있습니다. 이러한 개발은 PyTorch(PyTorch 홈페이지) 및 TensorFlow(TensorFlow 홈페이지)와 같은 프레임워크에 의해 촉진되고 Gymnasium과 같은 시뮬레이션 환경에서 테스트되는 경우가 많습니다. 딥마인드와 같은 선도적인 연구 기관과 인공 지능 발전 협회(AAAI) 와 같은 학술 단체는 이 흥미로운 분야의 발전을 계속 주도하고 있습니다.